路由故障排查,是网工的核心技能之一,不管是企业排障还是软考 / HCIA 考试,都是高频内容。这篇不讲空泛的理论,而是从「通用分层思路」到「具体故障场景」,一步步教你定位并解决路由问题,看完就能按步骤排查 90% 的路由故障。
一、路由故障排查的核心原则
在开始排查前,先掌握三个核心原则,避免走弯路:
- 分层排查:从物理层到应用层,按 OSI 模型顺序排查,底层问题优先解决;
- 从易到难:先做换网线、重启设备这类简单操作,再抓包、查日志;
- 从共性到个性:多台设备都不通,先查出口 / 网关;单台设备异常,再查本机配置。
二、通用分层排查流程(OSI 模型从下到上)
2.1 物理层排查(占路由故障的 30%,最容易被忽略)
很多看似复杂的路由故障,根源都是物理层问题:
- 核心排查点:
- 路由器 / 交换机接口指示灯是否常亮 / 闪烁,红灯表示接口异常;
- 网线 / 光纤是否插紧,水晶头是否氧化、损坏;
- 设备电源是否正常,是否存在断电 / 重启;
- 排查技巧:换一根已知正常的网线,把网线插到其他端口,快速定位是网线还是端口问题。
2.2 数据链路层排查(二层问题导致三层不通)
物理层正常后,排查数据链路层,确认链路协商正常:
- 核心排查点:
- 端口双工 / 速率模式:是否协商正常,双工不匹配会导致丢包严重;
- VLAN 配置:设备和网关是否在同一个 VLAN,Access 口 PVID 是否正确;
- STP 状态:是否有端口被阻塞,导致流量无法转发;
- 常用命令(华为):plaintext
display interface brief # 查看接口状态和双工模式 display vlan brief # 查看端口所属VLAN display stp brief # 查看STP端口角色
2.3 网络层排查(路由故障的核心层)
网络层是路由故障的高发区,按以下步骤排查:
- IP 配置检查:
- 设备 IP 地址、子网掩码、网关是否配置正确;
- 检查是否存在 IP 地址冲突,两台设备配置了相同 IP;
- 路由表检查:
- 查看路由表中是否存在目标网段的路由条目;
- 确认路由条目符合最长匹配原则,优先级是否正确;
- 检查下一跳 IP 是否可达,出接口是否为 Up 状态;
- 连通性测试:
ping 网关IP:确认设备能和网关通信;tracert 目标IP:追踪数据包传输路径,定位丢包节点;- 根据 ICMP 报错类型(目标不可达 / TTL 超时)判断故障方向。
2.4 应用层排查(路由能通但业务不通)
前面三层都正常,但业务(网页 / 服务器)无法访问,就是应用层问题:
- 核心排查点:
- 业务端口是否开放,比如网页的 80/443 端口、服务器的 22/3389 端口;
- 防火墙 / 安全组是否拦截了业务流量;
- 目标服务是否正常运行,是否关闭或崩溃;
- 排查技巧:用
telnet 目标IP 端口号测试端口是否开放,关闭设备防火墙再测试。
三、不同路由类型的故障排查
3.1 静态路由常见故障与排查
故障 1:配置了静态路由,但目标网段不通
- 常见原因:
- 下一跳 IP 配置错误,或下一跳设备不可达;
- 出接口 Down,或接口配置错误;
- 路由被更高优先级的直连 / 动态路由覆盖;
- 排查步骤:
display ip routing-table查看静态路由是否存在;ping 下一跳IP确认下一跳设备正常;- 检查出接口是否为 Up 状态;
- 对比路由优先级,确认静态路由没有被覆盖。
故障 2:浮动静态路由不生效
- 常见原因:优先级配置错误(比动态路由高),动态路由故障时静态路由未启用;
- 排查步骤:
- 查看静态路由的优先级,确认比动态路由低;
- 手动关闭动态路由,测试静态路由是否生效;
- 检查静态路由的目标网段和下一跳配置。
3.2 动态路由常见故障与排查(以 OSPF/RIP 为例)
故障 1:OSPF 邻居无法建立
- 常见原因:
- 直连链路 Down,或两端接口 IP 不在同一网段;
- 两端区域号不一致,或骨干区域 Area 0 不连续;
- Router ID 重复,或宣告的网段配置错误;
- 认证配置不一致(明文 / MD5);
- 排查步骤:
- 检查直连链路是否 Up,接口 IP 是否在同一网段;
- 查看 OSPF 宣告的网段,确认包含接口 IP;
- 检查两端区域号是否一致,骨干区域是否连续;
- 确认两端 Router ID 唯一,认证配置一致。
故障 2:RIP 无法学习到对端路由
- 常见原因:
- 两端 RIP 版本不一致(v1/v2);
- 水平分割 / 毒性逆转配置错误;
- 目标网段跳数超过 15 跳;
- 排查步骤:
- 检查两端 RIP 版本是否一致,是否开启 v2 兼容 v1;
- 查看路由更新报文是否被水平分割过滤;
- 检查目标网段的跳数是否超过 15 跳。
故障 3:路由频繁震荡
- 常见原因:链路不稳定、动态路由邻居震荡、计时器配置错误;
- 排查步骤:
- 检查链路状态,是否频繁 Up/Down;
- 查看动态路由邻居是否频繁建立 / 断开;
- 调整 Hello 和 Dead 计时器,避免网络波动导致邻居断开。
3.3 NAT 相关路由故障排查
故障 1:内网设备无法访问公网
- 常见原因:
- NAT 配置错误,ACL 未允许内网网段;
- NAT 地址池耗尽,无可用公网 IP;
- 公网接口未获取 IP,或默认路由缺失;
- 排查步骤:
- 检查 NAT 配置,确认 ACL 允许内网网段;
display nat address-group查看地址池是否耗尽;- 检查公网接口是否获取 IP,默认路由是否指向运营商网关;
- 查看 NAT 会话表,确认是否有转换条目。
故障 2:NAT 端口映射失败
- 常见原因:
- 内网服务器配置错误,端口未开启;
- 公网 IP 被运营商屏蔽了 80/8080 等端口;
- 端口映射配置错误,公网 IP + 端口和内网 IP + 端口不对应;
- 排查步骤:
- 检查内网服务器是否开启,端口是否正常;
- 确认端口映射配置正确;
- 更换非 80 端口测试,排查运营商端口屏蔽问题。
四、网工常用排查工具与命令
4.1 基础连通性测试命令
表格
| 命令 | 适用系统 | 作用 |
|---|---|---|
ping IP/域名 | Windows/Linux | 测试连通性和延迟 |
ping -t IP | Windows | 持续 ping,排查间歇性故障 |
tracert IP/域名 | Windows | 追踪数据包路径,定位丢包节点 |
traceroute IP/域名 | Linux | 追踪数据包路径 |
telnet 目标IP 端口 | Windows/Linux | 测试目标端口是否开放 |
4.2 设备查看命令(华为 / 思科通用)
表格
| 命令(华为) | 作用 |
|---|---|
display ip routing-table | 查看路由表 |
display ospf peer brief | 查看 OSPF 邻居状态 |
display rip route | 查看 RIP 路由条目 |
display nat session all | 查看 NAT 会话表 |
display ip interface brief | 查看接口 IP 和状态 |
4.3 进阶抓包工具
- Wireshark:抓取 ICMP、OSPF、NAT 报文,分析故障原因,比如 OSPF Hello 报文是否发送、NAT 转换是否成功;
- PingPlotter:图形化的 ping 和路由追踪,直观显示丢包节点和延迟变化。
五、实战案例:从现象到解决的完整排查流程
案例 1:同网段能通,跨网段无法访问外网
- 现象:内网设备能 ping 通网关,ping 公网 IP 不通;
- 排查步骤:
- 检查设备 IP 配置,确认网关配置正确;
ping 网关IP,确认设备和网关能通信;- 查看路由器路由表,确认存在默认路由指向运营商网关;
- 检查 NAT 配置,确认内网网段允许转换;
- 查看运营商链路是否正常,ping 运营商网关 IP。
案例 2:OSPF 邻居建立失败,无法学习路由
- 现象:两台 OSPF 路由器接口 Up,但邻居状态停留在 Init;
- 排查步骤:
- 检查两端接口 IP,确认在同一网段;
- 查看 OSPF 宣告的网段,确认包含接口 IP;
- 检查区域号,确认两端在同一区域;
- 查看 Router ID,确认没有重复;
- 检查是否配置了认证,两端认证配置一致。
六、路由故障排查避坑指南(新手必看)
- ❌ 坑 1:上来就抓包,忽略物理层问题,比如网线坏了、接口灯不亮;
- ❌ 坑 2:只看路由条目存在,不看下一跳是否可达;
- ❌ 坑 3:忽略路由优先级,静态路由被动态路由覆盖;
- ❌ 坑 4:动态路由故障时,忘记检查计时器和区域号;
- ❌ 坑 5:NAT 故障只看 NAT 配置,不检查公网路由是否存在。
No responses yet