路由故障排查,是网工的核心技能之一,不管是企业排障还是软考 / HCIA 考试,都是高频内容。这篇不讲空泛的理论,而是从「通用分层思路」到「具体故障场景」,一步步教你定位并解决路由问题,看完就能按步骤排查 90% 的路由故障。


一、路由故障排查的核心原则

在开始排查前,先掌握三个核心原则,避免走弯路:

  1. 分层排查:从物理层到应用层,按 OSI 模型顺序排查,底层问题优先解决;
  2. 从易到难:先做换网线、重启设备这类简单操作,再抓包、查日志;
  3. 从共性到个性:多台设备都不通,先查出口 / 网关;单台设备异常,再查本机配置。

二、通用分层排查流程(OSI 模型从下到上)

2.1 物理层排查(占路由故障的 30%,最容易被忽略)

很多看似复杂的路由故障,根源都是物理层问题:

  • 核心排查点
    1. 路由器 / 交换机接口指示灯是否常亮 / 闪烁,红灯表示接口异常;
    2. 网线 / 光纤是否插紧,水晶头是否氧化、损坏;
    3. 设备电源是否正常,是否存在断电 / 重启;
  • 排查技巧:换一根已知正常的网线,把网线插到其他端口,快速定位是网线还是端口问题。

2.2 数据链路层排查(二层问题导致三层不通)

物理层正常后,排查数据链路层,确认链路协商正常:

  • 核心排查点
    1. 端口双工 / 速率模式:是否协商正常,双工不匹配会导致丢包严重;
    2. VLAN 配置:设备和网关是否在同一个 VLAN,Access 口 PVID 是否正确;
    3. STP 状态:是否有端口被阻塞,导致流量无法转发;
  • 常用命令(华为):plaintextdisplay interface brief # 查看接口状态和双工模式 display vlan brief # 查看端口所属VLAN display stp brief # 查看STP端口角色

2.3 网络层排查(路由故障的核心层)

网络层是路由故障的高发区,按以下步骤排查:

  1. IP 配置检查
    • 设备 IP 地址、子网掩码、网关是否配置正确;
    • 检查是否存在 IP 地址冲突,两台设备配置了相同 IP;
  2. 路由表检查
    • 查看路由表中是否存在目标网段的路由条目;
    • 确认路由条目符合最长匹配原则,优先级是否正确;
    • 检查下一跳 IP 是否可达,出接口是否为 Up 状态;
  3. 连通性测试
    • ping 网关IP:确认设备能和网关通信;
    • tracert 目标IP:追踪数据包传输路径,定位丢包节点;
    • 根据 ICMP 报错类型(目标不可达 / TTL 超时)判断故障方向。

2.4 应用层排查(路由能通但业务不通)

前面三层都正常,但业务(网页 / 服务器)无法访问,就是应用层问题:

  • 核心排查点
    1. 业务端口是否开放,比如网页的 80/443 端口、服务器的 22/3389 端口;
    2. 防火墙 / 安全组是否拦截了业务流量;
    3. 目标服务是否正常运行,是否关闭或崩溃;
  • 排查技巧:用telnet 目标IP 端口号测试端口是否开放,关闭设备防火墙再测试。

三、不同路由类型的故障排查

3.1 静态路由常见故障与排查

故障 1:配置了静态路由,但目标网段不通

  • 常见原因
    • 下一跳 IP 配置错误,或下一跳设备不可达;
    • 出接口 Down,或接口配置错误;
    • 路由被更高优先级的直连 / 动态路由覆盖;
  • 排查步骤
    1. display ip routing-table 查看静态路由是否存在;
    2. ping 下一跳IP 确认下一跳设备正常;
    3. 检查出接口是否为 Up 状态;
    4. 对比路由优先级,确认静态路由没有被覆盖。

故障 2:浮动静态路由不生效

  • 常见原因:优先级配置错误(比动态路由高),动态路由故障时静态路由未启用;
  • 排查步骤
    1. 查看静态路由的优先级,确认比动态路由低;
    2. 手动关闭动态路由,测试静态路由是否生效;
    3. 检查静态路由的目标网段和下一跳配置。

3.2 动态路由常见故障与排查(以 OSPF/RIP 为例)

故障 1:OSPF 邻居无法建立

  • 常见原因
    • 直连链路 Down,或两端接口 IP 不在同一网段;
    • 两端区域号不一致,或骨干区域 Area 0 不连续;
    • Router ID 重复,或宣告的网段配置错误;
    • 认证配置不一致(明文 / MD5);
  • 排查步骤
    1. 检查直连链路是否 Up,接口 IP 是否在同一网段;
    2. 查看 OSPF 宣告的网段,确认包含接口 IP;
    3. 检查两端区域号是否一致,骨干区域是否连续;
    4. 确认两端 Router ID 唯一,认证配置一致。

故障 2:RIP 无法学习到对端路由

  • 常见原因
    • 两端 RIP 版本不一致(v1/v2);
    • 水平分割 / 毒性逆转配置错误;
    • 目标网段跳数超过 15 跳;
  • 排查步骤
    1. 检查两端 RIP 版本是否一致,是否开启 v2 兼容 v1;
    2. 查看路由更新报文是否被水平分割过滤;
    3. 检查目标网段的跳数是否超过 15 跳。

故障 3:路由频繁震荡

  • 常见原因:链路不稳定、动态路由邻居震荡、计时器配置错误;
  • 排查步骤
    1. 检查链路状态,是否频繁 Up/Down;
    2. 查看动态路由邻居是否频繁建立 / 断开;
    3. 调整 Hello 和 Dead 计时器,避免网络波动导致邻居断开。

3.3 NAT 相关路由故障排查

故障 1:内网设备无法访问公网

  • 常见原因
    • NAT 配置错误,ACL 未允许内网网段;
    • NAT 地址池耗尽,无可用公网 IP;
    • 公网接口未获取 IP,或默认路由缺失;
  • 排查步骤
    1. 检查 NAT 配置,确认 ACL 允许内网网段;
    2. display nat address-group 查看地址池是否耗尽;
    3. 检查公网接口是否获取 IP,默认路由是否指向运营商网关;
    4. 查看 NAT 会话表,确认是否有转换条目。

故障 2:NAT 端口映射失败

  • 常见原因
    • 内网服务器配置错误,端口未开启;
    • 公网 IP 被运营商屏蔽了 80/8080 等端口;
    • 端口映射配置错误,公网 IP + 端口和内网 IP + 端口不对应;
  • 排查步骤
    1. 检查内网服务器是否开启,端口是否正常;
    2. 确认端口映射配置正确;
    3. 更换非 80 端口测试,排查运营商端口屏蔽问题。

四、网工常用排查工具与命令

4.1 基础连通性测试命令

表格

命令适用系统作用
ping IP/域名Windows/Linux测试连通性和延迟
ping -t IPWindows持续 ping,排查间歇性故障
tracert IP/域名Windows追踪数据包路径,定位丢包节点
traceroute IP/域名Linux追踪数据包路径
telnet 目标IP 端口Windows/Linux测试目标端口是否开放

4.2 设备查看命令(华为 / 思科通用)

表格

命令(华为)作用
display ip routing-table查看路由表
display ospf peer brief查看 OSPF 邻居状态
display rip route查看 RIP 路由条目
display nat session all查看 NAT 会话表
display ip interface brief查看接口 IP 和状态

4.3 进阶抓包工具

  • Wireshark:抓取 ICMP、OSPF、NAT 报文,分析故障原因,比如 OSPF Hello 报文是否发送、NAT 转换是否成功;
  • PingPlotter:图形化的 ping 和路由追踪,直观显示丢包节点和延迟变化。

五、实战案例:从现象到解决的完整排查流程

案例 1:同网段能通,跨网段无法访问外网

  • 现象:内网设备能 ping 通网关,ping 公网 IP 不通;
  • 排查步骤
    1. 检查设备 IP 配置,确认网关配置正确;
    2. ping 网关IP,确认设备和网关能通信;
    3. 查看路由器路由表,确认存在默认路由指向运营商网关;
    4. 检查 NAT 配置,确认内网网段允许转换;
    5. 查看运营商链路是否正常,ping 运营商网关 IP。

案例 2:OSPF 邻居建立失败,无法学习路由

  • 现象:两台 OSPF 路由器接口 Up,但邻居状态停留在 Init;
  • 排查步骤
    1. 检查两端接口 IP,确认在同一网段;
    2. 查看 OSPF 宣告的网段,确认包含接口 IP;
    3. 检查区域号,确认两端在同一区域;
    4. 查看 Router ID,确认没有重复;
    5. 检查是否配置了认证,两端认证配置一致。

六、路由故障排查避坑指南(新手必看)

  1. ❌ 坑 1:上来就抓包,忽略物理层问题,比如网线坏了、接口灯不亮;
  2. ❌ 坑 2:只看路由条目存在,不看下一跳是否可达;
  3. ❌ 坑 3:忽略路由优先级,静态路由被动态路由覆盖;
  4. ❌ 坑 4:动态路由故障时,忘记检查计时器和区域号;
  5. ❌ 坑 5:NAT 故障只看 NAT 配置,不检查公网路由是否存在。

Categories:

Tags:

No responses yet

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

© 2026 世文的网络技术&蓝队安全学习小站
滇ICP备2026006758号-1 | 网安备