1) 收到告警后,第一时间确认故障影响范围:是单个业务、单客户,还是所有去往日本的流量都受影响。记录告警时间、告警类型(链路down、路径丢包、BGP邻居掉线等)。
2) 同时查询监控(NMS、Grafana、PRTG等)和联通提供的实时监控,看光功率、接口错误、丢包率、BGP邻居状态、延迟变化等历史趋势。
1) 在本端设备执行接口状态查看(示例Cisco):show interface GigabitEthernet0/0/0 | include line|input|output|Last clearing。检查接口up/down、CRC错误、input errors、output errors、link flaps频率。
2) 检查光模块和光功率:使用ethtool或设备show transceiver命令查看TX/RX dBm,核对是否在供应商SFP阈值内;必要时更换SFP或光纤跳线并做好时间记录与对比。
1) 联系联通NOC确认是否在进行光路维护、波分切换、跨域切换或线路施工,获取维护工单编号与计划时间,防止误判。
2) 若联通确认无维护,则继续向下层排查;若有维护,评估影响并要求联通提供回退或预计恢复时间。
1) 在路由器上运行:show ip bgp summary / show bgp neighbors x.x.x.x(或相应厂商命令)查看状态、保持时间、前缀数、收到的UPDATE、消息错误。
2) 如BGP邻居掉线,执行clear bgp x.x.x.x soft in/out(软重置)与clear bgp x.x.x.x(硬重置需谨慎)来恢复会话,并观察TCP三次握手和BGP OPEN日志。
1) 使用ping/traceroute/mtr从本端和对端(若有)检测到日本机房的延迟和丢包点:traceroute -n -I/ -T 或 mtr -r -c 100 ip。
2) 如果traceroute在某跳骤然丢包,记录跳数和IP,向联通传递具体跃点信息,便于其在骨干侧定位。
1) 检查接口MTU配置与端到端路径MTU:在Linux上用ping -M do -s 1472 ip 来测试分片;在路由器上检查接口MTU是否一致。
2) 如果发现ICMP不可达或分片导致长连接失败,调整MTU或配置TCP MSS clamping(例如ip tcp adjust-mss 1360)作为临时解决方案。
1) 在受影响链路或交换机上做抓包:tcpdump -i eth0 host <对端IP> and (tcp or icmp) -w /tmp/jp.pcap(限制包数并写入文件)。
2) 分析PCAP:查看TCP三次握手、RST、重传、窗口大小、重复ACK以及UDP丢包和ICMP超时,判断是链路层问题还是应用层异常。
1) 检查边界防火墙和路由器上的ACL、策略路由或NAT是否在近期有变更:show access-lists、show running-config | include route-map、policy-map等。
2) 若规则变更与故障时间吻合,回滚变更或按最小影响原则修改策略,如暂时放通相关目的IP/端口来恢复业务。
1) 若主链路不可恢复,快速启用备用链路(备链路、BGP多路径或第三方回程)。实施步骤:在BGP上调整local-preference、AS-path prepend或使用community标注,诱导流量走备路。
2) 对于紧急业务,可采用流量黑洞(RTBH)或流量重定向到国内CDN/缓存,但须慎用并记录变更以免影响其他业务。
提问:我需要向联通NOC提交哪些关键信息才能快速定位问题?
回答:必须包含:故障开始时间(带时区)、影响范围(IP/业务/链路)、本端与对端接口状态截图或show命令输出(接口、BGP邻居、路由表)、traceroute/mtr结果、抓包文件(pcap),光模块RX/TX值与错误计数,是否有变更记录和工单号。按上述清单整理并在工单中附上时间戳与联系人电话,加快响应。
提问:故障恢复后我应该做哪些复盘和预防措施?
回答:恢复后需执行:1) 验证业务端到端通断与性能;2) 收集故障期间和恢复后的监控数据对比(丢包、延迟、带宽);3) 完成RCA文档:故障描述、影响服务、根因、临时处置、长久修复计划、责任方与改进措施(如增加备链路、硬件更换、ACL策略硬化);4) 根据RCA调整SOP并演练一次。
提问:遇到BGP邻居间歇性掉线或大量丢包,有哪些快速排查和短期缓解动作?
回答:快速排查按优先级:1) 检查本端接口错误与光功率;2) 看BGP邻居日志是否报TCPReset或HoldTimer超时;3) 用抓包捕获TCP三次握手失败包;短期缓解:启用备链路或调整路由策略(local-preference提升备路前缀)、在路由器上临时增加BFD检测频率或减少hold timer以加速故障切换,并与联通NOC协同确认骨干侧状态。