1.
总说明:检查前准备与安全流程
- 检查前准备:确认当日巡检表、访问权限、工具(笔记本、网线、万用表、手电、标签、脱磁笔)、个人防护用品。
- 安全流程:遵循机房门禁、断电操作由合规人员执行,不在带电柜内拆装高压设备。遇高压/燃油相关检查先通知电力维护。
- 日志记录:打开巡检表记录时间、巡检人、发现事项、处置结果和截图或拍照证据(设备面板、告警截图)。
2.
UPS与电力系统的故障指标与操作
- 要检查的指标:输入电压/频率、输出电压、负载百分比、旁路状态、蓄电池电压与电池组均衡、剩余放电时间、温度、报警码。
- 具体步骤:1) 登录UPS管理界面或NMC,查看State/Alarm;2) 用SNMP或厂家工具读取UPS的电池电压与充放电循环次数;3) 验证旁路标志不常闭;4) 检查电池箱温度是否高于25°C并记录;5) 若放电测试计划当日,提前通知业务方并按厂商流程执行模拟切换。
- 常见故障号:Battery Failure、Overload、Inverter Fault、Bypass Active,应按厂商手册逐项排查并及时报修。
3.
发电机与ATS(自动转换开关)检查
- 指标:燃油/柴油余量、冷却液温度、电池电压、自动/手动启动测试记录、运行小时表、ATS切换时间与接触器状态。
- 步骤:1) 观察燃油表并对照保养周期;2) 检查机油和冷却液并记录;3) 查看电池端子是否腐蚀、紧固;4) 执行一次短时间受载或手动启动测试(非高峰期),确认发电机能稳定并满足额定频率/电压;5) 验证ATS切换顺畅并记录切换时间。注意:任何载荷测试需和安全负责人协调并做好应急回滚方案。
4.
CRAC/空调(精密空调)与环境指标
- 指标:供/回风温度、机房平均温度、湿度(相对湿度RH)、冷冻水压/流量、换热器状态、冷凝水排放、告警(湿度过高/过低、冷冻站故障)。推荐入风温度18-27°C,湿度40-60%。
- 步骤:1) 在机柜入口中层处测量入风温度与回风温度并记录差值;2) 确认CRAC面板无故障灯,检查过滤网、冷凝水盘无积水;3) 核对BMS/空调系统的告警历史,定位间歇性过温事件;4) 对出现湿度异常的区域,检查加湿/除湿设备与漏水传感器。
5.
机柜与供配电(PDU、插座)检查
- 指标:每路负载电流、单插口电流、接地状态、漏电告警、温度、插座磨损。
- 步骤:1) 登录智能PDU查看每个出口实时电流与历史趋势;2) 标注高负荷出口(>80%额定)并计划负载均衡;3) 用接地测试仪核验接地电阻是否在合格范围;4) 现场检查插头是否发热、变色,如发现异常立刻迁移负载并标注告警。
6.
网络设备的关键故障指标与检查方法
- 指标:接口错误(CRC、input errors、output errors)、链路丢包、光口的Rx/Tx功率、风扇和电源状态、CPU/内存使用率、温度。
- 步骤:1) 通过SSH运行show interface或ethtool -S查看错误计数并比对上次巡检数据;2) 检查SFP光模块的收发功率,若低于厂家建议阈值需换件或清洁光纤端面;3) 查看交换机/路由器CPU与内存,发现尖峰则查看进程/flow;4) 对接口高错误的端口逐步:替换网线→更换光模块→检查对端配置→查看链路层抖动。
7.
服务器与存储(硬件级)故障指标与SMART检测
- 指标:CPU温度、风扇转速、冗余电源状态、硬盘SMART报警(Reallocated_Sector_Ct、Current_Pending_Sector、UATA_CRC_Error_Count)、RAID降级、散热异常。
- 步骤:1) 使用IPMI(ipmitool sdr)或厂商iLO/DRAC查看传感器数据;2) 对硬盘运行smartctl -a /dev/sdX,关注预警阈值并立刻替换有Pending或Reallocated的盘;3) 确认RAID状态为Optimal或正常重建中;4) 若出现高温,检查风道、前后门封堵并清理灰尘。
8.
日志与告警管理(如何快速定位事件)
- 指标:集中监控告警(SNMP Trap、Syslog、Prometheus/Alertmanager告警)、重复告警、抖动告警、告警未被确认。
- 步骤:1) 打开当日告警面板,按严重级别排序;2) 对高优先级(P0/P1)事件,先定位影响范围(单机/机柜/机房区);3) 下载相关Syslog与设备状态快照,标注时间轴;4) 若为网络或电力触发,先检查相关设备的邻居与上游链路;5) 对于历史反复出现的问题,建立根因分析工单并注明临时缓解措施。
9.
环境与安全传感器:漏水、烟感、门禁与视频
- 指标:漏水探测器触发、烟雾告警、火警系统故障、门禁异常、摄像头离线。
- 步骤:1) 巡查漏水传感器排布点,若发现触发,沿传感器回溯查找渗水源并切断相关设备电源;2) 核查烟感且与火警联动系统联通;3) 检查门禁记录是否有异常进出并与值班记录比对;4) 确认摄像头镜头清洁,录像存储可用且无断片。
10.
常用远程排查工具与命令清单
- 工具:ssh、ipmitool、smartctl、ethtool、snmpwalk/snmpget、curl(查询API)、厂商管理软件(UPS/NMC、PDU Portal)。
- 命令示例:ipmitool sdr list;smartctl -a /dev/sdX;snmpwalk -v2c -c public
.1.3.6;ethtool -S eth0;查看系统日志:journalctl -u 服务名 --since "1 hour ago"。
11.
日常巡检的记录与升级流程
- 指标:巡检记录是否完整、隐患是否按优先级上报、维修单闭环时间。
- 步骤:1) 每次巡检完毕上传巡检表和照片到工单系统;2) 对P0/P1项创建紧急工单并抄送值班主管;3) 记录临时处置步骤与建议的根本修复;4) 定期(周/月)回顾高频问题,更新预防性维护计划。
12.
在日本机房的合规与沟通注意事项
- 注意事项:遵守当地电气安全法规与机房厂商保修条款,涉外语言沟通时尽量提供日/英双语记录。
- 步骤:1) 紧急联系本地厂商与安全联系人电话表放置明显位置;2) 涉及燃油、消防等必须使用本地授权人员操作;3) 发送告警邮件/工单时同时附上快照与时间戳,便于追溯。
13.
问:机房温度突然上升,我第一步应做什么?
答:第一时间检查CRAC面板与精密空调告警(是否停机)、机柜入口与回风温度差,确认是否为单柜局部问题或空调故障;同时查看智能PDU和交换机温度,有无并发高温;若是空调故障,迅速启动备用空调或调整送风,迁移高热负载并通知机房厂商。
14.
问:发现硬盘SMART出现Pending sector,要如何处置?
答:先对该磁盘做立即备份(如仍可访问)并在业务维护窗口内替换磁盘;在替换前不要执行可能删除数据的写操作;提交更换工单并把SMART报告与RAID日志一并上传,若在RAID重建中监测到更多异常盘应暂停扩展并联系存储厂商。
15.
问:UPS报Battery Failure但业务未中断,是否可以延后处理?
答:不建议延后处理。即使当前旁路或负载未受影响,电池故障意味着当市电断电时无法保障负载。应立即记录故障代码、查询电池剩余放电时间,按厂商建议安排紧急更换或在低峰期进行整体电源测试与电池组替换。
来源:运维日常检查中需要关注的日本机房设备有哪些故障指标