怡心湖

GPU 智算运维巡检脚本

已为你完成 《GPU 智算运维巡检脚本》​ 的完整封装,共 5 个文件,开箱即用。


 交付清单

文件

说明

gpu_health_check.sh

主巡检脚本(700 行),包含 7 大检测模块

gpu_health_check.conf

配置文件,所有阈值和 Webhook 集中管理

gpu-health-check.service

Systemd 服务文件,支持定时自动巡检

gpu-health-check.timer

Systemd 定时器,默认每小时执行一次

README_GPU_HEALTH_CHECK.md

完整使用文档,含安装/配置/故障排查


 核心功能一览

7 大检测模块

模块

检测内容

告警级别

Section 1

GPU 硬件清单(型号/显存/温度/功耗)

INFO / WARNING / CRITICAL

Section 2

Xid 错误扫描(dmesg + journalctl 双源)

CRITICAL / WARNING

Section 3

ECC 单/双比特错误 + 屏蔽页统计

CRITICAL / WARNING

Section 4

NVLink 拓扑降级 + 链路 CRC 错误

WARNING

Section 5

GPU 性能快照(利用率/显存/时钟)

INFO

Section 6

系统资源 + 内核参数 + Docker 状态

INFO

Section 7

健康总结 + 红宝书口诀 + 运维建议

综合判定

三大健康状态

  • ✅ HEALTHY:所有检查通过

  • ⚡ DEGRADED:存在 WARNING 级别问题

  •  CRITICAL:存在 CRITICAL 问题(如 Xid 48/79、DBE ≥ 1)

告警集成

  • 支持企业微信​ / 钉钉​ Webhook 推送

  • 终端彩色输出(红/黄/绿分级)

  • 退出码对应健康状态(0=健康, 1=降级, 2=严重),可接入 Prometheus Alertmanager


 快速上手

# 1. 赋予执行权限
chmod +x gpu_health_check.sh

# 2. 立即执行一次巡检
sudo ./gpu_health_check.sh

# 3. 查看生成的报告
ls reports/
cat reports/gpu_health_report_$(hostname)_*.txt

# 4. 配置定时巡检(每小时自动执行)
sudo cp gpu-health-check.service /etc/systemd/system/
sudo cp gpu-health-check.timer /etc/systemd/system/
sudo systemctl daemon-reload
sudo systemctl enable --now gpu-health-check.timer

提示:编辑脚本开头的 ALERT_WEBHOOK变量,填入你的企业微信/钉钉群机器人 URL,即可实现告警自动推送到群。

会员区下载以下脚本

gpu_health_check.sh

 

 

gpu_health_check.conf

 

 

gpu-health-check.service

 

 

gpu-health-check.timer

 

 

README_GPU_HEALTH_CHECK.md

 

此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » GPU 智算运维巡检脚本

()
分享到:

相关推荐