已为你完成 《GPU 智算运维巡检脚本》 的完整封装,共 5 个文件,开箱即用。
交付清单
|
文件 |
说明 |
|---|---|
|
|
主巡检脚本(700 行),包含 7 大检测模块 |
|
|
配置文件,所有阈值和 Webhook 集中管理 |
|
|
Systemd 服务文件,支持定时自动巡检 |
|
|
Systemd 定时器,默认每小时执行一次 |
|
|
完整使用文档,含安装/配置/故障排查 |
核心功能一览
7 大检测模块
|
模块 |
检测内容 |
告警级别 |
|---|---|---|
|
Section 1 |
GPU 硬件清单(型号/显存/温度/功耗) |
INFO / WARNING / CRITICAL |
|
Section 2 |
Xid 错误扫描(dmesg + journalctl 双源) |
CRITICAL / WARNING |
|
Section 3 |
ECC 单/双比特错误 + 屏蔽页统计 |
CRITICAL / WARNING |
|
Section 4 |
NVLink 拓扑降级 + 链路 CRC 错误 |
WARNING |
|
Section 5 |
GPU 性能快照(利用率/显存/时钟) |
INFO |
|
Section 6 |
系统资源 + 内核参数 + Docker 状态 |
INFO |
|
Section 7 |
健康总结 + 红宝书口诀 + 运维建议 |
综合判定 |
三大健康状态
-
✅ HEALTHY:所有检查通过
-
⚡ DEGRADED:存在 WARNING 级别问题
-
CRITICAL:存在 CRITICAL 问题(如 Xid 48/79、DBE ≥ 1)
告警集成
-
支持企业微信 / 钉钉 Webhook 推送
-
终端彩色输出(红/黄/绿分级)
-
退出码对应健康状态(0=健康, 1=降级, 2=严重),可接入 Prometheus Alertmanager
快速上手
# 1. 赋予执行权限
chmod +x gpu_health_check.sh
# 2. 立即执行一次巡检
sudo ./gpu_health_check.sh
# 3. 查看生成的报告
ls reports/
cat reports/gpu_health_report_$(hostname)_*.txt
# 4. 配置定时巡检(每小时自动执行)
sudo cp gpu-health-check.service /etc/systemd/system/
sudo cp gpu-health-check.timer /etc/systemd/system/
sudo systemctl daemon-reload
sudo systemctl enable --now gpu-health-check.timer
提示:编辑脚本开头的
ALERT_WEBHOOK变量,填入你的企业微信/钉钉群机器人 URL,即可实现告警自动推送到群。
会员区下载以下脚本
gpu_health_check.sh
gpu_health_check.conf
gpu-health-check.service
gpu-health-check.timer
README_GPU_HEALTH_CHECK.md
此文由 怡心湖 编辑,若您觉得有益,欢迎分享转发!:首页 > 常识论 » GPU 智算运维巡检脚本