设备群控故障预测 LLM · Yonshore Case 07

设备群控场景下的
故障预测 LLM · 从坏了再修到预警再查

在设备群控运营场景下，一条时序数据接入管线 + 一个异常解释 LLM + 一套工单智能分派，可以把「坏了再修」变成「预警再查」，让运维班组提前数小时拿到处置建议。

Discipline · 业务范畴 AI Consulting + Implementation · 咨询 + 实施整包

Sector · 行业设备群控 / 工业物联网运营

Scope · 方案范围 4 个模块 · 时序接入 / 趋势识别 / 异常解释 / 工单分派

Scale · 场景量级参考量级在管设备约 1,800 台 / 6 个运维班组 / 日均遥测点位约 240 万

Stack · 技术栈工业网关 + MQTT 接入 · 时序数据库 · 大模型异常解释 · 既有工单系统对接

i. The Brief · 挑战

告警淹没、停机突然、工单乱派、老师傅经验留不住。

设想一家给多个园区做设备群控运营的服务商。这类场景里，运维压力通常集中在四件事：阈值告警每天上千条，九成是噪声，真正的故障前兆淹在里面；非计划停机往往毫无征兆，一停就是大半天，园区客户索赔；工单凭值班人主观判断派给班组，误派后来回踢皮球；故障怎么判、怎么处置，全靠两三个老师傅的经验，人一休假就抓瞎。

ii. Diagnosis · 诊断

先复盘半年的停机记录，找出哪些故障有迹可循。

这类场景的落地路径，第一步不是动手，而是把停机记录与遥测数据对齐复盘。这样做通常会发现，大部分非计划停机在故障前数小时其实有可观测的趋势漂移（温度缓升、振动加剧、电流波动），只是被阈值告警的噪声盖住了。结论很清晰——能 AI 化的是「趋势识别 + 异常解释 + 工单分派」，不能 AI 化的是「现场处置与判停决策」。

iii. The Solution · 方案

四个模块、双周一迭代、可分段验收。

这一方案按双周迭代、分段验收。第一段是 时序数据接入管线——经工业网关与 MQTT 把在管设备的遥测点位统一汇入时序数据库，做清洗与对齐；第二段是 趋势异常识别——在时序数据上做多指标趋势建模，识别故障前兆的漂移信号，把上千条阈值告警压缩成少量高置信预警；第三段是 异常解释 LLM——把异常信号、设备档案、历史处置记录交给大模型，生成「可能原因 + 建议排查动作 + 紧急程度」的自然语言说明，让一线看得懂；第四段是 工单智能分派——结合设备位置、故障类型、班组技能与负载，把预警工单直接派到合适班组，写回既有工单系统。

模块 1 · 时序数据接入管线（工业网关 + MQTT / 清洗对齐）
模块 2 · 趋势异常识别（多指标趋势建模 / 噪声压缩）
模块 3 · 异常解释 LLM（原因 + 排查动作 + 紧急程度自然语言）
模块 4 · 工单智能分派（位置 × 故障类型 × 班组技能负载）

iv. Decisions Made · 关键决策

不自动停机、保留老师傅复核、预警宁多勿漏。

这类场景里有三个值得提前画好的边界：不做自动停机与自动检修，判停涉及园区生产连续性和安全责任，AI 只出预警和建议，按不按停由值班长决定；异常解释保留老师傅复核闭环，上线初期 LLM 给出的处置建议由资深师傅打分回流，持续校正，而不是一上来就让一线照单执行；预警阈值偏向召回而非精确，漏报一次停机的代价远高于多看几条预警，宁可让班组多核实，也不放过真前兆。这三个边界，是这一方案能稳定运行、把安全风险压住的根本原因。

设备群控场景下的
故障预测 LLM · 从坏了再修到预警再查

告警淹没、停机突然、工单乱派、老师傅经验留不住。

先复盘半年的停机记录，找出哪些故障有迹可循。

四个模块、双周一迭代、可分段验收。

不自动停机、保留老师傅复核、预警宁多勿漏。

这类场景可参考的效果区间。

业务侧六步 · 映射到 AI 四个模块。

你的业务也卡在同样的环节？
从一次需求对话开始。

设备群控场景下的 故障预测 LLM · 从坏了再修到预警再查

告警淹没、停机突然、工单乱派、老师傅经验留不住。

先复盘半年的停机记录，找出哪些故障有迹可循。

四个模块、双周一迭代、可分段验收。

不自动停机、保留老师傅复核、预警宁多勿漏。

这类场景可参考的效果区间。

业务侧六步 · 映射到 AI 四个模块。

相关案例 · 3 条线索

你的业务也卡在同样的环节？从一次需求对话开始。

设备群控场景下的
故障预测 LLM · 从坏了再修到预警再查

你的业务也卡在同样的环节？
从一次需求对话开始。