Case 07 of 22 · ← Back to Work · Industrial IoT

设备群控场景下的
故障预测 LLM · 从坏了再修到预警再查

在设备群控运营场景下,一条时序数据接入管线 + 一个异常解释 LLM + 一套工单智能分派,可以把「坏了再修」变成「预警再查」,让运维班组提前数小时拿到处置建议。

Discipline · 业务范畴 AI Consulting + Implementation · 咨询 + 实施整包
Sector · 行业 设备群控 / 工业物联网运营
Scope · 方案范围 4 个模块 · 时序接入 / 趋势识别 / 异常解释 / 工单分派
Scale · 场景量级 参考量级 在管设备约 1,800 台 / 6 个运维班组 / 日均遥测点位约 240 万
Stack · 技术栈 工业网关 + MQTT 接入 · 时序数据库 · 大模型异常解释 · 既有工单系统对接
i. The Brief · 挑战

告警淹没、停机突然、工单乱派、老师傅经验留不住。

设想一家给多个园区做设备群控运营的服务商。这类场景里,运维压力通常集中在四件事:阈值告警每天上千条,九成是噪声,真正的故障前兆淹在里面;非计划停机往往毫无征兆,一停就是大半天,园区客户索赔;工单凭值班人主观判断派给班组,误派后来回踢皮球;故障怎么判、怎么处置,全靠两三个老师傅的经验,人一休假就抓瞎。

ii. Diagnosis · 诊断

先复盘半年的停机记录,找出哪些故障有迹可循。

这类场景的落地路径,第一步不是动手,而是把停机记录与遥测数据对齐复盘。这样做通常会发现,大部分非计划停机在故障前数小时其实有可观测的趋势漂移(温度缓升、振动加剧、电流波动),只是被阈值告警的噪声盖住了。结论很清晰——能 AI 化的是「趋势识别 + 异常解释 + 工单分派」,不能 AI 化的是「现场处置与判停决策」。

iii. The Solution · 方案

四个模块、双周一迭代、可分段验收。

这一方案按双周迭代、分段验收。第一段是 时序数据接入管线——经工业网关与 MQTT 把在管设备的遥测点位统一汇入时序数据库,做清洗与对齐;第二段是 趋势异常识别——在时序数据上做多指标趋势建模,识别故障前兆的漂移信号,把上千条阈值告警压缩成少量高置信预警;第三段是 异常解释 LLM——把异常信号、设备档案、历史处置记录交给大模型,生成「可能原因 + 建议排查动作 + 紧急程度」的自然语言说明,让一线看得懂;第四段是 工单智能分派——结合设备位置、故障类型、班组技能与负载,把预警工单直接派到合适班组,写回既有工单系统。

  • 模块 1 · 时序数据接入管线(工业网关 + MQTT / 清洗对齐)
  • 模块 2 · 趋势异常识别(多指标趋势建模 / 噪声压缩)
  • 模块 3 · 异常解释 LLM(原因 + 排查动作 + 紧急程度自然语言)
  • 模块 4 · 工单智能分派(位置 × 故障类型 × 班组技能负载)
iv. Decisions Made · 关键决策

不自动停机、保留老师傅复核、预警宁多勿漏。

这类场景里有三个值得提前画好的边界:不做自动停机与自动检修,判停涉及园区生产连续性和安全责任,AI 只出预警和建议,按不按停由值班长决定;异常解释保留老师傅复核闭环,上线初期 LLM 给出的处置建议由资深师傅打分回流,持续校正,而不是一上来就让一线照单执行;预警阈值偏向召回而非精确,漏报一次停机的代价远高于多看几条预警,宁可让班组多核实,也不放过真前兆。这三个边界,是这一方案能稳定运行、把安全风险压住的根本原因。

这类场景可参考的效果区间

Reference Range · 场景参考区间
非计划停机次数 原状 频发 参考区间 明显下降
故障平均预警提前量 原状 无 典型可达 数小时
工单误派率 原状 约三成 参考区间 一成以内
无效告警量(日均) 原状 上千条 典型可达 大幅压缩
巡检人力投入 原状 班组负荷重 参考区间 明显下降
Note · 区间随设备类型与遥测密度而变 口径 · 同类场景的参考效果,非特定项目实测
v. Architecture · 业务流映射图

业务侧六步 · 映射到 AI 四个模块

Fig. — 业务流六节点 映射 AI 四模块 · 嵌入层只做预警编排不替代判停决策
关键要点:AI 不替运维做判停决定,而是把上千条噪声压成几条值得看的预警,再用大白话说清可能是什么问题、先查哪里。老师傅省下来的精力,可以花在真正的疑难故障上。
这一场景的核心取舍
Like What You See · 想要类似方案

你的业务也卡在同样的环节?
从一次需求对话开始。

留下场景与目标,72 小时内回复一份初步评估(是否值得做 · 预计周期 · 落地路径)。 合适才进 30 分钟视频会议,不合适直说。