Case 18 of 22 · ← Back to Work · Education & Training

职业教育场景下的
LLM 自动出题 · 场景方案展示

在职业教育场景里,一个知识点结构化体系 + 一套 LLM 命题引擎 + 一道教研审核闸门,能把教研团队从「手工凑题」中解放出来,并把题目可用率拉上一个台阶。这一页拆解这一方案的落地路径。

Discipline · 业务范畴 AI Consulting + Implementation · 咨询 + 实施一体
Sector · 行业 教育 / 培训 · 职业技能考证
Timeline · 方案周期 单场景上线参考 · 5 至 7 周
Scale · 场景量级 参考量级 · 14 个考证科目 / 教研团队约 9 人 / 季度命题需求约 6,000 道
Stack · 技术栈 大语言模型命题引擎 · 向量检索 · 既有题库系统对接 · 知识点图谱 · 教研审核工作台
i. The Brief · 挑战

命题靠老师傅手攒、题库重复率高、知识点盲区无人发现。

设想一家覆盖 14 个考证科目的职业教育机构。这类机构常见的痛点是「题不够用,但人也加不动了」。拆开看是三件事:每个季度近 6,000 道命题需求全靠 9 名教研老师手工出,加班高峰期人均日产不到 20 道;题库里同一个知识点反复出几乎一样的题,学员刷两套就背答案;考纲更新后没人能快速判断哪些知识点缺题、哪些超纲,出卷质量完全依赖少数资深老师的经验直觉。题不够、又重复、还有盲区——三个问题互相缠在一起。

ii. Diagnosis · 诊断

先把考纲拆成可计算的知识点,再谈出题。

这类场景的落地路径,第一步不是写命题逻辑。合理的做法是和教研负责人一起把各科目的考纲逐条拆成结构化知识点,给每个知识点标注题型、难度区间与考频权重;再抽样数千道历史题做去重聚类,量化出真实重复率。结论通常很清楚:能 LLM 化的是「按知识点批量产候选题」,不能 LLM 化的是「判断题目是否符合考纲尺度与行业实务」——后者必须留给教研老师。

iii. The Solution · 方案

四个模块、按科目分批上线、数周上线。

这类场景的落地路径,可以按科目分批上线,每批和教研负责人对齐一次。第一段是 知识点图谱——各科目的考纲全部结构化,每个知识点带题型、难度、考频标签,缺题盲区自动高亮;第二段是 LLM 命题引擎——按知识点与难度批量产候选题,命题时检索题库做语义去重,从源头避免出重复题;第三段是 教研审核工作台——候选题统一进审核队列,老师按「直接采用 / 改后采用 / 退回」三档处理,所有改动回流成模型参考样本;第四段是 题库对接与覆盖看板——通过采用的题自动写回既有题库系统,覆盖看板按科目展示知识点缺口。

  • 模块 1 · 知识点图谱(14 科目考纲结构化 / 题型 × 难度 × 考频标签 / 盲区高亮)
  • 模块 2 · LLM 命题引擎(按知识点批量产题 / 命题即语义去重)
  • 模块 3 · 教研审核工作台(三档处理 / 改动回流为参考样本)
  • 模块 4 · 题库对接 + 覆盖看板(写回客户既有题库系统 / 知识点缺口可视化)
iv. Decisions Made · 关键决策

不做自动入库、不碰主观题判分、给命题设知识点边界。

这类场景值得守住三条「不做」的边界:不做自动入库,所有 LLM 候选题必须经教研老师审核才进题库,避免错题、超纲题流到考场;不碰主观题判分,案例分析、论述这类题只辅助命题,不替代阅卷,判分尺度涉及行业实务争议;不做无边界生成,命题引擎严格锚定结构化知识点范围,绝不让模型「自由发挥」出考纲外的题。这三个边界,是这一方案能稳定运行、不出命题事故的根本原因。

这类场景可参考的效果区间。

参考区间 · 典型可达
教研团队季度命题工时 参考起点 千余工时 典型可达 76%
候选题一次审核可用率 参考起点 六成上下 典型可达 九成以上
考纲知识点题目覆盖率 参考起点 偏低 典型可达 +41%
题库重复题占比 参考起点 近三成 典型可达 83%
单科目出卷周期 参考起点 数天 典型可达 1 至 2 天
数据为这类场景的参考区间,非实测结果 实际效果随数据基础与业务复杂度而定
v. Architecture · 业务流映射图

命题业务六步 · 映射到 AI 四个模块

Fig. — 命题业务六节点 映射 AI 四模块 · 嵌入层只做编排不替代教研审核
关键要点 · 不是先装一个出题工具,而是先把考纲拆成一条条知识点,把缺题、重复一个个标出来。出题的活能轻一大半,但每道题最终拍板的仍是教研老师。
这一方案的核心取舍
Like What You See · 想要类似方案

你的业务也卡在同样的环节?
从一次需求对话开始。

留下场景与目标,72 小时内回复一份初步评估(是否值得做 · 预计周期 · 按需报价思路)。 合适才进 30 分钟视频会议,不合适直说。