会背法规会画图，百页卷宗秒分析？全国高校首个纪检监察大模型“清鉴”上线

一字不差地背诵各项法律法规，十几秒内便能分析完上百页的案件卷宗，还能自动生成清晰的受贿资金流向图……4月21日，全国高校首个纪检监察垂直领域大模型“清鉴”在东南大学正式上线。

针对通用大模型在纪检监察工作场景中暴露出的专业知识匮乏、逻辑不够严密、数据安全存在风险等核心痛点，研发团队倾力打造了一个真正懂纪检监察业务、说话有据可查且绝对安全保密的“数字专家”。

40亿tokens“喂”出来的“纪检通”

用过通用AI的人可能都有这种体验：问它一个党内法规问题，它回答得头头是道，可一查原文，法条编号是编的，案例也是张冠李戴。这在纪检监察工作中，是绝对不允许的。

怎么解决？东南大学纪检监察研究院执行院长刘练军向记者介绍，“清鉴”构建了一个目前国内高校规模最大的纪检监察训练语料库，规模达到40亿tokens（即40亿个文本处理单元）。“这个数据量，在全国高校里是最大的，结构也是非常完整的。”

这40亿tokens全面覆盖政治、组织、廉洁、群众、工作、生活等“六大纪律”，整合了党内法规、国家法律、学术研究和实务判例。更值得一提的是，团队还精准梳理了全国31个省区市的地方规范性文件差异。“不同地区的执纪执法场景，它都能相对灵活地适配。”刘练军解释道。

此外，知识库里还收录了大量按多维度精细标注的典型案例。东南大学纪检监察研究院研究员毕胜告诉记者，光把案例堆进去是不够的。“公开的纪检案例和普通法院判决书不一样，它往往很短，就一段话，线索、证据过程都没有。就像一个故事只给了开头和结尾，中间怎么查的、证据链是什么，基本全空白。”

于是团队创新提出数据构建技术，像侦探破案一样，把简短案例背后的侦查流程、证据链条、逻辑脉络一点点“补”全。“有了这样的‘养料’，喂出来的模型自然更靠谱。”毕胜说。

更令人惊叹的是，“清鉴”的处理能力。一般的AI模型读个十多万字的文档可能就“卡壳”了，而“清鉴”的文本处理长度被拉长到了100万字。这意味着，它可以一口气读完一本像《红楼梦》那样厚度的案件卷宗，并进行分析。

在现场演示中，毕胜上传了一份长达103页的受贿案公开判决书。在短短十几秒的时间里，“清鉴”不仅理清了复杂的人物关系和受贿事实，还自动生成了一个可视化的“资金网络图”，清晰地展示了资金从哪来、到哪去、经谁手、用什么方式。最后，它甚至总结了此类案件的侦查启示，如“资金穿透”“轨迹追踪”等。

给AI配“考官”和“法律图书馆”

光有数据还不够。怎么保证AI在推理时逻辑严谨、不乱编法条？毕胜向记者解释，基于纪检监察工作极强的政治性、保密性与严谨性要求，大模型须在完全隔离的私有化环境中部署，研发团队创新构建了“私有化部署+多场景合成数据+基于纪检监督规则的奖励优化（GRPO）推理强化+检索增强生成（RAG）”全流程技术路径，确保模型“以事实为根据，以党内法规和国家法律为准绳”，安全合规又精准专业。

这些术语听起来复杂，但可以简单理解为两件事：第一，给AI请了一位“考官”。这位“考官”手里有一张详细的评分表：法条引用准不准？逻辑推理顺不顺？结论有没有事实依据？AI每思考一步，考官就打分，分数越高说明推理越严谨；第二，给AI配了一座“法律图书馆”。每次回答问题，AI都必须从这座图书馆里找依据，并且回复相关结论出自哪一条法规、哪一个案例。在此基础上，可极大程度缓解虚构法条或事实的“幻觉”现象。

没有专业背景的普通人也能用

这样一个专业性极强的模型，普通人能用到吗？

答案是肯定的。据介绍，“清鉴”面向的群体很广，使用门槛低。一方面，模型可以辅助纪检监察实务工作者完成从信访举报、线索处置到案件审理的全链条工作，比如智能起草报告、审查证据链完整性、推荐适用法条等；另一方面，模型中的知识库中包含大量学术论文、研究成果和法规法条，可供高校师生、普通公众及所有被监督对象研究学习。

“此次发布的‘清鉴’大模型还只是一个初版，我们整个研发只用了76天。”刘练军坦言，目前服务器能力有限，后续还会不断升级，让更多用户能同时访问。

据悉，“清鉴”取自晋代《抱朴子》一书，承载着助力实现清明政治的目标。该模型由东南大学纪检监察研究院、法学院、新一代人工智能技术与交叉应用教育部重点实验室和未来法治与数智技术创新实验室等单位联合研发，既是学校“文工交叉”的又一硕果，也是东大将前沿人工智能技术与国家重大战略需求深度融合的标志性成果。

新华日报·交汇点记者谢诗涵/文刘莉/图

通讯员孙艳吴涵玉