“陆小曼在常州住过哪儿?”“苏轼结交了哪些常州籍朋友?”“孟河医派在明清有多火爆?”2月26日,常州图书馆发布的AI大语言模型CZLIB 2.0变身“常州文化学霸”,乐此不疲地回答着大家的提问。这是江苏首个由公共图书馆基于DeepSeek自主研发的地方文化大语言模型,将为地方文化的研究、传播与创新注入全新活力,同时也标志着公共图书馆领域的人工智能融合实践迈入新阶段。
相较于通用AI工具,CZLIB 2.0以“垂直深耕文化”为特色。“如果将普通AI比作学生,这个模型就是‘常州文化学霸’,以往查资料就像‘大海捞针’,有了模型就变成学霸‘精准投喂’。”常州市图书馆馆长钱竑这样比喻。
常州大学汉语言文学专业大四学生金明对此深有感触,他在赶论文时需要了解关于明代金坛人高迁的资料,便求助普通版本的DeepSeek,不料蹦出了一堆不相干的内容:“浙江仙居县高迁古镇”“高迁在古汉语中意为升迁,如《诗经》中‘迁于乔木’……”这令金明哭笑不得,而在常州图书馆的AI大语言模型中,他直接检索出明代高迁的生平事迹和著作,连同文献的出处也一并显示。
“常州文化学霸”是如何炼成的?钱竑告诉记者:“DeepSeek的反馈主要依赖训练数据的质量和数量,如果数据不完整,就会导致输出错误的结果。”2024年6月,常州图书馆就启动了常州地方文化大语言模型的研发工作。如今有了DeepSeek的助力,加上图书馆内海量地方文献、古籍善本、历史档案等资料支撑,诞生的CZLIB 2.0在结果输出上自然更为精准。
钱竑介绍,常州图书馆汇集了古籍、民国文献典藏、地区史志、常州地方报纸等各类地方文献,其中很多文献在市场上流通量少,很少被外网收录。近年来,常州图书馆围绕特色馆藏,构建了一个庞大且多元的常州地方文化数据库。目前,该数据库已收录中吴遗韵专题片、常州地方报纸、常州家谱、地方志、常州名流、老字号传人口述史等九大系列。
常州地方文化大语言模型研发的第一步,便是充分发挥图书馆的资源优势,让大模型“猛啃教材”,馆员把地方文献、古籍善本、历史档案等海量文献以及图书馆自建数据库全“喂”进“知识宝库”。这些资料既包括常州从春秋时期淹城的建立到近代民族工业崛起数千年的历史,又涵盖常州梳篦、留青竹刻等巧夺天工的传统技艺,还囊括了灿若星辰的地方名人和数以万计的地名资料。
在全面收集资料的基础上,常州图书馆运用当下最前沿的训练算法,对DeepSeek模型进行优化。常州图书馆技术部主任、项目负责人孙宁介绍,本地化部署了DeepSeek大模型,在输入大量的本地文化数据的基础上,还邀请地方研究机构、资深学者为其“开小灶”,以保证内容权威性和专业性。
如何让沉睡的馆藏资源精准对接读者需求、重新焕发生机,一度是摆在图书馆人面前的难题。AI技术的发展为图书馆开展地方文化服务提供了新机遇。在钱竑看来,CZLIB 2.0是人工智能技术与常州地方文化深度融合的实践,本质上是一座联通历史、服务当下、连接未来的数智桥梁。它不仅能吸引更多人参与到地方文化的保护传承中来,也让古老的文化在数字时代焕发出新的生机。
记者 周 娴