张久珍馆藏资源活化利用的数据基础古籍编目资源库图书馆|图书馆集成管理系统采访编目_在线图书馆

北京大学信息管理系主任、出版研究院院长张久珍

二是图书馆的下一个未来应该是“数据图书馆”。过去图书馆经历了实体馆藏的图书馆、数字图书馆两个阶段，我们认为，下一个未来一定是“数据图书馆”。这里的“数据”与之前的数据不一样，以前图书馆的数据主要是从“0”到“1”揭示“存不存在”，比如编目的元数据主要起这个作用。但是，新的“数据图书馆”的“数据”，是能够训练AI模型的标注数据。现在智慧图书馆的普遍建设思路是用AI来优化图书馆的业务流程。实际上，这种思路是有局限性的。我们认为应该是图书馆去产生各式各样的、优质的“训练语料数据”，供图书馆和图书馆外部的、能够渗透到人民日常生活方方面面的“通用人工智能”AI模型使用，只有这样才能达成完全不着痕迹的“活化利用”使命和“以文化人”使命。

三是文化系统需要“大一统”的数据基础设施。当前，生成式人工智能（AIGC）在人文领域的事实性数据上出现了“幻觉”，就是一本正经地胡说八道，对人文问题的答复缺乏权威性、缺乏可信度、缺乏可解释性，问题比较大。实际上，主要原因是数据之间处于割裂状态，无法关联、无法推理计算，这要求有一个“大一统”的数据基础设施。所谓的“大一统的数据基础设施”，就是历史上以及当下的任何人、职官、地名、机构等等，都只有一个唯一的、统一的DOI（唯一标识符），这样，不同的机构标注的可用于AI训练的数据才能做数据交换、数据关联、数据计算、数据回溯。

四是今天国家图书馆出版社发布的“中国古籍图典资源库”。我提前用给的账号进去看了一下，非常惊艳，古籍里各种以前没有注意到或一扫而过的动物、植物、物品等等，都做了标注和提取，而且标注提取出来后显示度更强大了。对于这个“中国古籍图典资源库”，我的理解：

一是创造性产生了不少新的命名实体知识。过去我们的目光都放在人、地、职官，实际上花鸟虫鱼、梅兰竹菊、桌椅农具都是有价值的文化知识。这些全新的实体知识，如何在学术界、文化界、产业界得到充分利用，应该有很大的前景。

上面是我不成熟的认识和看法，敬请大家指正，谢谢大家！

（本文根据“古籍图典数字化与活化利用研讨会”录音整理）

THE END

张久珍馆藏资源活化利用的数据基础古籍编目资源库图书馆

自动化博览

李鑫：新一代图书馆服务平台使用与感受

图书馆智慧建设具体产品分析中研普华

张久珍馆藏资源活化利用的数据基础古籍编目资源库图书馆

上海开放大学图书馆常见问题解答