北京大学信息管理系主任、出版研究院院长张久珍
二是图书馆的下一个未来应该是“数据图书馆”。过去图书馆经历了实体馆藏的图书馆、数字图书馆两个阶段,我们认为,下一个未来一定是“数据图书馆”。这里的“数据”与之前的数据不一样,以前图书馆的数据主要是从“0”到“1”揭示“存不存在”,比如编目的元数据主要起这个作用。但是,新的“数据图书馆”的“数据”,是能够训练AI模型的标注数据。现在智慧图书馆的普遍建设思路是用AI来优化图书馆的业务流程。实际上,这种思路是有局限性的。我们认为应该是图书馆去产生各式各样的、优质的“训练语料数据”,供图书馆和图书馆外部的、能够渗透到人民日常生活方方面面的“通用人工智能”AI模型使用,只有这样才能达成完全不着痕迹的“活化利用”使命和“以文化人”使命。
三是文化系统需要“大一统”的数据基础设施。当前,生成式人工智能(AIGC)在人文领域的事实性数据上出现了“幻觉”,就是一本正经地胡说八道,对人文问题的答复缺乏权威性、缺乏可信度、缺乏可解释性,问题比较大。实际上,主要原因是数据之间处于割裂状态,无法关联、无法推理计算,这要求有一个“大一统”的数据基础设施。所谓的“大一统的数据基础设施”,就是历史上以及当下的任何人、职官、地名、机构等等,都只有一个唯一的、统一的DOI(唯一标识符),这样,不同的机构标注的可用于AI训练的数据才能做数据交换、数据关联、数据计算、数据回溯。
四是今天国家图书馆出版社发布的“中国古籍图典资源库”。我提前用给的账号进去看了一下,非常惊艳,古籍里各种以前没有注意到或一扫而过的动物、植物、物品等等,都做了标注和提取,而且标注提取出来后显示度更强大了。对于这个“中国古籍图典资源库”,我的理解:
一是创造性产生了不少新的命名实体知识。过去我们的目光都放在人、地、职官,实际上花鸟虫鱼、梅兰竹菊、桌椅农具都是有价值的文化知识。这些全新的实体知识,如何在学术界、文化界、产业界得到充分利用,应该有很大的前景。
上面是我不成熟的认识和看法,敬请大家指正,谢谢大家!
(本文根据“古籍图典数字化与活化利用研讨会”录音整理)