11月4-6日,由中国公共关系协会联合中共海南省委宣传部、北京邮电大学共同主办的“2023中国文化计算大会”在海南博鳌隆重召开。国家图书馆出版社副社长葛艳聪以《以数字技术赋能中华优秀传统文化传承与创新——国家图书馆出版社古籍数字化的探索与实践》为题发表演讲。以下内容根据速记整理。
各位专家,各位从事文化数字化行业的同仁,今天很高兴借“2023中国文化计算大会”向各位专家汇报国家图书馆出版社在中华优秀传统文化的传承发展上做的一些工作。
我今天汇报的内容分为四部分:一是简单介绍一下国家图书馆出版社,二是简单汇报一下国图出版社在古籍数字化、数字出版方面的一些探索和实践,三是,我们参与国家文化大数据体系作的一些工作,最后是个人关于优秀传统文化传承和创新上的一点思考。
国家图书馆出版社
国家图书馆是国家总书库,国家书目中心,国家古籍保护中心。是中国最大的图书馆,共收藏的古籍大概15万部,其中善本古籍直接继承了南宋缉熙殿、元翰林国史院、明文渊阁、清内阁大库等皇家珍藏,以及明清以来许多私人藏书家的毕生所聚。最早的馆藏可远溯到3000多年前的殷墟甲骨。珍品特藏包含敦煌遗书、西域文献、善本古籍、金石拓片、古代舆图、少数民族文字古籍、名家手稿等280余万册件。“敦煌遗书”、“赵城金藏”、《永乐大典》、文津阁《四库全书》被誉为国家图书馆“四大专藏”。
国家图书馆出版社是文化和旅游部主管,国家图书馆主办的一个专业出版社,也是全国百佳图书出版单位。建设40余年来,形成了图情专业出版、历史文献影印整理,中华传统文化普及推广三个出版方向。在历史文献的影印整理出版方向上,出版了《中华再造善本》、《永乐大典》等一大批有代表性的珍贵历史文献。
2019年国家图书馆建馆110周年之际,习近平总书记给国图的老专家回信中明确提到,国家图书馆要坚持正确的政治方向,要弘扬优秀传统文化,创新服务方式。2022年4月,“两办”发布《关于推动新时代古籍工作的意见》,提出推进古籍数字化,支持古籍数字化的重点单位做强做优,加强数字化资源管理的开放共享,推动古籍专业数据库开发与利用,加速推动古籍整理利用转型升级。国家图书馆作为国内重要的古籍存藏单位,我们作为一个专业的出版社,承担新时代古籍数字化工作的重要责任,也肩负着新时代中华优秀传统文化的传承和创新的重要使命。
数字出版探索和实践
在前面的背景之下,我们对既有的优势出版领域为依托,发展以中国历史文献总库的出版,以传统文化数字化传播为方向,继续开展了再造善本数据库、《永乐大典》数据库、皇家园林建筑图档数据库、民国图书数据库、近代报纸数据库,以及跟文化大数据结合比较紧密的古籍图典资源数据库等几个数字化的产品。
其中,近代报纸数据库获得新闻出版署2020年度数字出版精品遴选推荐计划,古籍图典资源库今年刚刚获得2023年度数字精品出版精品遴选推荐计划。
出版社将数字和传统的出版互为协同、互为支撑,建设了1+4+N的中国历史文献总库平台:
“1”是指一个总平台,一套标准,通过一个平台把所有的数据一站式检索;
“4”是建了四个资源型骨干数据库,分别是中华再造善本数据库、民国图书数据库、近代报纸数据库、近代期刊数据库;
“N”是指建设的若干个专题库,像红色文献数据库、永乐大典数据库等等,我后面会简单跟大家介绍一下。
我们秉承“相同内容的不同呈现”、“纸质求精,数字求全”、“纸质为本,数字延伸”的数字与传统出版的总体建设思路,最终目标是不断完善中国历史文献总库的收录文献内容,为用户提供历史文献的一站式解决方案。
下面简单介绍几种代表我们不同建设思路的数字产品,这也代表出版社在传统文化数字化传播在不同方向上做得探索和尝试。
中华再造善本数据库是将“中华再造善本工程”珍贵古籍善本进行图像数字化,收录古籍善本1312种,共计70万余叶。“中华再造善本数据库”是“中国历史文献总库”的子库,数字化形态的古籍,类目清晰,检索便捷,有利于研究者使用;同时又能更好地展示古籍的原貌,在版本鉴定、比勘方面具有特殊的价值,是古籍收藏、保护机构及个人,特别是文献专业师生进行教学、研究的重要工具。
该项目第一辑收录国家图书馆藏《永乐大典》四十册、七十五卷,共涉及14个韵部、17个韵字、1800部书,项目由国家图书馆出版社与北京大学数字人文研究中心共同完成项目的设计与研发工作。
数据库内容收录了大量高清影像,大家可以非常清晰地看到《永乐大典》的原貌。在文化普及、学术研究方面我们把数据库做得更符合用户的需求。通过《永乐大典》让读者对古籍的了解,包括版式、内容进行简单的了解。
同时,我们也做了沉浸式体验系统,梳理了《永乐大典》从产生一直到流散到回归的历程。让大家通过一个沉浸式的体验了解大典的前世今生。我们也做了一点知识化的尝试,对《永乐大典》的部分内容做了细颗粒度的标引。
系统收录了1万枚藏书印,通过计算机训练,最终实现让用户利用手机拍照可以自动检索印章,最终达到以图搜印章的目的。
在“印谱知识与印章识别系统”的后续建设中,希望随着文化大模型的不断成熟,在为数据打标签和数据搜索的效率上能给带来更好的思路,如印章识别系统主要对散布在古籍中的印谱进行搜集、去重,希望在文化大模型的加持下,通过不断的深度学习能够实现古籍图像上印章位置自动标记和印文的自动识别。
国图出版社与故宫出版社联合出版的
“汉字游戏化学习”系列出版物
《神龙说字》融合出版物是和故宫出版社联合出版,除原创动画外,视频故事采取真人与Live2D模型面部捕捉小神龙互动的方式,提供有更丰富有趣的视听体验。这部跨界融合的出版物,为儿童通过学习汉字文化了解中国传统文化尝试新的路径。入选第五届中国数字出版创新论坛出版融合发展优秀案例推优项目。
《神龙说字》图书插画
参与国家文化大数据体系建设的情况
2021年,我们通过承担《中国传统文化图典深度标引与素材库建设》,参与到国家文化大数据体系建设当中,也是通过该项目的建设,获得了难得的发展机遇。这个项目的阶段性成果《中国古籍图典资源库》在上个月刚刚获得中宣部“2023年数字出版遴选推荐计划”的奖项。我想这个奖是对我们深度参与国家文化大数据体系建设、以实际行动响应和实践国家文化数字化战略的高度肯定,这个奖也提振了我们继续做好中华传统文化保护和传承事业,继续深入推进古籍数字化进程,提高古籍古为今用的转化和利用的信心和决心!
这个项目在立项之前,我们首先思考了国家文化大数据体系建设需要什么内容?我们有什么内容适合加入国家文化大数据体系?
国家文化大数据体系可以概述为“四端一网两翼”,国家文化大数据体系的供给端由中国文化遗产标本库、中华民族文化基因库和中华文化素材库构成。出版社作为文化生产企业属于生产端,生产端首先要考虑的问题就是国家文化大数据体系需要哪些内容?出版社有那些资源适合加入国家文化大数据体系?
古籍插图最早出现的是宗教插图,到宋元之后出现戏曲插图、小说插图、传记插图等,到后面逐渐丰富起来,出现整本以图为主的图谱。图谱又分画谱、图录、舆图、印谱、笺谱以及金石碑帖等。图谱类古籍因其特殊的艺术价值,在收藏界、艺术界颇受追捧。
项目具体实施过程大概是分三个步骤:
首先是我们要对历朝历代的古籍资源进行收集、处理和筛选;
其次也是最关键的一步就是对筛选出来的插图进行标注提取素材;
最后是需要对提取出来的元素进行矢量化。
古籍图像进行数字化后,开始对图像进行标注和提取元素,这一步是整个项目最为关键的一步也是难度最大耗时最多的一步。
首先是将十几万张图进行分类,我们首先按照图片的内容题材分为28个大类44个小类。这些分类要做到能够涵盖现有古籍插图的特点,也要符合现代分类习惯。
另外我们根据古籍插图的特点,又将这些图片按照“地域”、“绘画风格”“图片应用场景”和“颜色”进行细致分类。比如《孔子圣迹图》插图可以应用于文化旅游或者文化教育类场景。《营造法式》《样式雷图档》等可以供建筑设计装潢装饰行业进行应用。《百花鸟图》《白川侯莲谱》可以供服装设计、文具用品行业进行创意设计。
接下来对从古籍中获取的图像进行深度标引,经过提炼,总结出最适合古籍图片的标引类目,在此基础上,以图中的文化元素为单位进行深度标引,每一个元素可以增加多个标签,从而为设计、开发、研究提供精准的素材资源。
加工时,平均每幅图增加十几个标签,信息量大的图需要几十个标引点,每个标引点还要用多个词进行描述。由于标引占用了大量的人工成本,我们最近也再和北京邮电大学赵海英老师团队合作,尝试利用计算机算法技术对我们提供的古籍插图资源自动提取元素进行尝试,帮助我们实现了一部分古籍插图元素的提取工作。
在对插图元素进行过提取和标注之后,我们还把提取出来的单个元素,经过矢量化加工,做成纹样素材,进入文化大数据交易平台数据超市成为可供交易的产品。目前已经加工完成的纹样素材有1600多个。
这里我们也有一个新的需求,不知文化大模型是否实现古籍纹样的色彩复原?让黑白的古籍图像在新时代重新鲜活起来!我们也希望对此感兴趣的专家或者团队跟我们联系,希望不久的将来能够在这个问题上实现更大突破。
文化大数据体系的中华文化素材库是将已标注和关联的文化数据进行解构,萃取中华文化元素和标识,分门别类标签化,为内容创作生产提供素材。数据库收录的中国传统文化图像素材已经成为中华文化素材库的组成部分,
在此过程中,我们成为首批接入国家文化专网和装配底层关联集成系统的单位之一,实现了国家文化大数据体系实现“物理分布、逻辑关联”的关键一步。项目的建设为后续深度开发文献资源以及文化数据资源的提取、标引和分类等方面积累了丰富的经验。
在素材库的建设过程中,采用不可控自然语言进行深度标引,获取了数万个标引词,而这些词由于没有标准来参照,缺乏控制,必然存在重复、不统一等问题,这给图典后期利用以及不同系统之间的关联都带来了一定的困难。这种情况下建立一个规范标准的词表就显得尤为重要,因此在二期建设中,我们聘请专家对一期建设的标签词进行专业性规范,形成规范词表,通过建立规范词之间的关系最终形成《中国传统文化图典标引词后控词表》。
《中国传统文化图典标引词后控词表》
该后控词表可以成为国家文化大数据体系在文化素材领域图像数据标引的参照规范,为文化数据标引提供一种参照模式。
国家文化大数据交易平台
今年3月,在深圳文交所的全国文化大数据交易平台上,我社古籍文化资源《龙袍》和《常服袍》同个人买家达成了交易,将国家图书馆出版社的古籍资源转化成为商业价值。我们作为首批参与国家文化大数据体系建设的单位已从中获益。为此,我们更加愿意加入文化大数据的体系建设当中,更加积极地响应和实施国家文化数字化战略。文化大数据体系建设的最后一环就是实现数据的交易。
国家文化大数据体系是一项具有开创性的系统工程,它既是一个文化数据生产的平台,也是一个文化运营的平台,文化元素进入全国文化大数据交易平台的“数据超市“。通过大数据体系,能够让不同的文化产品相互关联,从而形成一个完整有机的体系;通过平台与文化产权交易系统的对接,实现文化资产的产权交易,能够激发所有参与者的动力,有经济效益产出保证大数据体系建设的吸引力与生命力。
今年在与江苏文交所签订进场协议之后,我们将拥有自主知识产权的1500多个中国传统纹样素材矢量图上传至江苏文交所的国家文化大数据华东区域交易平台上,并很快就达成了交易。深圳国夏公司在购得这些传统纹样素材之后将文化数据落实应用到产品,实现数字化赋能,和其他企业加强了合作联动,走在了文化数字化应用行业的前列。
为进一步提高数据加工的效率,我们也在进行新的技术尝试。这是一副《红楼梦图咏》里图像,中间是矢量绘图软件自动矢量化的结果,右边是采取了新的人工智能自动矢量化的结果,通过对比可以看出,优化后的结果已经基本达到了使用的要求。
在今年举行的“文化大模型应用大会”上,我们见到了为文化行业打造的由文化大数据产业委员会和华为云联创的文化大模型。我们正在尝试将出版社多年积累的优质文化资源数据投入到文化大模型的训练中去,创造出更具创新性的文化产品和服务。同时我们也在逐步探索将文化大模型运用到我们古籍数字化保护事业中。作为国家文化大数据体系建设的参与者,我们也非常有幸能从早期参与到文化大模型的测试当中,我们希望能借助文化大模型去解决前面提到的一系列问题。如利用文化模型实现古籍插图的自动识别、实现对于文化素材的辅助标引、建立图典知识图谱等等。
数字技术赋能中华优秀传统文化
传承与创新的几点思考
《赵城金藏》修复前后对比
《赵城金藏》刚入藏国图的时候,有三分之二的卷子都是这种状态。这些佛经长期保存在恶劣的环境里,受潮发霉,在抢运的过程中又被藏在废弃的煤矿矿井中,不仅表面看上去很差,而且很多都粘连成一体,无法打开。像这样的保存状况很差的古籍还有很多,希望随着时代的进步,科技的发展,数字技术的不断迭代,能够让文物和古籍得到更好的保护、挖掘和利用。
二、依托全国智慧图书馆体系及文化大数据体系,深入挖掘中华优秀传统文化。
在古籍图像化、文本化之后,下一步的工作重点要在全国智慧图书馆体系及文化大数据体系我们挖掘其中的内容,进行细颗粒度的标引形成一个个的知识点,这样不仅可以实现知识关联,也可以为文化大数据的体系建设提供素材。
三、取长补短、合作共赢,合力做好古籍数字化工作。
图书馆等文献存藏机构和拥有技术的企业之间,只有取长补短、合作共赢,才能合力做好以古籍数字化工作为代表的中华优秀传统文化传承。在大模型时代,只有科技和文化携起手来,文化大数据提供大模型训练所需数据,科技提供算法和算力,发挥各自所长,最终形成文化大模型,推动文化传承不断走向智能化。
最后,如何将古籍中优秀的传统文化挖掘出来,服务于当下是我们一直努力的方向。希望在各方的支持和不断努力下,我们能够为国家文化大数据体系及文化大模型的建设提供更多助力。期待未来以更多数字技术赋能,助力中华优秀传统文化的传承与创新!