葛艳聪:以数字技术赋能中华优秀传统文化传承与创新

11月4-6日,由中国公共关系协会联合中共海南省委宣传部、北京邮电大学共同主办的“2023中国文化计算大会”在海南博鳌隆重召开。国家图书馆出版社副社长葛艳聪以《以数字技术赋能中华优秀传统文化传承与创新——国家图书馆出版社古籍数字化的探索与实践》为题发表演讲。以下内容根据速记整理。

各位专家,各位从事文化数字化行业的同仁,今天很高兴借“2023中国文化计算大会”向各位专家汇报国家图书馆出版社在中华优秀传统文化的传承发展上做的一些工作。

我今天汇报的内容分为四部分:一是简单介绍一下国家图书馆出版社,二是简单汇报一下国图出版社在古籍数字化、数字出版方面的一些探索和实践,三是,我们参与国家文化大数据体系作的一些工作,最后是个人关于优秀传统文化传承和创新上的一点思考。

国家图书馆出版社

国家图书馆是国家总书库,国家书目中心,国家古籍保护中心。是中国最大的图书馆,共收藏的古籍大概15万部,其中善本古籍直接继承了南宋缉熙殿、元翰林国史院、明文渊阁、清内阁大库等皇家珍藏,以及明清以来许多私人藏书家的毕生所聚。最早的馆藏可远溯到3000多年前的殷墟甲骨。珍品特藏包含敦煌遗书、西域文献、善本古籍、金石拓片、古代舆图、少数民族文字古籍、名家手稿等280余万册件。“敦煌遗书”、“赵城金藏”、《永乐大典》、文津阁《四库全书》被誉为国家图书馆“四大专藏”。

国家图书馆出版社是文化和旅游部主管,国家图书馆主办的一个专业出版社,也是全国百佳图书出版单位。建设40余年来,形成了图情专业出版、历史文献影印整理,中华传统文化普及推广三个出版方向。在历史文献的影印整理出版方向上,出版了《中华再造善本》、《永乐大典》等一大批有代表性的珍贵历史文献。

2019年国家图书馆建馆110周年之际,习近平总书记给国图的老专家回信中明确提到,国家图书馆要坚持正确的政治方向,要弘扬优秀传统文化,创新服务方式。2022年4月,“两办”发布《关于推动新时代古籍工作的意见》,提出推进古籍数字化,支持古籍数字化的重点单位做强做优,加强数字化资源管理的开放共享,推动古籍专业数据库开发与利用,加速推动古籍整理利用转型升级。国家图书馆作为国内重要的古籍存藏单位,我们作为一个专业的出版社,承担新时代古籍数字化工作的重要责任,也肩负着新时代中华优秀传统文化的传承和创新的重要使命。

数字出版探索和实践

在前面的背景之下,我们对既有的优势出版领域为依托,发展以中国历史文献总库的出版,以传统文化数字化传播为方向,继续开展了再造善本数据库、《永乐大典》数据库、皇家园林建筑图档数据库、民国图书数据库、近代报纸数据库,以及跟文化大数据结合比较紧密的古籍图典资源数据库等几个数字化的产品。

其中,近代报纸数据库获得新闻出版署2020年度数字出版精品遴选推荐计划,古籍图典资源库今年刚刚获得2023年度数字精品出版精品遴选推荐计划。

出版社将数字和传统的出版互为协同、互为支撑,建设了1+4+N的中国历史文献总库平台:

“1”是指一个总平台,一套标准,通过一个平台把所有的数据一站式检索;

“4”是建了四个资源型骨干数据库,分别是中华再造善本数据库、民国图书数据库、近代报纸数据库、近代期刊数据库;

“N”是指建设的若干个专题库,像红色文献数据库、永乐大典数据库等等,我后面会简单跟大家介绍一下。

我们秉承“相同内容的不同呈现”、“纸质求精,数字求全”、“纸质为本,数字延伸”的数字与传统出版的总体建设思路,最终目标是不断完善中国历史文献总库的收录文献内容,为用户提供历史文献的一站式解决方案。

下面简单介绍几种代表我们不同建设思路的数字产品,这也代表出版社在传统文化数字化传播在不同方向上做得探索和尝试。

中华再造善本数据库是将“中华再造善本工程”珍贵古籍善本进行图像数字化,收录古籍善本1312种,共计70万余叶。“中华再造善本数据库”是“中国历史文献总库”的子库,数字化形态的古籍,类目清晰,检索便捷,有利于研究者使用;同时又能更好地展示古籍的原貌,在版本鉴定、比勘方面具有特殊的价值,是古籍收藏、保护机构及个人,特别是文献专业师生进行教学、研究的重要工具。

该项目第一辑收录国家图书馆藏《永乐大典》四十册、七十五卷,共涉及14个韵部、17个韵字、1800部书,项目由国家图书馆出版社与北京大学数字人文研究中心共同完成项目的设计与研发工作。

数据库内容收录了大量高清影像,大家可以非常清晰地看到《永乐大典》的原貌。在文化普及、学术研究方面我们把数据库做得更符合用户的需求。通过《永乐大典》让读者对古籍的了解,包括版式、内容进行简单的了解。

同时,我们也做了沉浸式体验系统,梳理了《永乐大典》从产生一直到流散到回归的历程。让大家通过一个沉浸式的体验了解大典的前世今生。我们也做了一点知识化的尝试,对《永乐大典》的部分内容做了细颗粒度的标引。

系统收录了1万枚藏书印,通过计算机训练,最终实现让用户利用手机拍照可以自动检索印章,最终达到以图搜印章的目的。

在“印谱知识与印章识别系统”的后续建设中,希望随着文化大模型的不断成熟,在为数据打标签和数据搜索的效率上能给带来更好的思路,如印章识别系统主要对散布在古籍中的印谱进行搜集、去重,希望在文化大模型的加持下,通过不断的深度学习能够实现古籍图像上印章位置自动标记和印文的自动识别。

国图出版社与故宫出版社联合出版的

“汉字游戏化学习”系列出版物

《神龙说字》融合出版物是和故宫出版社联合出版,除原创动画外,视频故事采取真人与Live2D模型面部捕捉小神龙互动的方式,提供有更丰富有趣的视听体验。这部跨界融合的出版物,为儿童通过学习汉字文化了解中国传统文化尝试新的路径。入选第五届中国数字出版创新论坛出版融合发展优秀案例推优项目。

《神龙说字》图书插画

参与国家文化大数据体系建设的情况

2021年,我们通过承担《中国传统文化图典深度标引与素材库建设》,参与到国家文化大数据体系建设当中,也是通过该项目的建设,获得了难得的发展机遇。这个项目的阶段性成果《中国古籍图典资源库》在上个月刚刚获得中宣部“2023年数字出版遴选推荐计划”的奖项。我想这个奖是对我们深度参与国家文化大数据体系建设、以实际行动响应和实践国家文化数字化战略的高度肯定,这个奖也提振了我们继续做好中华传统文化保护和传承事业,继续深入推进古籍数字化进程,提高古籍古为今用的转化和利用的信心和决心!

这个项目在立项之前,我们首先思考了国家文化大数据体系建设需要什么内容?我们有什么内容适合加入国家文化大数据体系?

国家文化大数据体系可以概述为“四端一网两翼”,国家文化大数据体系的供给端由中国文化遗产标本库、中华民族文化基因库和中华文化素材库构成。出版社作为文化生产企业属于生产端,生产端首先要考虑的问题就是国家文化大数据体系需要哪些内容?出版社有那些资源适合加入国家文化大数据体系?

古籍插图最早出现的是宗教插图,到宋元之后出现戏曲插图、小说插图、传记插图等,到后面逐渐丰富起来,出现整本以图为主的图谱。图谱又分画谱、图录、舆图、印谱、笺谱以及金石碑帖等。图谱类古籍因其特殊的艺术价值,在收藏界、艺术界颇受追捧。

项目具体实施过程大概是分三个步骤:

首先是我们要对历朝历代的古籍资源进行收集、处理和筛选;

其次也是最关键的一步就是对筛选出来的插图进行标注提取素材;

最后是需要对提取出来的元素进行矢量化。

古籍图像进行数字化后,开始对图像进行标注和提取元素,这一步是整个项目最为关键的一步也是难度最大耗时最多的一步。

首先是将十几万张图进行分类,我们首先按照图片的内容题材分为28个大类44个小类。这些分类要做到能够涵盖现有古籍插图的特点,也要符合现代分类习惯。

另外我们根据古籍插图的特点,又将这些图片按照“地域”、“绘画风格”“图片应用场景”和“颜色”进行细致分类。比如《孔子圣迹图》插图可以应用于文化旅游或者文化教育类场景。《营造法式》《样式雷图档》等可以供建筑设计装潢装饰行业进行应用。《百花鸟图》《白川侯莲谱》可以供服装设计、文具用品行业进行创意设计。

接下来对从古籍中获取的图像进行深度标引,经过提炼,总结出最适合古籍图片的标引类目,在此基础上,以图中的文化元素为单位进行深度标引,每一个元素可以增加多个标签,从而为设计、开发、研究提供精准的素材资源。

加工时,平均每幅图增加十几个标签,信息量大的图需要几十个标引点,每个标引点还要用多个词进行描述。由于标引占用了大量的人工成本,我们最近也再和北京邮电大学赵海英老师团队合作,尝试利用计算机算法技术对我们提供的古籍插图资源自动提取元素进行尝试,帮助我们实现了一部分古籍插图元素的提取工作。

在对插图元素进行过提取和标注之后,我们还把提取出来的单个元素,经过矢量化加工,做成纹样素材,进入文化大数据交易平台数据超市成为可供交易的产品。目前已经加工完成的纹样素材有1600多个。

这里我们也有一个新的需求,不知文化大模型是否实现古籍纹样的色彩复原?让黑白的古籍图像在新时代重新鲜活起来!我们也希望对此感兴趣的专家或者团队跟我们联系,希望不久的将来能够在这个问题上实现更大突破。

文化大数据体系的中华文化素材库是将已标注和关联的文化数据进行解构,萃取中华文化元素和标识,分门别类标签化,为内容创作生产提供素材。数据库收录的中国传统文化图像素材已经成为中华文化素材库的组成部分,

在此过程中,我们成为首批接入国家文化专网和装配底层关联集成系统的单位之一,实现了国家文化大数据体系实现“物理分布、逻辑关联”的关键一步。项目的建设为后续深度开发文献资源以及文化数据资源的提取、标引和分类等方面积累了丰富的经验。

在素材库的建设过程中,采用不可控自然语言进行深度标引,获取了数万个标引词,而这些词由于没有标准来参照,缺乏控制,必然存在重复、不统一等问题,这给图典后期利用以及不同系统之间的关联都带来了一定的困难。这种情况下建立一个规范标准的词表就显得尤为重要,因此在二期建设中,我们聘请专家对一期建设的标签词进行专业性规范,形成规范词表,通过建立规范词之间的关系最终形成《中国传统文化图典标引词后控词表》。

《中国传统文化图典标引词后控词表》

该后控词表可以成为国家文化大数据体系在文化素材领域图像数据标引的参照规范,为文化数据标引提供一种参照模式。

国家文化大数据交易平台

今年3月,在深圳文交所的全国文化大数据交易平台上,我社古籍文化资源《龙袍》和《常服袍》同个人买家达成了交易,将国家图书馆出版社的古籍资源转化成为商业价值。我们作为首批参与国家文化大数据体系建设的单位已从中获益。为此,我们更加愿意加入文化大数据的体系建设当中,更加积极地响应和实施国家文化数字化战略。文化大数据体系建设的最后一环就是实现数据的交易。

国家文化大数据体系是一项具有开创性的系统工程,它既是一个文化数据生产的平台,也是一个文化运营的平台,文化元素进入全国文化大数据交易平台的“数据超市“。通过大数据体系,能够让不同的文化产品相互关联,从而形成一个完整有机的体系;通过平台与文化产权交易系统的对接,实现文化资产的产权交易,能够激发所有参与者的动力,有经济效益产出保证大数据体系建设的吸引力与生命力。

今年在与江苏文交所签订进场协议之后,我们将拥有自主知识产权的1500多个中国传统纹样素材矢量图上传至江苏文交所的国家文化大数据华东区域交易平台上,并很快就达成了交易。深圳国夏公司在购得这些传统纹样素材之后将文化数据落实应用到产品,实现数字化赋能,和其他企业加强了合作联动,走在了文化数字化应用行业的前列。

为进一步提高数据加工的效率,我们也在进行新的技术尝试。这是一副《红楼梦图咏》里图像,中间是矢量绘图软件自动矢量化的结果,右边是采取了新的人工智能自动矢量化的结果,通过对比可以看出,优化后的结果已经基本达到了使用的要求。

在今年举行的“文化大模型应用大会”上,我们见到了为文化行业打造的由文化大数据产业委员会和华为云联创的文化大模型。我们正在尝试将出版社多年积累的优质文化资源数据投入到文化大模型的训练中去,创造出更具创新性的文化产品和服务。同时我们也在逐步探索将文化大模型运用到我们古籍数字化保护事业中。作为国家文化大数据体系建设的参与者,我们也非常有幸能从早期参与到文化大模型的测试当中,我们希望能借助文化大模型去解决前面提到的一系列问题。如利用文化模型实现古籍插图的自动识别、实现对于文化素材的辅助标引、建立图典知识图谱等等。

数字技术赋能中华优秀传统文化

传承与创新的几点思考

《赵城金藏》修复前后对比

《赵城金藏》刚入藏国图的时候,有三分之二的卷子都是这种状态。这些佛经长期保存在恶劣的环境里,受潮发霉,在抢运的过程中又被藏在废弃的煤矿矿井中,不仅表面看上去很差,而且很多都粘连成一体,无法打开。像这样的保存状况很差的古籍还有很多,希望随着时代的进步,科技的发展,数字技术的不断迭代,能够让文物和古籍得到更好的保护、挖掘和利用。

二、依托全国智慧图书馆体系及文化大数据体系,深入挖掘中华优秀传统文化。

在古籍图像化、文本化之后,下一步的工作重点要在全国智慧图书馆体系及文化大数据体系我们挖掘其中的内容,进行细颗粒度的标引形成一个个的知识点,这样不仅可以实现知识关联,也可以为文化大数据的体系建设提供素材。

三、取长补短、合作共赢,合力做好古籍数字化工作。

图书馆等文献存藏机构和拥有技术的企业之间,只有取长补短、合作共赢,才能合力做好以古籍数字化工作为代表的中华优秀传统文化传承。在大模型时代,只有科技和文化携起手来,文化大数据提供大模型训练所需数据,科技提供算法和算力,发挥各自所长,最终形成文化大模型,推动文化传承不断走向智能化。

最后,如何将古籍中优秀的传统文化挖掘出来,服务于当下是我们一直努力的方向。希望在各方的支持和不断努力下,我们能够为国家文化大数据体系及文化大模型的建设提供更多助力。期待未来以更多数字技术赋能,助力中华优秀传统文化的传承与创新!

THE END
1.中国出版传媒商报数字报《中国国家图书馆藏西域文书·汉文卷》 《元代北方金石碑刻集成》(京津卷)(甘肃、宁夏卷) 《陕西碑刻文献集成》 《北齐书——点校本二十四史修订本》 《历算全书》 《证类本草笺释》 《汉魏六朝杂传叙录》 《帛书老子》 《袁同礼年谱长编》 学术人文类 http://dzzy.cpmj.com.cn/html/2024-12/13/content_55913_18087697.htm
2.2021第五届智慧图书馆发展论坛成功召开5月13-14日,由中国信息协会教育分会、华中师范大学信息管理学院和教育装备采购网主办,华中师范大学图书馆、国家图书馆出版社协办,教育装备采购网、华中师范大学中国图书馆创新发展研究中心承办的2021第五届智慧图书馆发展论坛在武汉成功召开。来自全国高校及中小学的图书馆馆长、馆员,图书馆工作者及主管部门负责人,图书http://imd.ccnu.edu.cn/info/1133/10949.htm?ivk_sa=1024320u
3.[国家图书馆出版社]www.nlcpress.com出版社国家图书馆出版社www.nlcpress.com国家图书馆出版社,原名书目文献出版社,1979年成立。1996年更名为北京图书馆出版社,2008年改为现名。空空本社是文化部主管、国家图书馆主办的中央级出版社。2009年8月新闻出版总署首次经营性图书出版单位等级评估定为一级出版社,并授予“全国百佳图书出版单位”称号。空空建社三十年https://g.tryoe.com/siteinfo/1505.html
4.国家图书馆出版社官网中央出版社成立于1979年,由文化旅游部主任、国家图书馆主办,主要从事中国古籍整理、编辑、出版图书馆学、信息管理科学翻译、编辑、出版中国传统文化推广书籍等业务 国家图书馆出版社成立于1979年,是由文化旅游部主管、国家图书馆主办的中央出版社。 多年来,出版社以“继承文明、服务学术”为宗旨,形成了三个专业的出版https://www.wl123.cn/post/4716.html
5.20242024-2030年中国数字出版市场现状调研分析及发展趋势报告,数字出版是传统出版业的数字化转型,近年来随着互联网和移动设备的普及,其市场渗透率和用户接受度不断提高。从电子书、在线期刊到数字图书馆、知识服务平台,数字出版正深刻改变着人们获取和传播知识的方式。目前https://www.cir.cn/R_QiTaHangYe/21/ShuZiChuBanShiChangDiaoYanYuQianJingYuCe.html
6.馆藏文献优先数字化的策略思考11篇(全文)数字化活动的主要目的是提高对图书馆馆藏的获取,或通过提供数字化拷贝,保护珍贵或易损的馆藏文献。鉴于此,笔者认为以下各类文献应当优先考虑数字化。 1.1 优先数字化有利于国家和民族的知识积累、传播与创新 这一优先数字化原则是以符合本国利益、传播本国文化为目的的。考察许多国家数字图书馆的网页,都可以明显地感https://www.99xueshu.com/w/filefgdy4ydx.html
7.国家新闻出版署关于公布2023年出版业科技与标准创新示范项目入选申报单位:中国地图出版社集团有限公司 2. 基于大模型的轻量级智能出版知识服务平台 申报单位:语义出版与知识服务重点实验室 3. 基于历代典籍整理的中国传统文化图典深度标引与素材库建设 申报单位:国家图书馆出版社有限公司 4. 基于区块链的全媒体医学数字出版平台 https://www.nppa.gov.cn/xxfb/tzgs/202312/t20231222_823434.html
8.国家图书馆出版社有限公司怎么样国家图书馆出版社有限公司经验要求高吗?3-5年占100% 相关行业标签 传统文化 图书 出版社 荣誉资质&行业协会 理事单位 中国音像与数字出版协会 工商信息 由 提供 经营状态: 开业 法定代表: 魏崇 注册资本: 10,072万(元) 成立日期: 信用代码: 91110000E00664423A 注册地址: 北京市西城区文津街7号 关注https://m.jobui.com/company/8404318/review/
9.国家图书馆出版社有限公司国家图书馆出版社有限公司招标采购专栏,每天实时更新有关国家图书馆出版社有限公司招标公告、企业采购、拟在建项目等一系列商业信息,查询更多国家图书馆出版社有限公司信息尽在比地招标网。http://xinyu.bidizhaobiao.com/company_215565440439504896.html
10.国家图书馆出版社有限公司工商信息信用信息公司简介:国家图书馆出版社有限公司,于2010-12-30在北京市市场监督管理局登记成立,魏崇担任法定代表人,注册资本为10,772(万人民币),公司位于北京市西城区文津街7号,公司经营范围:许可项目:图书出版;网络出版物出版;出版物互联网销售;出版物零售;出版物批发;互联网信息服务。(依法须经批准的项目,经相关部门批准后方https://www.qichamao.com/orgcompany/searchitemdtl/f7de5e93e8633db602c87eb43b6debdc.html
11.数字出版产品重磅首发中国国家图书馆馆藏《庆赏升平》作为成文交数字出版产品平台的首款产品,IP是一大亮点,《庆赏升平》是中国国家图书馆馆藏的国家级IP,极具稀缺性。经过中国数字文化集团进行正式出版并取得ISBN号,解决了以往数字作品版权不清晰、内容存在争议的问题。该产品由中国数字图书馆、国家图书馆出版社联合出品,两家国家级团队的资源能力和创作能力双重加持,保证了https://news.cnstock.com/news,zxk-202210-4972489.htm
12.国家图书馆出版社四十年图书总目:一九七九—二〇一九《国家图书馆出版社四十年图书总目(1979-2019)》收录本社1979-2019年(截2019年6月)正式出版的图书5800余种。 根据本社出书具体情况,结合《中国图书馆分类法》,将所收图书分为图书馆学信息管理科学、古籍影印、民国文献、人文社会科学及数字出版等五大类,大类下再细分若干小类,个别系列图书作为大类的附录部分单独http://cujinkj.cn/product.html?id=65435
13.2016北京·台湖全国图书馆采购订货会精彩启幕馆藏精品图书集中亮相——本届订货会新书出版物品种全、质量优,在展场二层推出了精品藏书现采区,突出展示具有较高收藏价值的高码洋馆藏图书2000余种。其中,故宫出版社《故宫博物院藏品大系》和《故宫经典》、科学出版社《云冈石窟》和《矩阵的半张量积》、人民大学出版社《中国国家图书馆藏敦煌遺書總目錄·馆藏目錄https://beijing.qianlong.com/2016/0513/605145.shtml