档案著录信息关联数据化:国际经验与中国路径

关键词:档案著录;关联数据;记录本体;RiC-O;EDM

1国际档案界档案著录信息关联数据化的实践路径

1.1将档案著录信息直接映射到关联数据模型

1.1.1实现路径

将档案著录信息直接映射到其他关联数据模型主要利用XSLT(ExtensibleStylesheetLanguageTransformations)样式表来实现。XSLT采用基于模式匹配和选择器的方式来查找XML文档中的元素和属性,从源XML文档中提取数据,将其转换为目标文档。XSLT提供众多转换函数和运算符,以便对提取的数据进行处理和变换。它采用基于模式匹配和选择器的方式来查找XML文档中的元素和属性。在XSLT中,样式表由XSLT指令组成,这些指令用于描述如何从源XML文档中提取数据,并将其转换为目标文档。此外,这种将档案著录数据转换为关联数据RDF/XML的方法与FOAF、SKOS、RDFS和DublinCore等标准相衔接,易于理解和复用,任何机构或个人都可以利用它将EAD形式的档案著录数据转换为关联数据RDF/XML。

1.1.2典型案例——英国LOCAH项目

LOCAH项目开发了ArchivesHubEADtoRDFXSLT样式表[5],并且提供了将档案著录数据转换为关联数据RDF/XML的具体步骤。LOCAH元素集仅处理EAD的一部分,并引入了有助于馆藏档案数据转换为关联数据的其他元素。在元素映射过程中,当现有词汇表无法恰当地表示概念时,项目组定义了所需的其他类和属性并提供URI作为小型LOCAHRDF词汇表。ArchivesHubEADtoRDFXSLT样式表转换过程如图1所示。

图1ArchivesHubEADtoRDFXSLT样式表转换过程

1.2建立档案领域的数据模型

1.2.1实现路径

以RiC-O0.2为例,其实体、属性和关系的具体解释如下:

图2RiC-O的核心实体概念模型

(2)属性(Attributes)。属性用来表达实体的特征。只有描述出实体的属性以及该实体与其他实体的关系,才能表达实体的显著特征。RiC-O0.2中的属性既包括实体固有的特征,如文件所使用的语言、签章、载体类型等,也包括著录者赋予的属性,如与文件一一对应的特定标识符。目前,RiC-O0.2中规定了22个属性类别(RiC-E01—RiC-E22)。RiC-O0.2把词表中一些特定的概念类别(例如主题、职业或活动类型等)作为实体而非属性。因为这些概念可以用来创建重要的通用主题词表,例如活动类型、职业类型等,在开放的关联数据环境中,这些词表能够实现相互链接的分散描述和访问服务。

(3)关系(Relations)。关系的作用是描述实体之间的联系,从而表达档案文件的历史及管理的重要特征。RiC-O0.2用13种关系类型来描述和记录文件资源创建、积累和管理的背景,以便于文件的制作和保存。RiC-O0.2中所有实体之间的79种关系描述如“Whole-partrelations”(整体部分关系)、“Sequentialrelations”(顺序关系)等,都符合13种关系概念中的一个或多个类别。

1.2.2典型案例——法国档案馆PIAAF项目

“法国档案馆互操作试点”(PilotforInteroperableArchivalAuthoritiesinFrance,PIAAF)项目是由法国国家档案馆、法国档案部和法国国家图书馆共同合作的档案元数据语义化和可视化实验项目。该项目是RiC-O的第一个实践应用案例,旨在证明将语义网技术应用于档案描述的现实可行性,探索语义网技术是否可以准确表示、相互链接和可视化已有的档案元数据集。项目团队选择了RiC-O作为将选定的档案元数据集转换为RDF的参考模型。2017年底,PIAAF的用户界面经测试后正式上线。

在将档案元数据集转换为RDF的过程中,首先,项目定义了“档案制作实体的行动领域或对象”“档案制作实体的活动”两个词汇表,并且为项目实施准备了涵盖276条XML/EAC-CPF记录和38条XML/EAD检索工具的语料库;其次,项目只选择使用RiC-O标准中部分较为稳定的实体元素,包括“person”“event”“record”“place”等14个实体;再次,项目开发了一组XSLT脚本,可以按照设定的转换顺序(职能、法律地位、事件等)将档案元数据集转换为XML/RDF文件;最后,转换后的XML/RDF文件会作为各自独立的对象保存,每个文件夹都会保存某一类实体的所有RDF文件。该项目的成功实践为档案元数据语义化操作以及数据集的可视化和导航服务提供了范例。

1.3建立通用的顶层数据模型

1.3.1实现路径

2005年,欧洲19个国家联合创建欧洲数字图书馆的数据模型(EuropeanaDataModal,EDM),旨在描述Europeana平台上数字化文化遗产的数据结构和关系。EDM基于LinkedOpenData原则,允许不同机构之间共享数据并建立关联,支持数字文化遗产的开放性、透明度和再利用。它提供了通用、跨文化的数据模型,并为用户提供统一的访问接口,使欧洲联盟机构之间能够共享数字文化遗产。

1.3.2典型案例——欧洲数字图书馆Europeana

2我国档案著录信息关联数据化的路径选择

2.1道以明向——加大档案开放力度

开放互联是关联数据的核心要义,开放的档案数据是实现关联的前提。关联数据的发明者TimBerners-Lee描绘关联数据的发展前景时强调,要将Web从链接文档的全球信息空间发展为链接文档和数据的空间,即数据网络。虽然新修订的《中华人民共和国档案法》将档案开放期限缩短至25年,要求档案馆提高开放档案比例,但是在实际工作中,档案开放率并不尽如人意。依据《全国档案事业基本情况统计年报》,我国各级国家档案馆近十年的档案开放率基本维持在14%~21%。因此,应加大档案开放力度,为档案数据资源进一步融入全球数据网络创造前提。

2.2法以规制——改进档案资源描述标准

2.3术以利策——促进主体、资源、工作流的协同与集成

2.4器以立本——夯实档案著录信息基础

开展和实施关联数据项目的基础不在于开发新的数据模型,而在于是否具备丰富翔实的档案著录信息作为数据源。档案著录是关联数据应用于档案领域的关键环节。关联数据将档案置于更广阔的背景中,描述其内容语义、价值以及被创建和维护的过程。只有对档案进行全面准确地著录,才能使关联数据的创建、发布和重用得以实现,将档案内容带入关联数据提供的更广泛的知识生态系统中。在具体操作层面,需要合理划定档案著录信息转换为关联数据的范围。并非所有的档案著录信息都有必要转换为关联数据,应从关联数据的应用优势出发予以选择。着重将档案概念、资源内容和背景信息等描述性、结构性元数据表示为关联数据,如利用现有的关联数据模型和本体表示保管历史或实体(如家庭或法人团体)之间的复杂关系等。

2.5势以利导——探索低成本、轻量级档案关联数据项目

3结语

本研究立足于国内档案资源描述的现实需求,对国际范围内档案著录信息关联数据化方法进行了较为全面的分析。研究发现,国际档案界对面向关联数据的档案资源描述在模型设计方向、语义描述深度、兼容规则、机构合作等方面体现出诸多创新之处。而对于国内档案界,这一问题的理论研究尚处于探索阶段,实践应用也面临诸多难题,如国内档案著录工作既非遵循ISAD(G)和EAD,2022年新发布的《档案著录规则》也并未涉及本体构建。如何在现有基础上适应关联数据环境,促进资源描述与共享?但不可否认的是,档案著录信息关联数据化有利于实现档案数据之间的逻辑关联和知识组织,是实现智慧档案数据资源建设、融入数字中国国家数据资源体系的必然需求。因此,国内档案界应立足于我国档案著录工作现状,借鉴国际经验,改进档案资源描述标准,加强资源链接,构建语义互联、可复用的高质量档案数据资源体系。

参考文献

[1]赵夷平.基于关联数据的机构知识库资源聚合与知识发现研究[D].长春:吉林大学,2018.

[2][12]段荣婷,夏子涵,王昊.档案著录关联数据化实现研究[J].档案学研究,2021(4):100-110.

[6]段荣婷,马寅源,李真.国际文件/档案著录标准化前沿与趋势展望:基于国际最新著录标准ICARiC的研究[J].档案管理,2018(1):28-35.

[7][8]王萍,黄新平.基于关联开放数据的数字文化资源语义融合方法研究:欧洲数字图书馆案例分析[J].图书情报工作,2016(12):29-37.

[13]张福俊,高雪,周秀霞.国内外数字资源发现平台比较研究:以Trove、DPLA、Europeana、WDL和文津搜索为例[J].国家图书馆学刊,2018(1):86-96.

【基金项目】中国人民大学科学研究基金项目“中国红色文献档案资源库建设”(项目编号:22XNLG11)。

【作者简介】祝洁(1981—),女,汉族,河南商丘人,郑州航空工业管理学院信息管理学院副教授,博士在读,研究方向:电子文件管理、非物质文化遗产档案管理;刘越男(1974—),女,汉族,江苏滨海人,中国人民大学信息资源管理学院教授、博士生导师,博士,研究方向:电子文件管理、数字档案馆、数据治理。

THE END
1.一史馆信息化管理系统研究项目获奖近日,由中国第一历史档案馆(以下简称“一史馆”)申报的国家档案局科技项目《明清档案电子数据管理元数据规范及海量电子数据的信息化管理系统研究》,经国家档案局评审,获得优秀科技成果三等奖。该项目是一史馆数据处基于自身档案数据管理工作实务,加强档案数据治理工作的有益尝试,也是对海量明清档案电子数据标准化、科学化https://fhac.com.cn/detail/8095.html
2.全球免费历史文献数字资源大全12、中国第二历史档案馆档案查询(目前全文查询北洋档案): 13、CADAL(china academic digital associative library): 14、古今图书集成: 15、书格古籍数字图书馆: (三)港台历史文献数字资源 1、香港公共图书馆数字资源: 2、“国家图书馆”古籍与特藏文献资源: https://blog.csdn.net/qq494370/article/details/105957208/
3.国家图书馆与中国第二历史档案馆签署合作共建战略框架协议4月11日,国家图书馆与中国第二历史档案馆合作共建战略框架协议签约仪式暨民国时期文献整理出版项目专家评审会在国家图书馆举行。 仪式上,国家图书馆常务副馆长陈力、中国第二历史档案馆馆长马振犊分别代表两馆签署了合作共建战略框架协议。中国社会科学院近代史研究所所长王建朗、北京大学历史学系教授王晓秋、中国人民解放军https://www.mct.gov.cn/preview/whzx/zsdw/zggjtsg/201705/t20170502_825851.html
4.加拿大国家图书馆档案馆的馆藏及数字化笔者作为上海档案专业人员培训团的一员,于2017年10月末11月初对加拿大国家图书馆档案馆(英语名称为Library and Archives of Canada,简称LAC;法语名称为Bibliothèque et Archives Canada,简称BAC)进行了短期参观访问。本文根据笔者的随团实地参访见闻,结合相关纸媒网媒材料,对加拿大国家图书馆档案馆的馆藏及数字化作一简https://www.archives.sh.cn/news/gnzl/202209/t20220922_63346.html
5.科学网中国科学院国家科学图书馆于2006年3月由4个中国科学院院级文献情报机构整合成立,总馆设在北京,另设兰州、成都、武汉法人分馆,并依托若干研究所(校)建立特色分馆。国家科学图书馆总馆负责全院文献情报服务的组织、管理和协调,负责公共信息平台建设和服务,协调全院文献情报系统参加国家科技文献平台的建设。为满足工作需要https://talent.sciencenet.cn/index.php?s=/Info/index/id/5100
6.新加坡14世纪满者伯夷的爪哇风格黄金饰品(新加坡国家博物馆) 已知最早提及新加坡历史记录,是三世纪的中国记载将其描述为“蒲罗中”,指的是“Pulau Ujong”,在马来语中意为“半岛尽头的岛屿”。到了七世纪,当马来X岛出现一系列海洋国家时,新加坡作为是众多贸易前哨站之一,是马来人、泰国人、爪哇人、中国人、印度人和阿拉伯https://ispeak.vibaike.com/glopedia/724/
7.中国国家数字图书馆中国国家数字图书馆,作为中国数字图书馆工程的重要组成部分,是一个集数字资源建设、管理与服务为一体的综合性数字资源服务平台。以下是对中国国家数字图书馆的详细介绍: 一、背景与概况 成立背景:中国国家数字图书馆是经国务院批准,依托于中国国家图书馆丰富的馆藏资源和国家数字图书馆工程https://localsite.baidu.com/site/wjzsorv8/8cd47d9a-7797-42f3-9306-b902ded71161?qaId=934936&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&efs=1&ch=54&srcid=10014&source=natural&category=%E5%85%B6%E4%BB%96&eduFrom=136&botSourceType=46
8.数字记忆论坛:中国国家图书馆开展记忆资源建设中国记忆项目是2011年在国家图书馆开展的,它在中国的图书馆界是最早一批进行记忆资源抢救和建设的项目之一。根据分析与归纳,我们认为“记忆”二字应该包含着以下几个组成部分:一是传统文献,二是口述史料,三是影音史料,四是实物文献,五是记忆空间。第一部分在图书馆、档案馆都有;第二、第三部分在我国图书馆、档案馆https://gddazx.southcn.com/node_8d937f0b2b/ab2d33289f.shtml
9.欢迎访问《中国图书馆学报》编辑部网站!杨岭雪.国家图书馆主干网——我国数字化图书馆建设的战略起点[J].中国图书馆学报,2000,26(2):38~41 国家图书馆主干网——我国数字化图书馆建设的战略起点 National Library Backbone Network: a Strategic Starting Point of the Development of Digital Libraries in China DOI: 中文关键词: 国家图书馆主干网, https://www.jlis.cn/jtlsc/ch/reader/view_abstract.aspx?file_no=20000211
10.最完整的全球免费电子图书馆名单,教你获取免费学术资源数据25牛津大学档案馆 http://otahds ac uk/ 26.弗吉尼亚大学电子文献中心 (超过10000部可以公开或取的著作) http: //www2. lib. virginia.edu/etext/index .html 27 Gallica.bnf. fr 法兰西国家图书馆资助的网站、法文) http: //gallica.bnl.fr / https://www.jianshu.com/p/7d01b4c76343
11.文化数字化战略背景下,图档博三馆如何协同发展?摘要:中共中央办公厅、国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,将文化数字化提升至国家战略层面,提出了中华文化全景呈现、全民共享与全球影响的时代任务。 图书馆、档案馆、博物馆作为公共文化机构,协同发展是应对日益多元的文化信息需求的必然趋势,而《意见》的出台为其提供了深刻的战略指引与遵循。在http://www.ordoswh.com/article/Info/index/id-5106
12.国家档案局档案数字化国家档案局档案数字化 未来档案数字化发展 随着高校图书馆信息化水平的不断提高,图书馆馆藏资源的载体形式发生了很大变化。目前,图书馆正通过将馆藏资源转化为数字数据,利用电子载体作为统一处理和存储的媒介,向信息数字化和数字化全面发展。光盘、硬盘、u盘等电子载体以其巨大的存储容量和优异的存取速度,正在迅速取代传https://www.huatuxx.com/xinwen/1667.html
13.中国数字图书馆中国数字图书馆中国数字图书馆有限责任公司以国家巨额财政投入建立的国家数字图书馆工程为基础,依托中国国家图书馆丰富的馆藏资源和国家数字图书馆工程资源建设联盟成员的特色资源、借助遍布全国的信息组织与服务网络,建立起来的目前中国规模最大数字图书馆。公司利用技术和运营方面的经验和领先优势,为各类图书馆、档案馆、博http://baike.soso.com/v7676710.htm?ch=ch.bk.innerlink
14.国家图书馆出版社“明清史料及档案“概述–海交史国家图书馆出版社“明清史料及档案“概述 明清时期,进入中国封建帝国的晚期,为了更好地巩固和维护统治秩序,统治者进一步继承和发展了唐宋元以来的制度和规范,并且日臻完备。明清时期留存至今的史料浩如烟海,为明清史的研究提供了丰厚的史料基础。国家图书馆出版社和明清史领域的研究学者通力协作,在相关存藏机构的大力https://haijiaoshi.com/archives/1243
15.档案数字化论文当前数字化档案尚未普及,但从目前发展趋势来看,今后数字化档案必然会在档案家庭中占据重要的一份。“凡事预则立,不预则废”。对于刚刚到来的新事物,档案工作者应有这种先见之明,搞好准备工作,结合各时各地的实际情况,做好数字档案馆的建设工作,同时加强对已有的数字化档案的管理,积极积累相关方面的工作经验。https://www.ruiwen.com/lunwen/6341773.html
16.第15分会场:数字保存:推动中华民族现代文明传承和保存的图书馆力量9月12日下午,2024年中国图书馆年会第15分会场“数字保存:推动中华民族现代文明传承和保存的图书馆力量”在中共宜昌市委党校明诚楼顺利召开。会议由国家科技图书文献中心、中国科学院文献情报中心、中国图书馆学会高等学校图书馆分会、中国图书馆学会专业图书馆分会主办。会议汇聚国内图书馆、博物馆、档案馆、科学数据等数https://www.lsc.org.cn/cns/contents/1706872053870/1838405102609117184.html