关键词:档案著录;关联数据;记录本体;RiC-O;EDM
1国际档案界档案著录信息关联数据化的实践路径
1.1将档案著录信息直接映射到关联数据模型
1.1.1实现路径
将档案著录信息直接映射到其他关联数据模型主要利用XSLT(ExtensibleStylesheetLanguageTransformations)样式表来实现。XSLT采用基于模式匹配和选择器的方式来查找XML文档中的元素和属性,从源XML文档中提取数据,将其转换为目标文档。XSLT提供众多转换函数和运算符,以便对提取的数据进行处理和变换。它采用基于模式匹配和选择器的方式来查找XML文档中的元素和属性。在XSLT中,样式表由XSLT指令组成,这些指令用于描述如何从源XML文档中提取数据,并将其转换为目标文档。此外,这种将档案著录数据转换为关联数据RDF/XML的方法与FOAF、SKOS、RDFS和DublinCore等标准相衔接,易于理解和复用,任何机构或个人都可以利用它将EAD形式的档案著录数据转换为关联数据RDF/XML。
1.1.2典型案例——英国LOCAH项目
LOCAH项目开发了ArchivesHubEADtoRDFXSLT样式表[5],并且提供了将档案著录数据转换为关联数据RDF/XML的具体步骤。LOCAH元素集仅处理EAD的一部分,并引入了有助于馆藏档案数据转换为关联数据的其他元素。在元素映射过程中,当现有词汇表无法恰当地表示概念时,项目组定义了所需的其他类和属性并提供URI作为小型LOCAHRDF词汇表。ArchivesHubEADtoRDFXSLT样式表转换过程如图1所示。
图1ArchivesHubEADtoRDFXSLT样式表转换过程
1.2建立档案领域的数据模型
1.2.1实现路径
以RiC-O0.2为例,其实体、属性和关系的具体解释如下:
图2RiC-O的核心实体概念模型
(2)属性(Attributes)。属性用来表达实体的特征。只有描述出实体的属性以及该实体与其他实体的关系,才能表达实体的显著特征。RiC-O0.2中的属性既包括实体固有的特征,如文件所使用的语言、签章、载体类型等,也包括著录者赋予的属性,如与文件一一对应的特定标识符。目前,RiC-O0.2中规定了22个属性类别(RiC-E01—RiC-E22)。RiC-O0.2把词表中一些特定的概念类别(例如主题、职业或活动类型等)作为实体而非属性。因为这些概念可以用来创建重要的通用主题词表,例如活动类型、职业类型等,在开放的关联数据环境中,这些词表能够实现相互链接的分散描述和访问服务。
(3)关系(Relations)。关系的作用是描述实体之间的联系,从而表达档案文件的历史及管理的重要特征。RiC-O0.2用13种关系类型来描述和记录文件资源创建、积累和管理的背景,以便于文件的制作和保存。RiC-O0.2中所有实体之间的79种关系描述如“Whole-partrelations”(整体部分关系)、“Sequentialrelations”(顺序关系)等,都符合13种关系概念中的一个或多个类别。
1.2.2典型案例——法国档案馆PIAAF项目
“法国档案馆互操作试点”(PilotforInteroperableArchivalAuthoritiesinFrance,PIAAF)项目是由法国国家档案馆、法国档案部和法国国家图书馆共同合作的档案元数据语义化和可视化实验项目。该项目是RiC-O的第一个实践应用案例,旨在证明将语义网技术应用于档案描述的现实可行性,探索语义网技术是否可以准确表示、相互链接和可视化已有的档案元数据集。项目团队选择了RiC-O作为将选定的档案元数据集转换为RDF的参考模型。2017年底,PIAAF的用户界面经测试后正式上线。
在将档案元数据集转换为RDF的过程中,首先,项目定义了“档案制作实体的行动领域或对象”“档案制作实体的活动”两个词汇表,并且为项目实施准备了涵盖276条XML/EAC-CPF记录和38条XML/EAD检索工具的语料库;其次,项目只选择使用RiC-O标准中部分较为稳定的实体元素,包括“person”“event”“record”“place”等14个实体;再次,项目开发了一组XSLT脚本,可以按照设定的转换顺序(职能、法律地位、事件等)将档案元数据集转换为XML/RDF文件;最后,转换后的XML/RDF文件会作为各自独立的对象保存,每个文件夹都会保存某一类实体的所有RDF文件。该项目的成功实践为档案元数据语义化操作以及数据集的可视化和导航服务提供了范例。
1.3建立通用的顶层数据模型
1.3.1实现路径
2005年,欧洲19个国家联合创建欧洲数字图书馆的数据模型(EuropeanaDataModal,EDM),旨在描述Europeana平台上数字化文化遗产的数据结构和关系。EDM基于LinkedOpenData原则,允许不同机构之间共享数据并建立关联,支持数字文化遗产的开放性、透明度和再利用。它提供了通用、跨文化的数据模型,并为用户提供统一的访问接口,使欧洲联盟机构之间能够共享数字文化遗产。
1.3.2典型案例——欧洲数字图书馆Europeana
2我国档案著录信息关联数据化的路径选择
2.1道以明向——加大档案开放力度
开放互联是关联数据的核心要义,开放的档案数据是实现关联的前提。关联数据的发明者TimBerners-Lee描绘关联数据的发展前景时强调,要将Web从链接文档的全球信息空间发展为链接文档和数据的空间,即数据网络。虽然新修订的《中华人民共和国档案法》将档案开放期限缩短至25年,要求档案馆提高开放档案比例,但是在实际工作中,档案开放率并不尽如人意。依据《全国档案事业基本情况统计年报》,我国各级国家档案馆近十年的档案开放率基本维持在14%~21%。因此,应加大档案开放力度,为档案数据资源进一步融入全球数据网络创造前提。
2.2法以规制——改进档案资源描述标准
2.3术以利策——促进主体、资源、工作流的协同与集成
2.4器以立本——夯实档案著录信息基础
开展和实施关联数据项目的基础不在于开发新的数据模型,而在于是否具备丰富翔实的档案著录信息作为数据源。档案著录是关联数据应用于档案领域的关键环节。关联数据将档案置于更广阔的背景中,描述其内容语义、价值以及被创建和维护的过程。只有对档案进行全面准确地著录,才能使关联数据的创建、发布和重用得以实现,将档案内容带入关联数据提供的更广泛的知识生态系统中。在具体操作层面,需要合理划定档案著录信息转换为关联数据的范围。并非所有的档案著录信息都有必要转换为关联数据,应从关联数据的应用优势出发予以选择。着重将档案概念、资源内容和背景信息等描述性、结构性元数据表示为关联数据,如利用现有的关联数据模型和本体表示保管历史或实体(如家庭或法人团体)之间的复杂关系等。
2.5势以利导——探索低成本、轻量级档案关联数据项目
3结语
本研究立足于国内档案资源描述的现实需求,对国际范围内档案著录信息关联数据化方法进行了较为全面的分析。研究发现,国际档案界对面向关联数据的档案资源描述在模型设计方向、语义描述深度、兼容规则、机构合作等方面体现出诸多创新之处。而对于国内档案界,这一问题的理论研究尚处于探索阶段,实践应用也面临诸多难题,如国内档案著录工作既非遵循ISAD(G)和EAD,2022年新发布的《档案著录规则》也并未涉及本体构建。如何在现有基础上适应关联数据环境,促进资源描述与共享?但不可否认的是,档案著录信息关联数据化有利于实现档案数据之间的逻辑关联和知识组织,是实现智慧档案数据资源建设、融入数字中国国家数据资源体系的必然需求。因此,国内档案界应立足于我国档案著录工作现状,借鉴国际经验,改进档案资源描述标准,加强资源链接,构建语义互联、可复用的高质量档案数据资源体系。
参考文献
[1]赵夷平.基于关联数据的机构知识库资源聚合与知识发现研究[D].长春:吉林大学,2018.
[2][12]段荣婷,夏子涵,王昊.档案著录关联数据化实现研究[J].档案学研究,2021(4):100-110.
[6]段荣婷,马寅源,李真.国际文件/档案著录标准化前沿与趋势展望:基于国际最新著录标准ICARiC的研究[J].档案管理,2018(1):28-35.
[7][8]王萍,黄新平.基于关联开放数据的数字文化资源语义融合方法研究:欧洲数字图书馆案例分析[J].图书情报工作,2016(12):29-37.
[13]张福俊,高雪,周秀霞.国内外数字资源发现平台比较研究:以Trove、DPLA、Europeana、WDL和文津搜索为例[J].国家图书馆学刊,2018(1):86-96.
【基金项目】中国人民大学科学研究基金项目“中国红色文献档案资源库建设”(项目编号:22XNLG11)。
【作者简介】祝洁(1981—),女,汉族,河南商丘人,郑州航空工业管理学院信息管理学院副教授,博士在读,研究方向:电子文件管理、非物质文化遗产档案管理;刘越男(1974—),女,汉族,江苏滨海人,中国人民大学信息资源管理学院教授、博士生导师,博士,研究方向:电子文件管理、数字档案馆、数据治理。