摘要:介绍了关联数据的概念提出、发布方式以万维网上关联数据集的规模现状,在阐释了图书馆书目数据演变历程、核心功能和图书馆界对书目数据认识的转变后,分析了国外图书馆将书目数据发布为关联数据的尝试。
布什文中所提出的“关联”思想启发了科学家们创造超文本链接,并将一个个网页链接起来构建了万维网,而“MEMEX”的构想则成为数字图书馆的发端和前身。[2]随着网络技术的发展和数字图书馆的日益成熟,建立更多的关联成为万维网和数字图书馆的重要任务,而这些无处不在的关联将促进布什在半个多世界前所做的构想逐步转变为触手可及的现实。
互联网的创始人蒂姆·伯纳斯—李在《巨大全球图》(GiantGlobalGraph)一文中描述了其对网络的认识演变历程,他发现:“有趣的不是电缆,而是被电缆所连接的电脑……有趣的不是计算机,而是计算机中的文档……有趣的不是文档,而是文档所表达的东西。”[3]网络正从文档之间的相互关联,发展到数据之间的相互关联,海量相互关联的数据将构成蒂姆·伯纳斯—李所设想的数据网络。[4]打破文档的禁锢,将文档中的原始数据释放出来,再在这些数据之间建立广泛的关联,将使得现有的万维网得以极大延展,将人们对于信息的检索、获取和利用从文档层面细化到数据层面。
关联数据指的是一系列在网络上发布并链接结构化数据的方法。[5]这一系列的方法中包括了语义信息的编码方法、发布方法和利用方法,这些方法合在一起便构成了语义网的一种简化实现[6]。关联数据的规范由国际互联网协会(W3C)维护,W3C推荐使用RDF作为关联数据的发布格式,并鼓励人们建立更多的RDF关联。以结构化数据为基础,经过语义化关联的关联数据将终结信息孤岛的现象,把现有的网络从一个分散的文件系统转变成一个分散的数据库系统。[7]
关联数据的创始人蒂姆·伯纳斯—李在其《关联数据》(LinkedData)一文中归纳了关联数据的四项准则:
只要数据满足了上面四个准则就是关联数据了。[8]准则1和2是强制性的规则,关联数据的发布者可以给一切要发布到网络上的实体一个URI,并且这个URI是可以通过超文本协议(HTTP)访问的。准则3是元数据格式的推荐,W3C推荐使用RDF作为标准的元数据格式,目前Schema.org的开发者谷歌、微软和雅虎公司则支持微数据(Mircodata)成为标准元数据格式。准则4则是在网络上已有大量以关联数据格式发布的数据之后需要做的工作。任何数据都只要经过:1增加可通过超文本协议访问的URI标识,2转换为标准的关联数据元数据格式,3创建与其他数据的关联,三个主要步骤便可以成为可以发布到数据网络中的关联数据了。
任何信息资源,不管其规模有多大,一旦成为封闭的孤岛,就会失去其投资与实际利用价值之间的平衡。[9]目前,越来越多的机构、组织以及政府部门正在依循关联数据的发布准则,对外开放其数据并与其他机构所发布的数据进行关联。截至2011年9月19日,网络上以W3C推荐的关联数据标准发布的关联数据集已经达到了295个之多,并且数据集的数量和数据集之间的关联都在快速增加着。[10]
图1关联数据集云图
图书馆有悠久的信息资源管理和服务历史,在这场关联数据的运动之中,在未来的关联数据的无边海洋之中,图书馆将不再是一座孤立的岛屿,而是成为海洋中关键的一股浪潮,将同时是丰富的高质量数据提供者和由其他机构所发布的精彩数据的消费者。
书目数据是用来描述文献资源的数据,根据元数据就是“关于数据的数据”的定义,书目数据就是图书馆的馆藏资源的元数据。近现代以来,图书馆的书目数据经历了几次变革:从账本式的图书目录发展为书目卡片,再从书目卡片发展成为支持计算机存储与检索的机读目录。书目数据的发展始终围绕着的是图书馆用户信息需求的变化,每一次变革,归根到底都是因为旧的图书馆书目数据不再能很好的适应图书馆用户发现和获取信息的需求。
国际图联(IFLA)的《书目数据的功能需求》(FRBR)中将用户对于图书馆书目数据的功能需求总结为四项任务:查找、识别、选择和获取[11]。IFLA所提出的用户需求中,前三项任务与信息的发现过程有关,最后一项则与信息的获取过程有关,加上为了满足这四项任务所必需的信息描述,一起构成了书目数据的三个核心功能,无论书目数据怎样变革,这个项功能都是书目数据所必需具备的:
描述:书目数据包含对资源的物理表现和内容的描述。
发现:用户可以利用书目数据发现其所需求的资源。
获取:用户可以利用书目数据获得资源的一个实体。
美国国会图书馆在20世纪60年代开发了《机读目录格式》(MARC),正是因为MARC可以较好地实现这三项功能,而被全世界各国的图书馆普遍地采用直至今天。
在一个不断网域化(Web-scale)的世界中,图书馆的书目数据的功能需求有了新的要求:“不仅需要能清晰地区别作品的概念和其物理表现,还需要能够清晰地标识作品实体以及和作品有关的其他概念。”[12]传统的图书馆资源描述,专注于采集与作品的概念和其物理表现有关的信息,严重依赖用文字作为标识符创建能够单独被理解的书目数据,这样的书目数据难以被关联利用。
可以说,是图书馆给自己砌了一堵墙,在围城之内拥抱自己的书目数据,逐渐切断了与外界的沟通。如今,书目数据走向开放关联的努力正是为了打破这堵墙,让图书馆以开放、包容的姿态走向数据网络,这对图书馆的书目数据和图书馆人均是一个巨大的挑战。
如果要将图书馆的书目数据以开放关联的形式发布到数据网络之中,图书馆需要把工作的焦点从获取和记录对图书馆资源的描述性信息转为在资源之间建立更多的关联。图书馆书目数据的编目规则从《英美编目规则》第二版(AACR2)发展至资源描述和检索(RDA),其中体现了图书馆对其馆藏结构和书目数据结构的认识改变:图书馆不再将书目数据限制为平面结构,不再人为地为资源实体“创造”各种指标和参数——而是将现实世界中的各种资源相互联系起来,组成一个多维度的关系网。[13]建立在用“关系”将不同的“实体”相互关联的概念模型之上的书目数据与关联数据的理念是契合的,从而将图书馆推向了关联数据运动的浪尖。图书馆的分类法、词表和各种规范文档以及书目数据都具备发布成关联数据的潜质,世界各国的图书馆也在进行着这样的尝试。
英国国家图书馆、德国国家图书馆、联机计算机图书馆中心和美国国会图书馆等许多图书馆和图书馆组织在积极地进行开放关联数据的服务。
图2英国国家图书馆的图书关联数据模型
开放关联的英国国家书目(LinkedOpenBNB)是英国图书馆正在开发的英国国家书目的一个版本,该版本的英国国家书目可以通过Talis平台以开放关联数据的形式被利用。
英国国家图书馆的开放关联数据尝试尽可能地利用现有的本体词汇,并尽可能多地与已发布的关联数据集进行关联,在这样的思想指导下设计出了图书的关联数据模型(图2)[14]并提出了一套对现有MARC21格式的书目数据向关联数据转化的工作流程(图3)[15]。
图3英国国家图书馆的关联数据转化工作流程图示
英国国家图书馆的开发关联数据服务,率先发布的书目数据选自于1950年以来出版的英国图书和期刊的英国国家书目中一个子集,目前已经发布了二百八十万条记录和一共89,733,617条三元组记录,并支持多种访问方式。[16]
德国国家图书馆自2010年开始通过关联数据的方式发布其规范数据。2012年开始将其主要馆藏和期刊的书目数据进行转换。德国国家图书馆的关联数据可以支持图书馆专用协议(OAI、SRU)访问,同时也提供公开访问方式。[17]
表1德国国家图书馆关联数据模型有关标题的部分(节选)
2012年6月20日,OCLC在升级WorldCat.org时,在其页面上添加了基于Schema.org的描述性标识,使得WorldCat.org上的书目描述和OCLC之前的其他关联数据尝试成果VIAF、FAST、DDC之间实现了关联,同时也使得WorldCat.org上公开的全部元数据资源都可以被网页爬虫访问,提升了搜索引擎在搜索索引和其他应用中利用WorldCat.org数据的效果。[19]WorldCat上的每一个条目都被嵌入了RDFa(RDFattribute)和Mircodata。
OCLC的关联数据模型主要是利用了现有的Schema.org数据模型,同时在开发一个针对图书馆的扩展词汇集。[20]OCLC在不断地完善这个词汇集,用来配合由搜索引擎公司所建立的Schema.org数据模型,使之能够更好地满足图书馆的元数据实践需求。
从上面列举出来的两个国家图书馆和一个图书馆组织的关联数据尝试中,可以看出这些图书馆和机构在将书目数据转换为关联数据方面采取了不同途径。
与其他关联数据集的关联:英国国家图书馆创建了尽可能多的关联;德国国家图书馆则是随着其数据模型的不断完善而不断地建立新的关联;联机计算机图书馆中心只将其发表的书目数据和规范文档进行了关联,并未与其他机构发布的关联数据集进行关联。
数据格式:英国国家图书馆认准了RDF/XML作为其唯一的数据格式;德国国家图书馆选择RDF作为元数据标准,但选择XML和turtle两种标识语言进行数据序列化:联机计算机图书馆中心则在RDFa之外还选择了Mircodata作为数据格式。
英国国家图书馆
德国国家图书馆
联机计算机图书馆中心
1.Schema.org
2."library"extensionvocabulary
实现关联的数据集
数据格式
表2英国国家图书馆、德国国家图书馆和联机计算机图书馆中心的关联数据项目比较
刘炜对国内关联数据的研究与应用情况进行了扫描,目前国内图书馆界对于关联数据的研究尚不普及,现有的文献主要是对关联数据的介绍,只有少量涉及关联数据技术实现的论文,现有的科研项目数量不多,大多是关联数据技术在各个领域应用的可能性探讨,并没有在图书馆实际运用关联数据技术的项目。[21]
早在1945年,布什便在《诚如所思》一文中预示了未来的信息大爆炸,他构想出的MEMEX便是这样一台帮助人们面对单凭人类自身无法处理的复杂信息环境的机器,以“关联”的方式帮助人们实现信息组织,以“联想”的方式帮助人们实现信息发现。如今的万维网和关联数据正是这样的技术,图书馆需要发布关联数据,图书馆需要利用关联数据,图书馆人需要进一步研究和探索关联数据。
参考文献:
13.刘炜等.RDA与关联数据[J].中国图书馆学报,2012(1):34-42.
17.GermanNationalLibrary.TheLinkedDataServiceoftheGermanNationalLibrary:Noteregardingaccess[EB/OL].[2013-01-07].
19.OCLC.LinkeddataatOCLC[EB/OL].[2013-01-07]
21.刘炜.关联数据:概念、技术及应用[J].大学图书馆学报,2011(2):5-12.