开放关联的书目数据

摘要:介绍了关联数据的概念提出、发布方式以万维网上关联数据集的规模现状,在阐释了图书馆书目数据演变历程、核心功能和图书馆界对书目数据认识的转变后,分析了国外图书馆将书目数据发布为关联数据的尝试。

布什文中所提出的“关联”思想启发了科学家们创造超文本链接,并将一个个网页链接起来构建了万维网,而“MEMEX”的构想则成为数字图书馆的发端和前身。[2]随着网络技术的发展和数字图书馆的日益成熟,建立更多的关联成为万维网和数字图书馆的重要任务,而这些无处不在的关联将促进布什在半个多世界前所做的构想逐步转变为触手可及的现实。

互联网的创始人蒂姆·伯纳斯—李在《巨大全球图》(GiantGlobalGraph)一文中描述了其对网络的认识演变历程,他发现:“有趣的不是电缆,而是被电缆所连接的电脑……有趣的不是计算机,而是计算机中的文档……有趣的不是文档,而是文档所表达的东西。”[3]网络正从文档之间的相互关联,发展到数据之间的相互关联,海量相互关联的数据将构成蒂姆·伯纳斯—李所设想的数据网络。[4]打破文档的禁锢,将文档中的原始数据释放出来,再在这些数据之间建立广泛的关联,将使得现有的万维网得以极大延展,将人们对于信息的检索、获取和利用从文档层面细化到数据层面。

关联数据指的是一系列在网络上发布并链接结构化数据的方法。[5]这一系列的方法中包括了语义信息的编码方法、发布方法和利用方法,这些方法合在一起便构成了语义网的一种简化实现[6]。关联数据的规范由国际互联网协会(W3C)维护,W3C推荐使用RDF作为关联数据的发布格式,并鼓励人们建立更多的RDF关联。以结构化数据为基础,经过语义化关联的关联数据将终结信息孤岛的现象,把现有的网络从一个分散的文件系统转变成一个分散的数据库系统。[7]

关联数据的创始人蒂姆·伯纳斯—李在其《关联数据》(LinkedData)一文中归纳了关联数据的四项准则:

只要数据满足了上面四个准则就是关联数据了。[8]准则1和2是强制性的规则,关联数据的发布者可以给一切要发布到网络上的实体一个URI,并且这个URI是可以通过超文本协议(HTTP)访问的。准则3是元数据格式的推荐,W3C推荐使用RDF作为标准的元数据格式,目前Schema.org的开发者谷歌、微软和雅虎公司则支持微数据(Mircodata)成为标准元数据格式。准则4则是在网络上已有大量以关联数据格式发布的数据之后需要做的工作。任何数据都只要经过:1增加可通过超文本协议访问的URI标识,2转换为标准的关联数据元数据格式,3创建与其他数据的关联,三个主要步骤便可以成为可以发布到数据网络中的关联数据了。

任何信息资源,不管其规模有多大,一旦成为封闭的孤岛,就会失去其投资与实际利用价值之间的平衡。[9]目前,越来越多的机构、组织以及政府部门正在依循关联数据的发布准则,对外开放其数据并与其他机构所发布的数据进行关联。截至2011年9月19日,网络上以W3C推荐的关联数据标准发布的关联数据集已经达到了295个之多,并且数据集的数量和数据集之间的关联都在快速增加着。[10]

图1关联数据集云图

图书馆有悠久的信息资源管理和服务历史,在这场关联数据的运动之中,在未来的关联数据的无边海洋之中,图书馆将不再是一座孤立的岛屿,而是成为海洋中关键的一股浪潮,将同时是丰富的高质量数据提供者和由其他机构所发布的精彩数据的消费者。

书目数据是用来描述文献资源的数据,根据元数据就是“关于数据的数据”的定义,书目数据就是图书馆的馆藏资源的元数据。近现代以来,图书馆的书目数据经历了几次变革:从账本式的图书目录发展为书目卡片,再从书目卡片发展成为支持计算机存储与检索的机读目录。书目数据的发展始终围绕着的是图书馆用户信息需求的变化,每一次变革,归根到底都是因为旧的图书馆书目数据不再能很好的适应图书馆用户发现和获取信息的需求。

国际图联(IFLA)的《书目数据的功能需求》(FRBR)中将用户对于图书馆书目数据的功能需求总结为四项任务:查找、识别、选择和获取[11]。IFLA所提出的用户需求中,前三项任务与信息的发现过程有关,最后一项则与信息的获取过程有关,加上为了满足这四项任务所必需的信息描述,一起构成了书目数据的三个核心功能,无论书目数据怎样变革,这个项功能都是书目数据所必需具备的:

描述:书目数据包含对资源的物理表现和内容的描述。

发现:用户可以利用书目数据发现其所需求的资源。

获取:用户可以利用书目数据获得资源的一个实体。

美国国会图书馆在20世纪60年代开发了《机读目录格式》(MARC),正是因为MARC可以较好地实现这三项功能,而被全世界各国的图书馆普遍地采用直至今天。

在一个不断网域化(Web-scale)的世界中,图书馆的书目数据的功能需求有了新的要求:“不仅需要能清晰地区别作品的概念和其物理表现,还需要能够清晰地标识作品实体以及和作品有关的其他概念。”[12]传统的图书馆资源描述,专注于采集与作品的概念和其物理表现有关的信息,严重依赖用文字作为标识符创建能够单独被理解的书目数据,这样的书目数据难以被关联利用。

可以说,是图书馆给自己砌了一堵墙,在围城之内拥抱自己的书目数据,逐渐切断了与外界的沟通。如今,书目数据走向开放关联的努力正是为了打破这堵墙,让图书馆以开放、包容的姿态走向数据网络,这对图书馆的书目数据和图书馆人均是一个巨大的挑战。

如果要将图书馆的书目数据以开放关联的形式发布到数据网络之中,图书馆需要把工作的焦点从获取和记录对图书馆资源的描述性信息转为在资源之间建立更多的关联。图书馆书目数据的编目规则从《英美编目规则》第二版(AACR2)发展至资源描述和检索(RDA),其中体现了图书馆对其馆藏结构和书目数据结构的认识改变:图书馆不再将书目数据限制为平面结构,不再人为地为资源实体“创造”各种指标和参数——而是将现实世界中的各种资源相互联系起来,组成一个多维度的关系网。[13]建立在用“关系”将不同的“实体”相互关联的概念模型之上的书目数据与关联数据的理念是契合的,从而将图书馆推向了关联数据运动的浪尖。图书馆的分类法、词表和各种规范文档以及书目数据都具备发布成关联数据的潜质,世界各国的图书馆也在进行着这样的尝试。

英国国家图书馆、德国国家图书馆、联机计算机图书馆中心和美国国会图书馆等许多图书馆和图书馆组织在积极地进行开放关联数据的服务。

图2英国国家图书馆的图书关联数据模型

开放关联的英国国家书目(LinkedOpenBNB)是英国图书馆正在开发的英国国家书目的一个版本,该版本的英国国家书目可以通过Talis平台以开放关联数据的形式被利用。

英国国家图书馆的开放关联数据尝试尽可能地利用现有的本体词汇,并尽可能多地与已发布的关联数据集进行关联,在这样的思想指导下设计出了图书的关联数据模型(图2)[14]并提出了一套对现有MARC21格式的书目数据向关联数据转化的工作流程(图3)[15]。

图3英国国家图书馆的关联数据转化工作流程图示

英国国家图书馆的开发关联数据服务,率先发布的书目数据选自于1950年以来出版的英国图书和期刊的英国国家书目中一个子集,目前已经发布了二百八十万条记录和一共89,733,617条三元组记录,并支持多种访问方式。[16]

德国国家图书馆自2010年开始通过关联数据的方式发布其规范数据。2012年开始将其主要馆藏和期刊的书目数据进行转换。德国国家图书馆的关联数据可以支持图书馆专用协议(OAI、SRU)访问,同时也提供公开访问方式。[17]

表1德国国家图书馆关联数据模型有关标题的部分(节选)

2012年6月20日,OCLC在升级WorldCat.org时,在其页面上添加了基于Schema.org的描述性标识,使得WorldCat.org上的书目描述和OCLC之前的其他关联数据尝试成果VIAF、FAST、DDC之间实现了关联,同时也使得WorldCat.org上公开的全部元数据资源都可以被网页爬虫访问,提升了搜索引擎在搜索索引和其他应用中利用WorldCat.org数据的效果。[19]WorldCat上的每一个条目都被嵌入了RDFa(RDFattribute)和Mircodata。

OCLC的关联数据模型主要是利用了现有的Schema.org数据模型,同时在开发一个针对图书馆的扩展词汇集。[20]OCLC在不断地完善这个词汇集,用来配合由搜索引擎公司所建立的Schema.org数据模型,使之能够更好地满足图书馆的元数据实践需求。

从上面列举出来的两个国家图书馆和一个图书馆组织的关联数据尝试中,可以看出这些图书馆和机构在将书目数据转换为关联数据方面采取了不同途径。

与其他关联数据集的关联:英国国家图书馆创建了尽可能多的关联;德国国家图书馆则是随着其数据模型的不断完善而不断地建立新的关联;联机计算机图书馆中心只将其发表的书目数据和规范文档进行了关联,并未与其他机构发布的关联数据集进行关联。

数据格式:英国国家图书馆认准了RDF/XML作为其唯一的数据格式;德国国家图书馆选择RDF作为元数据标准,但选择XML和turtle两种标识语言进行数据序列化:联机计算机图书馆中心则在RDFa之外还选择了Mircodata作为数据格式。

英国国家图书馆

德国国家图书馆

联机计算机图书馆中心

1.Schema.org

2."library"extensionvocabulary

实现关联的数据集

数据格式

表2英国国家图书馆、德国国家图书馆和联机计算机图书馆中心的关联数据项目比较

刘炜对国内关联数据的研究与应用情况进行了扫描,目前国内图书馆界对于关联数据的研究尚不普及,现有的文献主要是对关联数据的介绍,只有少量涉及关联数据技术实现的论文,现有的科研项目数量不多,大多是关联数据技术在各个领域应用的可能性探讨,并没有在图书馆实际运用关联数据技术的项目。[21]

早在1945年,布什便在《诚如所思》一文中预示了未来的信息大爆炸,他构想出的MEMEX便是这样一台帮助人们面对单凭人类自身无法处理的复杂信息环境的机器,以“关联”的方式帮助人们实现信息组织,以“联想”的方式帮助人们实现信息发现。如今的万维网和关联数据正是这样的技术,图书馆需要发布关联数据,图书馆需要利用关联数据,图书馆人需要进一步研究和探索关联数据。

参考文献:

13.刘炜等.RDA与关联数据[J].中国图书馆学报,2012(1):34-42.

17.GermanNationalLibrary.TheLinkedDataServiceoftheGermanNationalLibrary:Noteregardingaccess[EB/OL].[2013-01-07].

19.OCLC.LinkeddataatOCLC[EB/OL].[2013-01-07]

21.刘炜.关联数据:概念、技术及应用[J].大学图书馆学报,2011(2):5-12.

THE END
1.数字图书馆行业趋势:赋能行业迈向技术更新与深度融合发展新阶段内容概要:从数字图书馆的建设情况来看,目前中国已经形成了以国家图书馆为核心,以省级数字图书馆为主要节点,覆盖全国公共图书https://www.shangyexinzhi.com/article/23817968.html
2.SAGE中国科学技术大学图书馆SAGE过刊数据库期刊列表 数据库简介 SAGE与全球超过400家专业学术协会合作出版900余种高品质学术期刊,涉及人文科学、社会科学、理工科技和医学等广泛领域。主要研究范围包括: 教育学、心理学、传播传媒、社会学、 政治和国际关系、经管商业、 地理、环境科学、 机械工程、材料科、生命科学、医学、健康护理、食品纺织、信息https://lib.ustc.edu.cn/%E7%94%B5%E5%AD%90%E8%B5%84%E6%BA%90/sage%E6%95%B0%E6%8D%AE%E5%BA%93/
3.中华人民共和国文化和旅游部12月10日,中国国家图书馆党委书记、副馆长陈樱以线上形式参加了“2024金砖国家图书馆联盟峰会”。本次会议由金砖国家图书馆联盟轮值主席馆俄罗斯国立图书馆主办,主题为“国家图书馆项目改变社区生活”。来自巴西、印度、中国、南非、伊朗、阿联酋、埃及的国家图书馆馆长分别以线上和线下相结合的方式参加会议。 https://www.mct.gov.cn/wlbphone/wlbydd/xxfb/zsdw/202412/t20241218_957158.html
4.中国国家图书馆·中国国家数字图书馆·国家典籍博物馆曾开设《基本乐理与管弦乐基础》《钢琴》等通选课、公选课;曾任北大学生交响乐团指挥与艺术指导。出版《基本乐理与管弦乐曲谱赏析》等专著、教材共8部。 活动时间:2025年1月11日 周六 10:00-12:00 活动地点:国家图书馆总馆北区一层学津堂(中关村南大街33号88544625) 本活动需扫码预约https://www.nlc.cn/web/shouye/remenhuodong/20241220_2642404.shtml
5.国家图书馆OPAC的MARC页面数据下载的编程思路职业摘要:本文讨论国家图书馆O(简称:国图)PAC检索结果的页面MARC数据的收集的程序思路,文中的代码使用C#语言,基于.net框架实现。 注:因版权方要求,不能公开全文,如需全文,请咨询杂志社 学术咨询 期刊咨询服务,助力升职加薪 立即咨询 职业 《职业》(CN:11-4601/D)是一本有较高学术价值的大型半月刊,自创刊以来,选题https://www.xueshu.com/zhiye/201215/7472369.html
6.MARC21书目数据格式例用手册国家图书馆MARC21格式使用手册课题当当荷露茗图书专营店在线销售正版《MARC21书目数据格式例用手册 国家图书馆MARC21格式使用手册课题组 9787501328147睿智启图书》。最新《MARC21书目数据格式例用手册 国家图书馆MARC21格式使用手册课题组 9787501328147睿智启图书》简介、书评、试读、价格、图片等相关信息http://product.dangdang.com/11308000664.html
7.中国国家图书馆注册后可以免费使用维普等多个数据库资源中国国家图书馆 注册后可以免费使用 维普等多个数据库资源,部分数据库有下载限制 登陆中国国家图书馆http://www.nlc.gov.cn/在页面中间检索框的右上角 有个登陆注册,(如下图)进入下一个页面,在页面右上角点注册,输入相应信息后,回到注册留下的邮箱里,收到密码。之后返回登陆处 开启首次登陆,登陆后及时修改个人https://blog.csdn.net/rememberautumn/article/details/18506891
8.适合青年阅读报刊杂志清单1、期刊收录:国家新闻出版总署收录、维普网、知网数据库收录 2、数据:MARC数据、DC数据 3、图书馆藏:国家图书馆馆藏;上海图书馆馆藏 疯狂英语·中学版杂志订阅方式: ISSN:1006-2831,CN:36-1292/H,主编:吴明华,地址:江西省南昌市抚河北路291号,邮编:330008,电话:0791-86705825,邮箱:ceteens@sina.com;ceteens@https://www.meipian.cn/1wurj5db
9.中国国家图书馆?中国国家数字图书馆数字资源门户是国家图书馆推出的数字资源综合检索平台,旨在有机地整合国家图书馆收藏的多文种、多学科、多载体、多类型,且分布式存在的印刷型和数字化的信息资源,为社会公众提供方便快捷的一站式检索和信息获取服务。该系统具有整合检索、数据库查找、期刊查找、原文查找、个人空间等功能。您可以一次对多个数据库进行检索http://dportal.nlc.cn:8332/zylb/zylb_szzymh_faq.htm
10.馆藏文献优先数字化的策略思考11篇(全文)如何把馆藏文献书目数据库建设成为图书馆的重要信息资源, 关键取决于MARC数据信息加工的质量。地方高校信息服务中心的图书馆, 目前正处于馆藏文献数字化建设中, 图书馆管理者往往关心的是读者借还服务和书刊的拥有量统计, 对于MARC数据信息的服务不重视, 这种状况会造成在咨询与查新等信息服务过程中, 馆藏文献信息资源https://www.99xueshu.com/w/filefgdy4ydx.html
11.国家图书馆与CALIS中文图书CNMARC编目实践的差异与统一总第183期 Serial No.183国家图书馆与 CALIS 中文图书 CNMARC编目实践的差异与统一郭 红摘 要 国家图书馆和中国高等教育文献保障体系( CALIS)都是全国性的联合编目中心, 然而两家编目机构编制的中文书目数据却存在着许多差异。本文通过分析说明其主要的一些差异所在及形成的原因, 并提出消除编目实践差异、 统一编目规http://m.doc88.com/p-383770807439.html
12.图书情报工作杂志中国科学院文献情报中心主办2015年第S2期现用名:图书情报工作 邮编:100190 期刊收录: CSSCI 南大期刊(含扩展版)北大期刊(中国人文社会科学期刊)统计源期刊(中国科技论文优秀期刊)知网收录(中)维普收录(中)万方收录(中)JST 日本科学技术振兴机构数据库(日)国家图书馆馆藏上海图书馆馆藏 期刊荣誉: 全国优秀科技期刊中国优秀期刊遴选数据库中国期刊全文数据https://www.youfabiao.com/tsqbgz/2015S2/
13.网页marc数据采集器(国图marc数据批量下载)文图软件作者:sjzwcs 发布:2017-10-07 15:08 分类:MARC数据,工具软件阅读:7,561 views96条评论 在国内CNMARC又分为国图格式、CALIS格式。而国图数据最权威的机构当属国家图书馆OPAC。国图页面提供机读格式,可以通过技术手段获取到完整marc数据。本软件使用自己开发的html解析器,无内存泄漏,下载时保证了稳定性。采用多线程技https://www.sjzwtrj.cn/157.html
14.就要马克(1)在LIBNET图书馆集群管理系统菜单中依次选择【系统】——【系统参数】——【Z39.50管理】,点击新增按钮;(2)服务器地址:z39.91marc.cn 或者 134.175.36.209端口号:2100编码格式:gbk用户和密码:输入用户名密码(注意字母大小写)数据库:uc_bib,calis,cipmarc(多库请用逗号分隔)(3)在编目模块【用户参数】中选取默认https://www.91marc.cn/
15.pythonMARC数据解析(qbit)qbitsnapMARC 是 Machine Readable Catalog(ue) 的缩写,意即“机器可读目录”,即以代码形式和特定结构记录在计算机存储载体上的、用计算机识别与阅读的目录。https://segmentfault.com/a/1190000022435622?sort=newest
16.什么是MARC数据?51CTO博客1969年开始向全国发行 MARCII格式书目磁带,并将MARCII格式称为US- MARC,即美国机器可读目录。作为一种计算机技术发展早期形成的数据格式,这一格式在定义时比较充分地照顾到图书馆书目数据在文献形式描述、内容描述、 检索等方面的需要,表现为:字段数量多;著录详尽;可检索字段多;定长与不定长字段结合,灵活实用;保留https://blog.51cto.com/u_8895844/6272255
17.图书机读目录MARC简介,ISO格式目录数据生成该标准根据我国文化部科技司于1993年3月向北京图书馆下达的研究任务而制定,目的是推进书目数据的规范与统一、加速我国文献信息网络的建设以及实现国内外书目信息的共建共享。2004年,北京图书馆出版社出版了国家图书馆编的《新版中国机读目录格式使用手册》(New China MARC Format Manual)。 2005年7月,在《新版中国机https://cloud.tencent.com/developer/article/2292372
18.marc数据名词解释尽管最初是为美国设计,MARC-Ⅱ格式随后被命名为US-MARC,用于全国范围内的图书目录发行。然而,为了适应不同国家的特性和促进国际交流,国际图书馆联合会在此基础上制定了国际通用的“国际机读目录通信格式”(UNIMARC)。如今,许多国家都采纳了UNIMARC,以此作为文献编目的标准,实现了数据格式的统一和标准https://zhidao.baidu.com/question/444521518109292964.html
19.国家图书馆出版社2011marc数据(excel标准).xls下载国家图书馆出版社2011marc数据(excel标准).xls,Sheet3 Sheet2 Sheet1 本书从大型类书〈册府元龟〉中将有关唐代历史的资料全部摘抄出来,并以唐代人物为线索进行整理编排。是已故著名学者周绍良先生青年从学时便开始辑录、历经多年整理而成。这部凝聚着作者大量心血的资料集https://max.book118.com/html/2015/0415/14968013.shtm
20.科学网—国外中国学家数据库OCLC向全球的图书馆、信息中心及其用户提供各种信息服务,为全球图书馆提供资源共享服务,是图书馆界成功合作的典范,目前有171个国家和地区的72000多个图书馆用户。 中国国家图书馆与OCLC经过多年的沟通和尝试,于2008年正式签署数据合作协议,并于2008年底完成了近230万条中文书目数据从CNMARC到MARC21的转换工作,将其上传https://wap.sciencenet.cn/home.php?mod=space&uid=113146&do=blog&id=356830
21.面向marc数据的转换与存储的研究与实现Marc:机读编目格式标准,是一种图书管理的通讯格式标准,主要用于图书馆与出版商之间目录信息交换。 Marc标准源于美国国会图书馆于1970年代开发的目录格式,是各国的机读编目格式标准的一个集大成,各个国家尊其源于美国国会Marc标准依然有自己的标准格式。 而目前比较流行的图书销售方式既是出版社将图书发给图书销售商,然后https://wap.cnki.net/lunwen-1013143228.html