根据中文叙词表本体的需求和特点,遵循关联数据创建四原则[1][2],我们在参考了LCSH(美国国会图书馆标题表)的LinkedData服务[3]的基础上,实现了OTCSS的LinkedData服务模块,其功能主要有:
(1)可将中文叙词表本体发布为关联数据,使用URI(统一资源标识符)作为中文叙词表本体中所有对象(如叙词概念)的名称;
(2)可通过HTTPURI实现对中文叙词表本体所有叙词概念的普通检索,提供叙词款目的两种显示方式(通俗显示与专业显示);
(3)提供中文叙词表本体所有叙词概念款目中的关联对象,并可通过关联对象的链接查询其详情;
(4)提供叙词款目信息的九种共享格式(均采用RDF标准)的下载。
另外,随着研究的深入,我们还将为此服务增加新的功能,如叙词概念的其它一些属性的关联及可视化功能。
2.LinkedData简介
LinkedData(关联数据)概念由TimBerners-Lee于2006年首次提出,关联数据提出的目的是构建一个计算机能理解的具有结构化和富含语义的数据网络,而不仅仅是人能读懂的文档网络,以便于在此基础上构建更智能的应用。[2]
百度百科中定义:LinkedData(关联数据),简单来讲即为一系列利用Web在不同数据源之间创建语义关联的最佳实践方法。这里的不同数据源,可以来自一个组织内部的不同系统,也可以来自不同组织的不同系统,它们的内容,存储地点以及存储方式都可以完全不同,但它们很可能存在着关联,例如:Amazon上的图书可能与MySpace上的人之间存在关联,因为图书的作者有可能在Myspace上注册账号。总之,LinkedData最大的特点便是将不同的数据关联起来。[4]
3.LCSH的LinkedData服务介绍
美国国会图书馆标题表(LCSH)是目前世界上使用范围最广、规模和影响最大的一部综合性主题标题表。
LCSH含有26.5万条规范记录,传统上以MARC21格式进行发布。2006年开始,国会图书馆开始探索LCSH/MARC向SKOS的转换,目前已成功地在Web上发布了LCSH/SKOS版本,提供LinkedData(关联数据)服务、SKOS版本下载服务、SPARQL查询服务等。
(2)通过查询对象的URI,可以提供很多有意义的信息,如:该标目的款目信息(AlternateLabels、BroaderTerms、NarrowerTerms、RelatedTerms、Created、Modified、EditorialNotes、Sources等)以及URI、Type、InstanceOf、AlternateFormats等信息;
(3)在AlternateFormats中提供RDF/XML、N-Triples和JSON三种格式的下载或在线浏览;
(4)提供到其他词表中相似概念的关联(Similarconceptsfromothervocabularies);
(5)提供可视化展示和用户建议功能。
图1LCSHLinkedData服务示意图
4.OTCSSLinkedData服务的功能及具体使用方法
4.1OTCSS的LinkedData服务
OTCSS的LinkedData提供的服务主要有(如图2所示):
(1)为中文叙词表本体的所有叙词概念(即所要发布的资源)提供HTTPURI,以此作为叙词概念的唯一标识,通过此HTTPURI,人们可以定位到具体的叙词概念;
(2)提供地址栏和检索框两种方式输入叙词概念的URI查询关联数据,叙词款目的展示提供专业显示和通俗显示两种方式;
(4)在可选格式中提供RDF/XML、N-Triples和JSON格式(这三种格式又分为OntoThesaurus、CNKOS、SKOS三种不同描述格式,共九种格式)的下载或在线浏览;
(5)未来可提供到其他词表相似概念的关联(如到中图法分类号对应类目的映射链接);
4.2URI方案
4.3使用方法
(1)用户可以通过两种方式查询叙词概念:
(2)用户可以根据喜好选择通俗或者专业两种方式来显示叙词款目;
(4)页面中的URI显示的是叙词概念的URI,即使地址栏URL中和检索框中输入的是叙词概念的入口词;
(5)用户可以点击页面的九种格式超链接来下载叙词款目信息语义描述的不同文本,它们的具体含义和作用请见下一节。
图2OTCSSLinkedData服务示意图
4.4共享格式的下载
美国国会图书馆的LCSHLinkedData服务,其规范标目的可选格式提供RDF/XML、N-Triples、JSON三种共享格式,我们根据中文叙词表本体的特点和已有的研究成果,又将这三种格式分别细分为三种格式,即针对RDF/XML、N-Triples、JSON格式,将它们分别通过OntoThesaurus、CNKOS、SKOS三种格式来表示(这三种格式在指定条件下可以实现相互之间的转换)。
SKOS(SimpleKnowledgeOrganizationSystem,简单知识组织系统)为知识组织系统在Web上的共享和链接提供了一个通用的数据模型。许多知识组织系统,如叙词表(thesaurus)、分类法(classificationscheme)、主题标题表(subjectheadingsystem)等,有着相似的结构并用于相似的目的。SKOS攫取了大部分这种共性(similarity)并使其明确化,使数据和技术可以跨越不同的应用进行共享。SKOS模型提供了一种标准的、低成本的迁移路径,可将现有的知识组织系统移植到语义Web上。SKOS也为开发和共享新的知识组织系统提供了一种轻量级的、直观的语言。它可以独立使用,也可以和形式化的知识表示语言(如OWL)共同使用。SKOSReference20090818已成为W3C的正式推荐标准(W3CRecommendation)。
SKOS的定义有较大的弹性,是基于RDF的非严格意义上的形式化语言,以容纳结构较为松散的KOS。其数据模型与OWLFull兼容,有较好的表达性,但与OWLDL不兼容,不具备完备的推理性能。[5][6]
CNKOS是国家图书馆正在制定的一种面向国内传统知识组织系统(如主题词表、分类法等受控表)的语义描述规范格式,它在SKOS基础上扩展了CKOS词汇,以期实现我国传统知识组织系统的全描述。该规范已通过国图组织的馆内专家验收和向社会公开质询验收。本实验研究的其中一个目标就是验证其URI方案和语义描述方法的可行性,为将来的支持系统实现提供更多的经验。
OntoThesaurus(Chinese-Thesaurus-Ontology,中文叙词表本体)是国家社科基金项目“基于本体和知识集成实现中文叙词表的升级、共享和动态完善”(编号:05CTQ001)的研究成果,设计用来表示结构规范的中文叙词表(主题词表),以实现其本体化升级和在语义Web环境中的共享应用和网络化共建。采用OWLDL,可实现完备的推理。专门针对我国中文叙词表结构及其本体化扩展而设计,可视为OWL在中文叙词表领域的一个应用子集。适用于我国现有的一百三十余部中文叙词表(包括分类主题一体化词表)。简化后也可用于中文规范档、专业分类表(taxonomy)等KOS类型的语义描述。其命名域为
缩写为“ont”。在其基础上已实现了较为完备的中文叙词表本体共建共享系统(OntoThesaurusCo-constructingandSharingSystem,OTCSS),功能包括:从中文叙词表到OntoThesaurus的自动转换功能、一致性检测推理功能、网络术语服务功能(供人使用的OntoThesaurus-TS和供应用程序使用的WebServiceOntoThesaurus-API),以及全面深入的网络共建功能(用户界面+修订专家界面)。
RDF/XML是W3C推荐使用的RDF的XML序列(serialization),术语注册中心一般要求以RDF/XML文件格式提交所要注册的术语集合。如图3、4、5分别对应RDF/XML的三种格式,即RDF/XML(OntoThesaurus)、RDF/XML(CNKOS)、RDF/XML(SKOS)。这些格式都是机器可理解的。
图3RDF/XML(OntoThesaurus)
图4RDF/XML(CNKOS)
图5RDF/XML(SKOS)
N-Triples[8]是W3C开发的一种面向行的RDF序列句法。每个三元组必须写成一个独立行,它由主体说明符、谓词说明符以及客体说明符组成,以句号结束。主体、谓词和客体之间的分隔使用一个或多个空格或制表符实现。它展示三元组三个组成部分的完整URI,即“<主体URI><谓词URI><客体URI>.”,禁止相对URI的引用。如果客体是文字,则表示为用引号括起来的字符串。
如图6、7、8分别对应N-Triples的三种格式,即N-Triples(OntoThesaurus)、N-Triples(CNKOS)、N-Triples(SKOS)。
图6N-Triples(OntoThesaurus)
图7N-Triples(CNKOS)
图8N-Triples(SKOS)
如图9、10、11分别对应JSON的三种格式,即JSON(OntoThesaurus)、JSON(CNKOS)、JSON(SKOS)。
图9JSON(OntoThesaurus)
图10JSON(CNKOS)
图11JSON(SKOS)
4.5结论
我们以在《中国分类主题词表》一版基础上建立的CCT1_OTCSS为例,构建和发布了LinkedData服务。这是一项实验性的研究,URI暂定,相应的语义描述规范正在验收中,我们希望通过实践来验证URI方案和语义描述规范的可行性。
目前已有的实践证明,这套LinkedData服务解决方案是可行的,可以投入实用。其他中文叙词表均可依此方法完成相应的部署。