3、元数据是一个由OCLC和NCSA(美国国家超级计算机应用中心于1995年3月联合发起,图书馆专家、计算机专家和网络专家等人员开发的,旨在研究一套描述网络信息资源的方法,以实现网络信息的辨识、查询和检索,其核心是如何用一个简单的标准化的元数据记录来描述种类繁多的电子信息,使各类网络用户都能够了解和使用这种内容描述方法,达到更有效地描述和检索网络资源。由于这次会议是在俄亥俄州哥伦布市的都柏林镇举行,所以会议成果“核心元数据集”被称为“都柏林核心元数据”。从19952001年,OCLC与有关机构联合举行了9次研讨会,各次会议均有不同的研究重点,由浅入深、由泛到专地对都柏林核心元数据集的理
6、性,可以简化著录项目,OCLC推荐7个元素作为基本描述的要求,这7个元素是:题名、出版者、形式、资源类型、资源标识符、日期和主题。2.3都柏林核心元数据集的修饰词在实际应用中,仅仅依靠这15个基本元素是不够的,必须加以修饰限定和进行若干子元素的规范描述。为了保证互操作性,在进行修饰限定子元素规范的时候,不能改变元素本身的定义,不能重新对基本元素做出解释,而只能根据自己团体和行业的需要对DC元素进行修饰限定和规范。都柏林核心元数据集的修饰词分类为以下两类:(1元素修饰词(ElementRefinement这些修饰词缩小了元素的含义范围,使其具有专指性。都柏林核心元数据集在以
7、下元素中设有元素修饰词:Title(题名:Alterative(交替题名Date(日期:Created(创建、Valid(有效、Avail2able(可获取、Issued(发行、Modified(修改Relation(关系:IsVersionOf(版本继承、HasVersionOf(版本关连、IsReplacedBy(被取代、Re2places(取代、IsRequiredBy(被需求、Requires(需求、IsPartOf(组成部分、HasPart(部分为、IsEef2erenced
11、数据组成元素。资源描述框架是W3C(万维网集团支持并推荐使用的格式,支持在元数据实际交换使用时能够互容的一般格式,以标准的XML语言表述,具有人与机器都可以进行处理的形式,其内容由特定的团体确定。资源描述框架与都柏林核心元数据集彼此受益于对方:都柏林核心元数据集为资源描述框架提供了语义支持:反过来资源描述框架的进展又促进了都柏林核心元数据集数据模型的发展,而都柏林核心元数据集模型的正规化将有利于解决当前都柏林核心元数据集的许多问题。OCLC的“联机合作资源编目”(CORC就是目前成功采用资源描述框架和都柏林核心元数据集进行描述的成功案例。资源描述框架模型通常通过一个简单的三元关系表示
12、:(1资源(Resource:任何可进行描述的对象都可称其为资源。(2属性形式(PropertyType:与描述资源有关的各方面特征。(3属性值(Value:可以是原子型的字符串,也可以是另一资源。3我国对都柏林核心元数据集的研究与应用1999年以来,都柏林核心元数据集在我国也引起了同行们的重视与应用研究。中国国家图书馆就以都柏林核心元数据集为元数据方案制作了大量的数字化资源,上海图书馆与清华大学也参与了OCLC基于都柏林为核心元数据集的CORC计划,清华大学建筑数字图书馆、北京大学图书馆的古籍拓片数据库、上海交通大学的音乐资源库、广东省中山图书馆牵头的数字式中文全文文
13、献通用格式、上海图书馆数字图书馆项目等,都柏林核心元数据集在我国也得以较为广泛地应用。3.1几个应用项目的介绍3.1.1上海图书馆数字图书馆元数据方案上海图书馆的数字图书馆项目实施中,元数据方案的选择是其中一个关键所在。所采用的元数据方案是以都柏林核心元数据集为核心,多种对应于不同资源类型的元数据方法并存,并以资源描述框架为基础的资源描述体系将它们封装在一起,如,对于古籍来讲,有它独立的古籍(RB元数据体例。对于全国报刊索引与上海图典,则是都柏林核心元数据。而对于年鉴等原有图书馆藏书数字化之后所产生的数字资源,则直接使用原来已有的CNMARC记录来进行描述。上海图书馆采用IBM的数字图书
14、馆开发平台作为系统的平台,由于应用系统本身对多种不同元数据格式的支持不足,尤其是对于MARC这样的复杂元数据格式支持能力不够,在将元数据装入IBMDL中之前,实际上是将各种元数据都转换为统一的都柏林核心元数据再行装入的。这样的转换也造成了很多问题,首先是由于多种元数据结构定义之间的非对称性,在转换中一定会丢失很多信息,或者是会造成岐义或者是语义概念上不恰当的伸缩;其次这样的转换也使得对用户提供的检索服务功能受到了限制。所以理想的状态自然是将所有的元数据都装入数字图书馆应用系统,将应实际需要而要进行的转移放在系统之外,这样就可以在满足用户统一检索界面与服务的情况下,提供用户更好的数据挖掘
15、的服务及更多样化的选择可能。3.1.2数字式中文全文文献通用格式“数字式中文全文文献通用格式”是文化部制定的文化行业标准。该标准采用都柏林核心元数据集1.1版本为基本框架,除全部采用都柏林核心元数据格式15,还增加了记录控制号(Record项目,共有16个数据项目,采用面向对象技术,可以对文本、图像、音频、视频、计算机程序以及网址资源进行编目和数字化处理,覆盖了几乎所有的文献类型,并规定了中文数字化文献的文本著录格式,使之符合数字化中文文献的规范著录要求,同时也符合国际数字图书馆标准化的发展趋势。可以说:“数字式中文全文文献通用格式”是中文化的DC元数据格式。这一格式在通用置标语言以及其他
17、元素以及拓片个别元素组成。拓片元数据标准的设计要以拓片基本著录单位为基础。不同拓片之间存在着各类复杂的关联,如包含关系、并列关系、附加关系等。这些关系影响着拓片著录对象的确定,进而涉及到元数据标准的设计。3.2中文元数据存在的问题从以上三个项目中,我们可以看出,DC元数据的应用还存在着以下问题。3.2.1中文元数据标准化的问题虽然都柏林核心元数据是国际上应用广泛且成熟的元数据体系,但是其中文标准化问题却很大。没有经过很好的母语规范与应用规范的定义,对于我们来说,应用起来就会产生这样那样的问题。以上介绍的几个项目尽管都用到了都柏林核心元数据,但具体应用时所选取得元素和标准还是不尽相同。举例来讲,
19、。引进和利用各种成熟、规范的编码体系中的元素,将这些基本构件有机地组合起来,形成适应具体应用需求与中文资源特点的应用规范,推动标准化、模块化的中文DC元数据应用方案的交流与推广。3.2.3以MARC为代表的传统元数据的发展与利用问题。MARC作为一种发展成熟且在图书馆界应用普遍的技术,我们不可能即刻将它抛弃。而是应该针对传统元数据与现代元数据的不同特点,取长补短,发挥各自特长,对各种信息资源形态与特点的资源进行有效的内容组织与信息挖掘。加强传统元数据与DC元数据格式之间的融合,提高中文DC元数据应用的互操作性。同时在新的信息技术与标准的应用环境下,对传统元数据进行革新与发展,使这些元数
22、版社,2000,9.2马张华.分类搜索引擎类目体系研究J.图书情报工作,2001,(2:3640.3马张华,李玲.论超文本技术在分类法编制中的应用J.大学图书馆学报,2001,(1:6062,66.4同2.5石春芳,石晓华.网络信息的分类组织J.图书馆论坛.2000,(6:7274.AStudyofRetrievalLanguageofChineseSearchEnginesWUFengyu,LIUJiayingAbstract:InviewofthefactthatChinesesearchenginesoftenyieldu
23、nsatisfactoryresults,thispaperexaminesanum2berofChinesesearchenginesfromtheperspectiveofretrievallanguages.Itsuggeststhataproperapplicationofprinciplesandmethodsofinformationretrievallanguagemaysignificant2lyimprovetheperformanceofthesese