元数据(Metadata)被定义为描述数据的数据,是对数据及信息资源的描述性信息。元数据是数字信息组织和处理的基本工具,为不同形式的数字化信息单元和资源集合提供规范的描述基准和方法,在识别资源、评价资源、追踪资源变化和管理资源方面发挥着日益重要的作用(李善青等,2019)。
在科学数据元数据领域,国内外都做了大量的工作,如美国国际图书馆电脑中心(OnlineComputerLibraryCenter,OCLC)和美国超级计算应用中心(NationalCenterforSupercomputerApplications,NCSA)联合制定的都柏林核心(DublinCore)元数据(DC元数据)、美国联邦地理数据委员会(FederalGeographicDataCommittee,FGDC)制定的地理学科元数据标准、国际标准化组织地理信息技术委员会(ISO/TC211)制定的ISO/TC211元数据标准等。我国也制定了一系列的元数据标准,如科技平台资源核心元数据(GBT30523-2014)、科学数据共享元数据(SDS/T2112-2004)、中国科学院科学数据库核心元数据标准、生态科学数据元数据(GB/T20533-2006)、土壤科学数据库元数据标准(GB∕T32739-2016)等。
2引用标准
中国科学院科学数据库核心元数据标准(2.0版)
3规则和术语
3.1网址
3.2数据集标识
数据集标识(UniformResourceIdentifier,URI)对于数据集资源描述和发现有重要作用,和其他资源特别是网络资源的标识具有同样的重要性,用来实现数据资源在网络环境下的唯一识别。
3.3日期
有关日期(Date)的规定,采用ISO8601关于日期的表示格式,即YYYY-MM-DD的形式。其中,YYYY是公历的年份,MM是一年中的月份,DD是一个月中的天。例如:2020-02-10表示2020年2月10日。
3.6数据集
数据集(Dataset)指有独立主题、规范格式,能够通过计算机采集、整合、存储和展现的数据集合。一个数据集可能是一个较小的数据集合,在物理上或逻辑上位于一个较大的数据集之内;反之,一个数据集也可能由若干数据集组成,是这些子数据集的父数据集。理论上,一个数据集可以小到单个数据文件或关系数据库中的单个数据表。图像、音频、视频、软件等也可以被视为数据集。在本规范中,数据集是元数据的描述对象。
3.7数据集类型
数据集类型(Datasettype)是根据数据集的结构或资源特征,对数据集所属类型的划分。
3.8数据类型
数据类型(Datatype)是对数据的有效值域及对该值域中的值所允许的操作的规定。例如,整型、实型、布尔型、日期类型、字符串类型等。对于复合元素,其数据类型用“复合类型”来标识。
3.9元数据
元数据(Metadata)是关于数据的数据,用来描述数据的内容、覆盖范围、质量、管理方式、数据的所有者和数据的提供方式等有关信息。
3.10元数据元素
元数据元素(Metadataelement)是元数据的基本单元。本规范中对每一个元素的定义都用一个包含九个属性的集合来描述,即中文名称、英文名称、标识、定义、类型、值域、可选性、最大出现次数和注释。
3.11模块
模块(Module)是按照层次结构组织元数据元素,不同的元数据元素和复合元素组成一个模块。该层次结构的最高起始点为复合元素“数据集元数据”,该复合元素由其它表示数据集不同方面特征的复合元素构成,在科学数据库核心元数据标准(2.0版)中有8个模块:数据集描述信息模块、数据集质量信息模块、数据集分发信息模块、元数据参考信息模块、服务参考信息模块、结构描述信息模块、范围信息模块和联系信息模块(详见本章第5节)。
3.12复合元素
3.13实体
实体(Entity)是按一定结构组织起来的数据的集合,其结构可以用一组属性来刻画。例如,关系数据库中的数据表就是一个典型的实体代表。
4元数据表达方式
本规范采用“摘要表示”来表示和定义元数据。摘要表示使用中文名称、英文名称、标识、定义、类型、值域、可选性、最大出现次数和注释等来描述元数据。
4.1中文名称
元数据元素的中文名称。
4.2英文名称
元数据元素的英文名称,一般用英文全称。
4.3标识
用字符串表示的元数据元素标识。
4.4定义
对元数据元素含义的解释。
4.5类型
元数据元素所属数据类型,如复合类型(即该元素为复合元素)、整数类型、实数类型、文本类型等。
4.6值域
元数据元素值的允许范围。
4.7可选性
元数据元素是必选元素还是可选元素。
4.8最大出现次数
元数据元素所允许的著录次数,如1(不可重复著录)、N(可重复著录无限次)等。
4.9注释
对元数据元素的补充说明、著录格式的建议及其它。
5植物科学数据集核心元数据内容
中国科学院科学数据库核心元数据标准(2.0版)的数据集元数据包括数据集描述信息、数据质量信息、数据集分发信息、元数据参考信息、服务参考信息以及结构描述信息等六个主要复合元素模块,其中数据集描述信息、元数据参考信息两个模块为必选模块。此外,还包括范围信息和联系信息两个辅助模块,此两个模块不可单独使用,供其它模块的特定元素在需要的时候进行引用。
植物科学数据集核心元数据采用了中国科学院科学数据库核心元数据标准(2.0版)的框架设计,选择了其中的“数据集描述信息”和“元数据参考信息”两个必选模块以及“范围信息”和“联系信息”两个辅助模块。考虑到植物科学数据的具体情况,对模块中一些可选元素进行了调整。最终确定的核心元数据的名称及其定义见表1。
表1植物科学数据集核心元数据概况
序号
模块
元数据元素/复合元素
定义
1
数据集描述信息
数据集名称
数据集的中、英文名称
2
数据集URI
数据集的唯一标识符
3
关键词
描述数据集内容的词语或短语
4
描述
对数据集内容的文本描述
5
目的
对开发该数据集目的的说明
6
类型
对数据集所属类型的说明
7
数据量
数据集所包含数据量的说明
8
对其他资源的参照,当前数据资源部分或全部源自这些参照资源
9
数据集提供者
提供数据集的机构,即存储数据集的单位
10
数据集贡献者
对数据集创建做出贡献的个人或组织的名称
11
更新频率
12
13
语种
数据集内容所采用的语种
14
URL
数据集提供网络服务的链接地址
15
数据集范围
16
数据集联系信息
数据集提供者的地址等信息
17
元数据参考信息
元数据标准
著录此元数据所采用的元数据标准的名称和版本信息
18
19
元数据联系信息
数据集元数据创建者和维护者的联系信息
20
范围信息
学科范围
数据资源的内容所涉及的学科分类范围
21
22
空间范围
数据资源的内容所涵盖的空间范围
23
联系信息
联系人名称
与数据集有关的联系人员或组织的名称
24
联系地址
联系人或组织的通信地址信息
25
其他联系方式
6核心元数据字段说明
6.1数据集描述信息
标识:datasetDescriptionInfo
中文名称:数据集描述信息
英文名称:DatasetDescriptionInformation
定义:关于数据集的基本描述信息
类型:复合类型
可选性:必选
最大出现次数:1
6.1.1数据集名称
标识:datasetTitle
中文名称:数据集名称
英文名称:DatasetTitle
定义:数据集的中文名称及其他名称
注释:该复合元素包含中文名称和英文名称两个子元素
6.1.1.1数据集中文名称
标识:title
中文名称:数据集中文名称
英文名称:ChineseTitle
定义:数据集的中文名称
类型:文本
值域:自由文本
注释:数据集中文名称指的是数据集正式公开的中文全称
6.1.1.2数据集英文名称
标识:engTitle
中文名称:数据集英文名称
英文名称:EnglishTitle
定义:数据集的英文名称
可选性:可选
最大出现次数:N
注释:与中文名称相对应的英文名称
6.1.2数据集URI
标识:datasetURI
中文名称:数据集URI
英文名称:DatasetURI
定义:数据集创建单位赋予数据集的唯一标识符
值域:唯一标识符命名字符集和有效分割符
注释:可以采用数字对象唯一标识符(DigitalObjectUniqueIdentifier,DOI)或者科技资源标识符(ChineseScienceandTechnologyResourceIdentification,CSTR)等标识系统,结合本规范中的数据编码规则,对数据集进行唯一标识
6.1.3关键词
标识:keywords
中文名称:关键词
英文名称:Keywords
定义:由用户自由选取的描述数据集内容的词语
注释:由用户自由选取的能够准确描述数据集内容的词语
6.1.4描述
标识:description
中文名称:描述
英文名称:Description
定义:对数据集内容的文本描述
注释:描述可以包括但不限于以下部分:摘要、目录或者其它有关数据集内容的自由文本描述
6.1.5目的
标识:purpose
中文名称:目的
英文名称:Purpose
定义:对开发该数据集目的的说明
注释:是对开发数据集目的的简要叙述,以使数据集检索者了解数据集的背景知识
6.1.6类型
标识:type
中文名称:类型
英文名称:Type
定义:对数据集所属类型的说明
值域:参考中国科学院科学数据库核心元数据标准(2.0版)的代码表1,也可以参照本书第二章2.4节执行
注释:对数据集的分类。在科学数据库中,数据集主要指关系型数据库和文件系统,此外,也可以将图像、音频、视频、软件等视为数据集。
6.1.7数据量
标识:size
中文名称:数据量
英文名称:Size
定义:数据集所包含数据量的说明
注释:数据量包括记录数和存储量(物理存储空间)两个子元素
6.1.7.1记录数
标识:recordNumber
中文名称:记录数
英文名称:NumberofRecords
定义:关系型数据库类型的数据集所包含的记录数
类型:整型
值域:非负整数
6.1.7.2存储量
标识:memorySize
中文名称:存储量
英文名称:MemorySize
定义:以数据集所占的物理存储空间表示的数据量
注释:著录方式为表示存储量的实数+存储量单位,例如5.98KB。用户可以根据需要选择KB、MB、GB等作为单位
标识:source
英文名称:Source
定义:对其他资源的参照,当前数据资源部分或全部源自这些参照资源
6.1.9数据集提供机构
标识:provider
中文名称:数据集提供机构
英文名称:Provider
定义:提供数据集的机构
6.1.10数据集贡献者
标识:contributor
中文名称:数据集贡献者
英文名称:Contributor
定义:对数据集创建做出贡献的个人或组织的名称
注释:数据集的提供者并不一定是数据集创建者。数据集主要创建者以及其他在创建数据集的过程中发挥了重要作用的个人或组织,都属于数据集贡献者
6.1.11更新频率
标识:updateFrequency
中文名称:更新频率
英文名称:UpdateFrequency
值域:参考中国科学院科学数据库核心元数据标准(2.0版)的代码表3
注释:数据更新频率可以作为评价数据的新旧和数据质量的一项指标
标识:datasetDate
英文名称:DatasetDate
标识:creationDate
英文名称:DateofCreation
定义:数据集内容的创建日期
类型:日期类型
值域:自由日期
标识:lastModified
英文名称:DateofLastModification
定义:数据集内容最近一次修改的日期
6.1.13语种
标识:language
中文名称:语种
英文名称:Language
定义:数据集内容所采用的语种
值域:参考中国科学院科学数据库核心元数据标准(2.0版)的代码表4
注释:科学数据库中所采用的主要语种为汉语,中国科学院科学数据库核心元数据标准(2.0版)的代码表4所提供的其它语种供特殊数据集选择
6.1.14URL
标识:URL
中文名称:统一资源定位系统
英文名称:UniformResourceLocator
定义:数据集提供网络服务的链接地址
注释:连接数据集的有效链接。有关URL的格式,请参阅“规则和术语”一节
6.1.15数据集范围
标识:coverage
中文名称:数据集范围
英文名称:Coverage
注释:参见3.3“范围信息”部分
6.1.16数据集联系信息
标识:dataContact
中文名称:数据集联系信息
英文名称:DatasetContactInformation
定义:数据集提供者的联系信息
注释:参见3.4“联系信息”部分
6.2元数据参考信息
标识:metadataReferenceInfo
中文名称:元数据参考信息
英文名称:MetadataReferenceInformation
定义:有关数据集元数据的信息
6.2.1元数据标准
标识:metadataStandard
中文名称:元数据标准
英文名称:MetadataStandard
定义:著录此元数据所采用的元数据标准的名称和版本信息
注释:建议使用元数据标准的正式标准全称和详尽版本号码
标识:metadataDateTime
英文名称:MetadataDateTime
标识:creationDateTime
英文名称:CreationDateTime
定义:数据集元数据的创建日期
类型:日期
注释:有关日期格式的规定,请参阅“规则和术语”一节
标识:lastModification
英文名称:LastModification
定义:元数据的最近一次修改的日期
6.2.3元数据联系信息
标识:metadataContact
中文名称:元数据联系信息
英文名称:MetadataContactInformation
定义:数据集元数据创建和维护者的联系信息
注释:参见本章3.4“联系信息”部分
6.3范围信息
中文名称:范围信息
英文名称:CoverageInformation
6.3.1学科范围
标识:taxonomy
中文名称:学科范围
英文名称:Taxonomy
定义:数据资源的内容所涉及的学科分类范围
注释:学科范围包含“学科类别”和“学科分类表”两个子元素,请参考中国科学院科学数据库核心元数据标准(2.0版)的代码表6。代码表6依据中华人民共和国国家标准学科分类与代码表GB/T13745-92,并根据科学数据库的特点和资源类型的范围,对部分学科进行了展开。可以根据需要在GB/T13745-92中代码表中选定所归属分类,如果认为存在其他更合理的分类体系,可以依据该分类表著录所属学科,然后在“学科分类表”中明确所参照的分类表
6.3.1.1学科类别
标识:taxonomicCategory
中文名称:学科类别
英文名称:TaxonomicCategory
定义:数据资源的内容所属的学科
注释:可参阅中国科学院科学数据库核心元数据标准(2.0版)的代码表6,也可依据其他学科分类标准进行著录。具体所属学科可根据所参考的分类表确定最恰当的描述数据集学科特性的学科类别,但一定要有明确的分类依据,即在学科分类表中要明确所参考的分类标准
6.3.1.2学科分类表
标识:refTaxonomy
中文名称:学科分类表
英文名称:ReferenceTaxonomy
定义:数据资源内容所属的学科分类体系
注释:采用本规范所采用的GB/T13745-92分类表之外的其他分类依据时,需要在此特别注明
标识:temporal
英文名称:TemporalRange
标识:singleDateTime
英文名称:SingleDateandTime
标识:rangeDateTime
英文名称:RangeDateandTime
标识:beginDatetime
英文名称:BeginDateandTime
标识:endDatetime
英文名称:EndDateandTime
6.3.3空间范围
标识:spatial
中文名称:空间范围
英文名称:SpatialRange
定义:数据资源的内容所涵盖的空间范围
注释:分为地理范围和垂向范围二个子元素,其中地理范围用来描述平面地理范围,垂向范围描述和地理范围一起实现空间范围的描述
6.3.3.1地理范围
标识:geographicRange
中文名称:地理范围
英文名称:GeographicRange
定义:可以使用地理名称表示的空间范围
注释:分为地理范围名称、地理边界矩形和地理范围描述三个子元素
6.3.3.1.1地理范围名称
标识:geographicName
中文名称:地理范围名称
英文名称:GeographicName
定义:采用地理名称标识的平面空间范围
注释:分为行政区域名称和地理区域名称两个子元素
6.3.3.1.1.1行政区域名称
标识:administrativeName
中文名称:行政区域名称
英文名称:AdministrativeName
定义:按行政权力覆盖面划分的区域的名称
注释:如省、市、县等
6.3.3.1.1.2地理区域名称
标识:geographicRegion
中文名称:地理区域名称
英文名称:GeographicRegion
定义:按地理环境表面的地理特征划分的区域的名称
注释:如青藏高原、长江三角洲等
6.3.3.1.2地理边界矩形
标识:geoBndBox
中文名称:地理边界矩形
英文名称:GeographicBoundingBox
定义:使用经纬度表示的矩形地理边界
注释:主要指平面矩形范围(含点范围),可以根据实际情况确定。分为东部边界经度、西部边界经度、南部边界纬度、北部边界纬度四个子元素
6.3.3.1.2.1东部边界经度
标识:eastLongitude
中文名称:东部边界经度
英文名称:EastBoundingLongitude
定义:用经度表示的数据集空间范围的最东坐标
类型:实数
值域:180.0~180.0
注释:采用十进制表示经度,如108.245632。东半球经度用0.0~180.0来表示;西半球经度用180.0~0.0来表示
6.3.3.1.2.2西部边界经度
标识:westLongitude
中文名称:西部边界经度
英文名称:WestBoundingLongitude
定义:用经度表示的数据集空间范围的最西坐标
注释:同3.3.3.1.2.1
6.3.3.1.2.3南部边界纬度
标识:southLatitude
中文名称:南部边界纬度
英文名称:SouthBoundingLatitude
定义:用纬度表示的数据集空间范围的最南坐标
值域:90.0~90.0
注释:采用十进制表示纬度,如37.879651。北半球纬度用0.0~90.0来表示;南半球纬度用90.0~0.0来表示
6.3.3.1.2.4北部边界纬度
标识:northLatitude
中文名称:北部边界纬度
英文名称:NorthBoundingLatitude
定义:用纬度表示的数据集空间范围的最北坐标
注释:同6.3.3.3.1.2.3
6.3.3.1.3地理范围描述
标识:geographicDescription
中文名称:地理范围描述
英文名称:GeographicDescription
定义:无法按照上述方法描述的地理范围
注释:由于无法通过上面提供的“地理范围名称”、“地理边界矩形”所描述的地理范围,可以选择该元素,用文字描述的方式对数据集内容所覆盖的地理范围给予描述和说明
6.3.3.2垂向范围
标识:verticaltRange
中文名称:垂向范围
英文名称:VerticalRange
定义:数据集内容所覆盖的地理范围的垂直空间范围
类型:复合元素
注释:包括最低高度、最高高度、高度单位和垂向基准四个子元素
6.3.3.2.1最低高度
标识:minAltitude
中文名称:最低高度
英文名称:MinAltitude
定义:垂向范围的最低值
值域:实数域
6.3.3.2.2最高高度
标识:maxAltitude
中文名称:最高高度
英文名称:MaxAltitude
定义:垂向范围的最高值
6.3.3.2.3高度单位
标识:altitudeUnit
中文名称:高度单位
英文名称:AltitudeUnit
定义:垂向范围的度量单位
值域:参考中国科学院科学数据库核心元数据标准(2.0版)的代码表10
6.3.3.2.4垂向基准
标识:verticalDatum
中文名称:垂向基准
英文名称:VerticalDatum
定义:度量垂向范围最高、最低值的基准原点的信息
值域:参考中国科学院科学数据库核心元数据标准(2.0版)的代码表11
6.4联系信息
标识:contact
中文名称:联系信息
英文名称:ContactInformation
定义:与数据集有关的个人和组织的联系信息
注释:此元素供标准的其他部分引用,不能单独使用
6.4.1联系人名称
标识:contactName
中文名称:联系人名称
英文名称:ContactName
定义:与数据集有关的联系人员或组织的名称
注释:包括个人名称、职务名称和组织名称三个子元素,三者之间至少选择其一著录
6.4.1.1个人姓名
标识:individualName
中文名称:个人名称
英文名称:IndividualName
定义:联系人的姓名
注释:当联系人为个人时,在此元素位置填写联系人的姓名。三者必选其一
6.4.1.2职务名称
标识:positionName
中文名称:职务名称
英文名称:PositionName
定义:联系人所担任的职位
注释:当一个职位的承担者经常变动时,不适宜于采用具体的人物姓名,这时可能需要使用此元素
6.4.1.3组织名称
标识:organizationName
中文名称:组织名称
英文名称:OrganizationName
定义:联系组织的名称
注释:当联系人为某一单位或组织时,在此元素位置填写单位或组织的全称
6.4.2联系地址
标识:contactAddress
中文名称:联系地址
英文名称:ContactAddress
定义:联系人或组织的通信地址信息
注释:包括国家、省(市、自治区)、城市、地址和邮政编码五个子元素
6.4.2.1国家
标识:country
中文名称:国家
英文名称:Country
定义:联系人所在国家的名称
值域:参考中国科学院科学数据库核心元数据标准(2.0版)的代码表9
注释:此元素默认值为中国,如果联系人所在国家为中国以外的国家或地区,请参阅中国科学院科学数据库核心元数据标准(2.0版)的代码表9
6.4.2.2省(市、自治区)
标识:province
中文名称:省(市、自治区)
英文名称:Province
定义:联系人所在省(市、自治区)的名称
注释:如果是中国范围内的省(市、自治区),请参阅中国科学院科学数据库核心元数据标准(2.0版)的代码表8
6.4.2.3城市
标识:city
中文名称:城市
英文名称:City
定义:联系人所在城市的名称
注释:应填写城市全称
6.4.2.4地址
标识:address
中文名称:地址
英文名称:Address
定义:联系人的具体地址,从城市之后写起
注释:著录应尽可能详细,具体到街道、门牌号、信箱号或联系人所在单位、部门名称
6.4.2.5邮政编码
标识:postalCode
中文名称:邮政编码
英文名称:PostalCode
定义:联系人所在地址的邮政编码
6.4.3其他联系方式
标识:contactMethod
中文名称:其他联系方式
英文名称:ContactMethod
标识:phone
英文名称:Phone
6.4.3.2电子邮件
标识:Email
中文名称:电子邮件
英文名称:Email
定义:联系人电子邮件地址
注释:采用“用户名@域名”的格式,如user@abc.com。如果电子邮件地址有不止一个,电子邮件地址之间用分号(“;”)分隔