《基于文档型非关系型数据库的档案数据存储规范》解读法规解读

《基于文档型非关系型数据库的档案数据存储规范》(以下简称《规范》)(DA/T82—2019)由国家档案局于2019年12月16日发布,2020年5月1日起正式实施。《规范》规定了使用文档型数据库存储档案数据的总体要求,提出了使用文档型数据库存储和管理档案数据的基本功能和实施方法,适用于各级各类档案馆、机关、团体、企事业单位对档案数据的存储。

编制背景

随着数字档案馆(室)建设的推进,馆藏传统载体档案数字化普遍开展。2018年,国务院发布了《国务院关于加快推进全国一体化在线政务服务平台建设的指导意见》,“互联网+政务服务”“一网通办”在全国深入推进,档案馆面临最直接的问题就是如何高效、快速、敏捷地对接各种业务系统,并且完整地收集、归档、保存各类业务数据。

目前,我国档案部门大都采用关系型数据库存储和管理档案数据。关系型数据库对数据的规范性要求高,能够很好地管理和存储结构化数据,但对数据结构复杂类型多样的非结构化数据的存储和管理存在诸多局限。据统计,档案数字资源中非结构化数据占据绝大部分,未来还将出现爆炸性增长。有效存储、管理、利用非结构化数据是档案工作者必须面对的课题。历时3年,国家档案局档案科学技术研究所于2016年完成了“基于非关系数据库的电子档案存储规范研究及系统实现”国家档案局科技项目,在该项研究成果的基础上,向全国档案工作标准化技术委员会提交了《规范》的立项申请,旨在解决大规模档案数据集合多重数据种类带来的挑战,优化档案数据存储,推动档案数据科学管理。《规范》被列入2017年档案行业标准制修订项目计划。

编制思路

《规范》主要以问题与需求为导向,充分考虑档案数据体量大且增长快、类型繁多且结构复杂的特点,切实从我国档案数据管理实际需要出发,详细阐述文档型非关系型数据库存储和管理档案数据的技术要求、基本功能和实施方法。注重适用性、规范性、开放性、互补性,着重先进性与可操作相结合,使其利于实施。

主要内容解读

《规范》分10章和2个资料性附录,涵盖了使用文档型数据库存储档案数据所涉及的各个工作环节,构成一个内在关联的整体,能够起到规范使用文档型数据库存储档案数据的作用。

1.术语与定义

《规范》规定的“内容数据”“非关系型数据库”“文档型数据库的拆分”以及“文档型数据库的合并”术语和定义属于国内外首次提出。

2.文档型数据库字段

3.文档型数据库存储

《规范》提出,文档型数据库的存储对象是内容数据和元数据(含目录数据)。内容数据是电子档案和传统载体档案数字化副本的固有信息。存储方式之一是将内容数据和元数据全部装入数据库,按照与元数据的匹配关联关系,内容数据存储在二进制字段中,不是挂接在数据库上;多种格式的内容数据可装入同一数据库,不同记录(行)的内容数据的格式可不同;同一条记录可存储一个或多个内容数据,同一条记录(行)中多个内容数据的格式可不同,这些是文档型数据库存储内容数据的显著特点,也是《规范》制定的重点之一。关系型数据库的优势在于能够很好地管理和存储结构化数据。鉴于关系型数据库和文档型数据库各自的特点和优势,档案部门可以将文档型数据库、关系型数据库共同作为档案数据存储和管理的工具。

4.文档型数据库的拆分与合并

数据库合并是数据库拆分的逆操作,是若干个子数据库合成一个数据完整的数据库。数据库合并的方法是以子数据库中的记录为单位进行合并,通过各子数据库中的记录号、记录容量或检索和统计分析从各子数据库中提取相应的记录,按顺序将记录导入一个数据库。数据库合并可以合成子数据库中的部分,记录数据库合并形成的数据库结构与子数据库结构可以不同。

5.数据库备份与还原

文档型数据库备份的内容应包括数据库数据、数据库结构和数据库定义文件,应按照数据库结构(字段)备份数据库数据。离线备份是文档型数据库备份的重要方法,是《规范》制定的第三个重点。离线备份的存储介质有磁盘、固态硬盘、光盘等,其存储容量有限。当数据库容量大于备份介质容量时,需要将数据库拆分成容量小于备份介质容量的若干个子数据库,每个子数据库结构与原数据库结构相同,且保证各子数据库中记录的关联数据完整,然后将各子数据库分别备份到备份介质上。采用这种拆分备份数据库的方法,可以直接在子数据库中完成该记录范围的数据检索和查询,不需要对同一记录的不同字段数据在各子数据库间进行数据检索,保持了各子数据库的数据完整性。同时,保留原有的访问控制策略,保证了原数据库的完整性。当数据库的容量小于备份介质的容量时,无需对文档型数据库做任何处理,直接对数据库整体进行复制备份即可。

针对数据库拆分备份的数据库还原,《规范》提出合并还原的方法:(1)在新建数据库系统合并全部子数据库数据,然后将合并形成的数据库数据还原到原数据库系统。(2)在原数据库系统中合并还原全部子数据库数据。

6.检索与统计分析

随着信息技术的发展和档案数据利用的需要,利用检索和统计分析从数据库中提取相应的记录进行数据库拆分和数据库合并,《规范》提出2个资料性附录:检索和统计分析。

(1)检索

检索的内容包括:中文自动分词与中文分词词典、索引、检索。为提高文档型数据库中档案数据的查准率和检索速度,实现对中文内容的统计分析,应对内容数据和元数据的中文信息进行中文自动分词,并根据不同的档案门类编写相应的中文分词词典。中文分词词典是词的集合,中文自动分词是一种基于规则和词典并能够自动进行分词的方法。规则教系统如何读数据,词典告诉系统所读数据是不是一个单词。在档案数据装入数据库时自动调用分词程序,在入库的同时扫描入库字串,将其切分成供查找和统计分析应用的中文单词。

随着《纸质档案数字复制件光学字符识别(OCR)工作规范》的发布实施以及电子档案管理日渐成熟,为档案数据全文检索奠定了基础。全文索引是档案数据快速检索的有效手段。内容数据装入数据库时抽取的文字信息存储在文本字段,对文本字段每个字、词、词茎进行全文索引。

(2)统计分析

档案数据的统计分析对象是内容数据和元数据的文字信息,能够按照字段类型进行统计分析。字符串字段统计分析是对整个字段内容和字段中的词汇(包括词、单字、数字等)分别进行统计分析,例如:对归档部门、题名、发文单位、责任者进行统计分析,获得归档部门、题名、发文单位、责任者的数量和分布。文本字段统计分析是对文本字段中的词汇进行统计分析,给出不同词汇出现的频度和记录数,例如:统计分析不同年份或不同时期国家档案局优秀科技成果材料中不同词汇出现的频度。

THE END
1.学习笔记:DB29基础superdebug通过查看相关的对象,可以更好地理解数据库的结构,了解数据库中现有的对象以及它们之间的关系。例如,如果想删除一个有相关视图的表,Show Related 特性会识别出在删除这个表之后哪些视图会失效。 10、过滤(Filter) 可以对任何 DB2 工具的内容面板中显示的信息进行过滤。还可以对查询返回的信息进行过滤(比如限制结果集中https://redhat.talkwithtrend.com/Article/188197
2.mongoDB和mysql对比分析及选择(详细版)数据库其它比如我们熟知的例子,学生-课程-老师关系,如果用引用模型来实现三者的关系,可能会比内嵌模型更清晰直观,同时会减少很多冗余数据。 当需要实现复杂的树形关系的时候,可以考虑引用模型。 四、应用场景分析 1、MongoDB的应用场景 1)表结构不明确且数据不断变大 MongoDB是非结构化文档数据库,扩展字段很容易且不https://www.jb51.net/database/287301v7z.htm
3.数据架构:大数据数据仓库以及DataVault非重复型非结构化信息与重复型非结构化记录有着根本性的不同。对于非重复型非结构化记录而言,它们无论在形式还是内容上都很少重复或者根本不重复。非重复型非结构化信息的例子有电子邮件、呼叫中心对话和市场调查等。当你查看一封电子邮件时,会有很大概率发现数据库中的下一封邮件与前一封邮件是极为不同的。对呼叫https://www.ituring.com.cn/book/tupubarticle/11854
4.非结构化的数据库51CTO博客已为您找到关于非结构化的数据库的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及非结构化的数据库问答内容。更多非结构化的数据库相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/feijiegouhuadeshujuku.html
5.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇到https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
6.蓝蓝高频面试之数据库系列第一期数据库基础20题结构化查询语言 (Structured Query Language) 简称 SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。 什么是MySQL? MySQL 是一个关系型数据库管理系统,MySQL 是最流行的关系型数据库管理系统之一,常见的关系型数据库还有 Oracle 、SQL Servhttps://m.nowcoder.com/discuss/353158849412669440
7.结构化数据和非结构化数据的例子可能是文本文件、电流新箱、图片、音频和视瓶文件、社交媒体文章等内容, 非结构化数据的例子包括客户对调查的反馈、社交媒体和产品审查。 与结构化数据相比,非结构化数据更能分析,因为它的组织不整齐。 但是,由于诸如自然语言处理和机器学习等新技术,我们现在可以从无结构的数据中提取有用的信息。 我们可以使用情绪https://wenku.baidu.com/view/cc774aa53a68011ca300a6c30c2259010202f38c.html
8.推荐:处理非结构化数据的7个实例(附链接)本文作者根据个人过往工作经验,整理出了处理非结构化数据的7个实例,希望能对读者处理相关实际问题有所启发。 本文是作为数据科学博客松的一部分发表的。 介绍 我敢肯定,从事数据工作的人,不管数据量大小与否,都遇到过如下问题:数据不好,数据不一致,数据不干净,诸如此类。帮工作中鲜与数据打交道的人科普一下,根据https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/112255708
9.什么是文本挖掘?IBM半结构化数据:顾名思义,这些数据由结构化和非结构化数据格式混合而成。 虽然这种数据经过了一定的组织,但其结构不足以满足关系数据库的要求。 半结构化数据的例子包括 XML、JSON 和 HTML 文件。 由于世界上约 80% 的数据都属于非结构化格式(链接位于 ibm.com 外部),因此对于组织而言,文本挖掘是一种非常有价值https://www.ibm.com/cn-zh/topics/text-mining
10.结构化半结构化和非结构化数据都有哪些数据可以根据其格式和可访问性被分类为结构化数据、半结构化数据和非结构化数据。下面是每种数据类型的定义和一些例子: 结构化数据 结构化数据是指遵循固定格式的数据,通常存储在关系数据库中。这种数据类型易于搜索和组织,因为它遵循一定的模式(如表格),每个数据项都有明确的字段。 https://www.jianshu.com/p/7018b1bef624
11.大数据测试——完整的软件测试初学者指南腾讯云开发者社区大数据中的数据格式可以分为三类。它们是: 结构化数据 半结构化数据 非结构化数据 结构化数据 这指的是高度组织的数据。 它可以轻松地存储在任何关系数据库中。 这也意味着可以使用简单的查询轻松地检索/搜索它。 结构化数据的例子 下图描述了一个应用程序的数据模型。在这里可以看到表和表中相关的列。在这个例子https://cloud.tencent.com/developer/article/1620817
12.大数据的多样性和混杂性数据分析师Variety能做老二的最大底气来自于占大数据体量八成以上的非结构化数据。天知道这“八成”是怎么算出来的,但既然美林从98年就开始在企业数据市场这么说,十几年过去应该有增无减。 Variety从本义来说是指数据种类的多样性,我把数据质量的多样性即混杂性(舍恩伯格《大数据时代》中对messy的翻译正好是“混杂”)也放入https://www.cda.cn/view/2523.html