《基于文档型非关系型数据库的档案数据存储规范》解读

《基于文档型非关系型数据库的档案数据存储规范》(以下简称《规范》)(DA/T82—2019)由国家档案局于2019年12月16日发布,2020年5月1日起正式实施。《规范》规定了使用文档型数据库存储档案数据的总体要求,提出了使用文档型数据库存储和管理档案数据的基本功能和实施方法,适用于各级各类档案馆、机关、团体、企事业单位对档案数据的存储。

编制背景

随着数字档案馆(室)建设的推进,馆藏传统载体档案数字化普遍开展。2018年,国务院发布了《国务院关于加快推进全国一体化在线政务服务平台建设的指导意见》,“互联网+政务服务”“一网通办”在全国深入推进,档案馆面临最直接的问题就是如何高效、快速、敏捷地对接各种业务系统,并且完整地收集、归档、保存各类业务数据。

目前,我国档案部门大都采用关系型数据库存储和管理档案数据。关系型数据库对数据的规范性要求高,能够很好地管理和存储结构化数据,但对数据结构复杂类型多样的非结构化数据的存储和管理存在诸多局限。据统计,档案数字资源中非结构化数据占据绝大部分,未来还将出现爆炸性增长。有效存储、管理、利用非结构化数据是档案工作者必须面对的课题。历时3年,国家档案局档案科学技术研究所于2016年完成了“基于非关系数据库的电子档案存储规范研究及系统实现”国家档案局科技项目,在该项研究成果的基础上,向全国档案工作标准化技术委员会提交了《规范》的立项申请,旨在解决大规模档案数据集合多重数据种类带来的挑战,优化档案数据存储,推动档案数据科学管理。《规范》被列入2017年档案行业标准制修订项目计划。

编制思路

《规范》主要以问题与需求为导向,充分考虑档案数据体量大且增长快、类型繁多且结构复杂的特点,切实从我国档案数据管理实际需要出发,详细阐述文档型非关系型数据库存储和管理档案数据的技术要求、基本功能和实施方法。注重适用性、规范性、开放性、互补性,着重先进性与可操作相结合,使其利于实施。

主要内容解读

《规范》分10章和2个资料性附录,涵盖了使用文档型数据库存储档案数据所涉及的各个工作环节,构成一个内在关联的整体,能够起到规范使用文档型数据库存储档案数据的作用。

1、术语与定义

《规范》规定的“内容数据”“非关系型数据库”“文档型数据库的拆分”以及“文档型数据库的合并”术语和定义属于国内外首次提出。

2、文档型数据库字段

3、文档型数据库存储

《规范》提出,文档型数据库的存储对象是内容数据和元数据(含目录数据)。内容数据是电子档案和传统载体档案数字化副本的固有信息。存储方式之一是将内容数据和元数据全部装入数据库,按照与元数据的匹配关联关系,内容数据存储在二进制字段中,不是挂接在数据库上;多种格式的内容数据可装入同一数据库,不同记录(行)的内容数据的格式可不同;同一条记录可存储一个或多个内容数据,同一条记录(行)中多个内容数据的格式可不同,这些是文档型数据库存储内容数据的显著特点,也是《规范》制定的重点之一。关系型数据库的优势在于能够很好地管理和存储结构化数据。鉴于关系型数据库和文档型数据库各自的特点和优势,档案部门可以将文档型数据库、关系型数据库共同作为档案数据存储和管理的工具。

4、文档型数据库的拆分与合并

数据库合并是数据库拆分的逆操作,是若干个子数据库合成一个数据完整的数据库。数据库合并的方法是以子数据库中的记录为单位进行合并,通过各子数据库中的记录号、记录容量或检索和统计分析从各子数据库中提取相应的记录,按顺序将记录导入一个数据库。数据库合并可以合成子数据库中的部分,记录数据库合并形成的数据库结构与子数据库结构可以不同。

5、数据库备份与还原

文档型数据库备份的内容应包括数据库数据、数据库结构和数据库定义文件,应按照数据库结构(字段)备份数据库数据。离线备份是文档型数据库备份的重要方法,是《规范》制定的第三个重点。离线备份的存储介质有磁盘、固态硬盘、光盘等,其存储容量有限。当数据库容量大于备份介质容量时,需要将数据库拆分成容量小于备份介质容量的若干个子数据库,每个子数据库结构与原数据库结构相同,且保证各子数据库中记录的关联数据完整,然后将各子数据库分别备份到备份介质上。采用这种拆分备份数据库的方法,可以直接在子数据库中完成该记录范围的数据检索和查询,不需要对同一记录的不同字段数据在各子数据库间进行数据检索,保持了各子数据库的数据完整性。同时,保留原有的访问控制策略,保证了原数据库的完整性。当数据库的容量小于备份介质的容量时,无需对文档型数据库做任何处理,直接对数据库整体进行复制备份即可。

针对数据库拆分备份的数据库还原,《规范》提出合并还原的方法:(1)在新建数据库系统合并全部子数据库数据,然后将合并形成的数据库数据还原到原数据库系统。(2)在原数据库系统中合并还原全部子数据库数据。

6、检索与统计分析

随着信息技术的发展和档案数据利用的需要,利用检索和统计分析从数据库中提取相应的记录进行数据库拆分和数据库合并,《规范》提出2个资料性附录:检索和统计分析。

(1)检索

检索的内容包括:中文自动分词与中文分词词典、索引、检索。为提高文档型数据库中档案数据的查准率和检索速度,实现对中文内容的统计分析,应对内容数据和元数据的中文信息进行中文自动分词,并根据不同的档案门类编写相应的中文分词词典。中文分词词典是词的集合,中文自动分词是一种基于规则和词典并能够自动进行分词的方法。规则教系统如何读数据,词典告诉系统所读数据是不是一个单词。在档案数据装入数据库时自动调用分词程序,在入库的同时扫描入库字串,将其切分成供查找和统计分析应用的中文单词。

随着《纸质档案数字复制件光学字符识别(OCR)工作规范》的发布实施以及电子档案管理日渐成熟,为档案数据全文检索奠定了基础。全文索引是档案数据快速检索的有效手段。内容数据装入数据库时抽取的文字信息存储在文本字段,对文本字段每个字、词、词茎进行全文索引。

(2)统计分析

档案数据的统计分析对象是内容数据和元数据的文字信息,能够按照字段类型进行统计分析。字符串字段统计分析是对整个字段内容和字段中的词汇(包括词、单字、数字等)分别进行统计分析,例如:对归档部门、题名、发文单位、责任者进行统计分析,获得归档部门、题名、发文单位、责任者的数量和分布。文本字段统计分析是对文本字段中的词汇进行统计分析,给出不同词汇出现的频度和记录数,例如:统计分析不同年份或不同时期国家档案局优秀科技成果材料中不同词汇出现的频度。

全行业智慧档案管理服务提供商

联系方式

感谢您的支持,请准确填写以下资料,客服人员尽快为您提供服务。也可直接联系在线客服,谢谢。

指向本网站的链接

如希望作指向到本网站的链接,请联络我们;在获得光典信息发展有限公司的书面许可后,方可链接本网站。光典信息发展有限公司认为不再合适链接时,有权随时取消对链接的许可。

其他网站的链接

光典信息发展有限公司仅为方便您访问而提供他方网站的链接,并非是对链接网站的使用及其登载商品/服务等进行推举,并不意味着光典信息发展有限公司与所链接网站的公司、个人之间有着联合、协作或者合作等特殊关系,也并不表示光典信息发展有限公司认可或承担其他网站的内容或使用上的责任。

光典信息发展有限公司不保证本网站上任何内容的准确性、及时性、完整性和可靠性以及使用这些内容可能得出的任何结果。另外,光典信息发展有限公司有权在不事先对外通知的情况下,根据自己的判断对本网站内容进行追加、变更、改正、删除、中断/中止登载等。无论任何情况,因本网站内容或对其进行的追加、变更、改正、删除、登载的中断/中止等给用户带来的任何损失,光典信息发展有限公司均不承担任何责任。

光典信息发展有限公司对本网站和其内容的不能使用和使用错误不承担任何责任。

任何情况下,光典信息发展有限公司对于进入或使用本网站引起的任何依赖本网站内容而做出的决定或采取的行动不承担任何责任,对进入或使用本网站而产生的任何损失,包括但不限于业务中断、数据丢失或利润损失均不承担任何责任。

光典信息发展有限公司对于在进入、浏览和使用本网站或从本网站下载任何内容而导致病毒或其他程序对您的电脑系统以及其他任何软件、硬件、IT系统或其他财产的损害或损失不承担任何责任。

当政府司法机关依照法定程序要求本网站披露用户资料时,我们将根据执法单位之要求或为公共安全之目的提供用户资料。在此情况下之任何披露,光典信息发展有限公司均得免责。

任何由于黑客攻击、计算机病毒侵入或发作、因政府管制而造成的暂时性关闭、与本网站链接的其它网站等非光典信息发展有限公司原因造成的用户资料泄露、丢失、被盗用或被窜改等情况或导致的任何法律争议和后果,光典信息发展有限公司均得免责。

若因线路及非光典信息发展有限公司控制范围外的软、硬件故障或其它不可抗力而导致本网站暂停服务,于暂停服务期间造成的一切不便与损失,光典信息发展有限公司不负任何责任。

法律适用和管辖

主动提交的数据

被动提供的数据

数据共享

数据安全

隐私政策的变更

联系我们

如果您对本隐私政策有任何疑问、意见或建议,请通过以下方式与我们联系:

地址:上海市普陀区中江路879弄11号楼

邮编:200333

一般情况下,我们将在三十天内回复。

本隐私政策的订立、履行和解释均适用中国法律。如果您对我们的回复不满意,特别是当我们的个人信息处理行为损害了您的合法权益,您可以申请仲裁的方式寻求解决方案。当您使用我们的服务,即意味着您已经同意本隐私政策所示之法律管辖及争议解决方式的有关约定。

THE END
1.了解新式数据仓库的文件格式和结构请务必了解各种文件类型,了解哪种类型用于原始存储,哪种类型用于优化的版本,以便进行分析查询。 其他设计注意事项包括用于优化查询和数据加载活动的层次结构。 本单元介绍了文件类型及其最佳用例,以及如何在数据湖中最好地组织它们。 支持的用于成批引入原始数据的文件https://docs.microsoft.com/zh-cn/training/modules/design-modern-data-warehouse-using-azure-synapse-analytics/6a-understand-file-formats-structure-modern-data-warehouse/
2.数据架构包含数据流向吗mob6454cc7aec82的技术博客一,HBASE 数据库 1,非关系型数据库 2,hadoop databases 简称 hbase ,是一个高可靠性,高性能,面向列(按照列,在添加数据时候,进行创建表结构),可伸缩,实时读写的分布式数据库 3,主要是用来存储非结构化和半结构化的松散模型 二,数据模型 Row Key: https://blog.51cto.com/u_16099345/12887436
3.昆明城市学院《数据库原理及应用》2021以下关于数据库存储结构选择的描述,哪一项是不准确的?()A.可以将图像数据以二进制大对象(BLOB)的形式直接存储在数据库表中B.将图像数据存储在文件系统中,并在数据库中保存文件路径是一种常见的方式C.对于频繁访问的小图像数据,直接存储在数据库中可能比存储在文件系统中更高效D.无论图像数据的大小和访问频率如何https://www.renrendoc.com/paper/369555940.html
4.数据存储形式与载体有哪些数据存储的选择考量 选择合适的数据存储形式与载体需要考虑数据类型、数据量、访问频率、安全性和成本等因素。例如,结构化数据通常使用数据库系统进行管理,而非结构化数据则可能更适合使用对象存储。此外,数据的安全措施包括加密、访问控制和备份等。 数据存储形式与载体的选择对于确保数据的安全、高效和成本效益至关重要。http://www.saifanbox.com/e/wap/show.php?classid=12&id=92954
5.什么是非结构化数据和结构化数据结构化存储和非结构化存储没有预定义的格式:非结构化数据的存储形式非常灵活,没有固定的行和列。 多样性:可以包括文本文件、PDF 文档、图片、视频、社交媒体数据等。 复杂的处理方式:处理非结构化数据需要使用更复杂的技术,如自然语言处理(NLP)或图像识别技术。 无法直接使用传统数据库存储:非结构化数据通常存储在文件系统或分布式存储系统中https://blog.csdn.net/m0_55213370/article/details/141938577
6.非结构化数据有哪些而非结构化数据则是指那些不适合存储在传统数据库中的数据,它们通常以文本、图像、音频、视频等形式存在。https://www.gokuai.com/press/a573
7.非结构化数据包括哪些内容在信息技术快速发展的今天,数据已经成为我们生活和工作中不可或缺的一部分。数据大致可以分为结构化数据和非结构化数据两大类。结构化数据主要指的是具有固定格式和结构的数据,如数据库中的表格数据。而非结构化数据,由于其形式多样、结构不固定,一直是数据处理和分析的难点和热点。 https://www.zhuflow.cn/news/information/1358.html
8.手把手教程MinIO对象存储高效入门MinIO对象存储对象存储由于块存储和文件存储的存储特点,并不适合公有云存储,一般只适合在局域网内部使用,另外随着互联网需求的发展,数据量爆炸式的增长,不断吞食着存储资源;数据类型也逐渐多元化,各类非结构化的数据占比显著增加,如何应对新的存储需求?对象存储应运而生。 存储协议 https://juejin.cn/post/7269396835659710523
9.存储层数据压缩与去重技术:提升存储效率与成本效益的关键存储层数据压缩技术是指在数据存储过程中,通过特定的算法和策略,减少数据占用的存储空间,从而提高存储效率的技术。数据压缩技术通常分为无损压缩和有损压缩两大类。 无损压缩:无损压缩是指在压缩过程中,不丢失原始数据的任何信息,能够完全恢复原始数据的压缩方法。常见的无损压缩算法包括Huffman编码、LZ77/LZ78算法、算术https://www.ctyun.cn/developer/article/623414089322565
10.国内综合档案馆电子档案存储情况分析根据调研,档案部门所使用的存储格式近20种,使用比例较高的存储格式有:TXT、DOC、XML、PDF、TIFF、JPEG、DBF、XLS、WAV、MP3、AVI、MP4等文件格式,这些不方便用数据库二维逻辑表来表现的数据都是非结构化的数据,大量的非结构化数据给电子档案存储的性能、安全和稳定性等提出了很高的要求。此外,非结构化数据的存储多https://www.yueyang.gov.cn/daj/6630/30097/content_1749816.html
11.什么是非结构化数据?首先,非结构化数据缺乏明确的模式和格式,需要通过特定的技术和工具进行解析和处理。其次,非结构化数据的数量庞大且多样性,常常以海量的形式存在,需要适当的存储和处理方法来应对。此外,非结构化数据的来源也很丰富,包括文本、图像、音频、视频等,进一步增加了数据的复杂性。https://www.filez.com/news/detail/974a6ef096d0b214bf7e13a2218d4e30.html
12.数据湖存储非结构化数据星环科技为您提供数据湖存储非结构化数据相关内容,帮助您快速了解数据湖存储非结构化数据。如果想了解更多数据湖存储非结构化数据资讯,请访问星环科技官网(www.transwarp.cn)查看更多丰富数据湖存储非结构化数据内容。https://www.transwarp.cn/keyword-detail/52484-1
13.采购数据分析报告模板(10篇)进入会计信息的除了原始凭证录入结构化数据以外,还忽略了与企业经济活动密切相关、富含经济价值的非结构化数据。面对数据存储分散、数据总量大、增长速度快、蕴含信息多的非结构化数据,缺乏有效的智能化处理,因而没有纳入会计信息系统,导致绝大部分有丰富价值的非结构化数据不能够体现于会计信息控制流程中,不能有效挖掘它https://www.haofabiao.com/haowen/6588.html
14.什么是对象存储器?什么是对象存储器? 了解 IBM 如何帮助企业处理对象存储器 对象存储器通常称为基于对象的存储器,是一种用于处理大量非结构化数据的数据存储架构。这些数据无法轻易整理到包含行列的传统关系数据库中,或不符合其要求。当今的互联网通信数据的大部分都是非结构化的。其中包括电子邮件、视频、照片、Web 页面、音频文件、https://www.ibm.com/cn-zh/topics/object-storage
15.了解结构化数据与非结构化数据的差异结构化和非结构化数据在许多方面都有所不同。两者都使用不同的工具和方法来处理和分析信息。 下面是结构化数据与非结构化数据的简要比较表。 结构化数据非结构化数据 以特定的方式和固定的格式组织。没有组织,没有固定的格式。 存储在关系数据库或电子表格中。不适合关系数据库或电子表格的各种数据格式。 https://www.360doc.cn/article/68899713_1124424478.html
16.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象1. 对象存储在银行业的应用机会 随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图https://redhat.talkwithtrend.com/Article/242823
17.非结构化数据管理专家基于文件云实同统一文件平台硬件和网络管理、统一存储管理、实现数据存储生命周期管理,大幅度节省投入和运维 07 安全部门 基于文件云实现非结构化数据资产安全治理&统一安全管控 08 软件开发中心 基于文件云非结构化中台内容存储、内容计算、内容安全相关API 二次开发, 大幅度降低应用开发成本 https://www.linkapp.cn/products/42/0
18.详解Python中数据的多种存储形式python1 JSON 文件存储 JSON,全称为 JavaScript Object Notation, 也就是 JavaScript 对象标记,它通过对象和数组的组合来表示数据,构造简洁但是结构化程度非常高,是一种轻量级的数据交换格式。本节中,我们就来了解如何利用 Python 保存数据到 JSON 文件。 1. 对象和数组 在JavaScript 语言中,一切都是对象。因此,任何支持的https://www.jb51.net/article/283444.htm
19.非结构化数据应用调研6. 如果有纸质资源,现有的纸质资源是否都有相对应电子文件: 是否 7. (非结构化)数据资源在部门内主要用途有:(可多选,无下选项可自填) 优化人力资源组织结构教职工培训与考核科研申报其他 8. 目前已有的非结构化数据的存储方式:(可多选,无下选项可自填) 移动硬盘网盘电脑存储服务器现有的网络平台其他 9. 现有https://www.wjx.cn/xz/170049874.aspx
20.结构化数据vs.非结构化数据基础设施CIO时代网结构化数据与非结构化数据:有什么区别? 除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。 https://www.ciotimes.com/Infrastructure/147367.html
21.干货如何在海量文件系统中选择合适自己的文件系统半结构化数据: 介于结构化(如关系型数据库中的数据)和非结构数据(音频、视频、图片等)之间的一种数据,它可以是自描述的(即结构可以是自定义,格式并不固定,如相同的键值下存储的数据可能是数值、字符、列表等,结构和内容是混在一起的,无明显区分),常见的如 JSON、XML,HTML 文档等。 https://xie.infoq.cn/article/3af980b8e0f04a816f98b9255
22.什么是结构化数据和非结构化数据?零代码知识中心顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图像、社交媒体帖子、电子邮件内容、客户服务聊天记录、机器传感器数据等等。据 Gartner 估计,非结构化数据约占企业所有数据的 80%,来自其他机构的估计甚至更高。 非结构化数据可以由人类或机器生成。人类生成的信息包括音频文件、视频https://www.jiandaoyun.com/fe/gdyqhj/