兰台之家兰台资讯

△第十一届“中国电子文件管理论坛”现场图

2020年11月28日,以“数据管理深度融合下的电子文件管理”为主题的第十一届“中国电子文件管理论坛”在北京举行,论坛由中国人民大学电子文件管理研究中心、北京市档案馆共同举办。国家电子文件管理主管部门与国家档案局的有关领导,各事业企业专家学者出席会议。

以下内容为《数据管理中的文件档案与内容管理白皮书》全文,由鸿冀提供。

1背景

随着大数据、人工智能等信息技术的快速发展,数据的价值愈发凸显,人们越来越意识到数据管理对于机构的重要性。然而,根据国内外多个研究机构的调查,大多数机构中非结构化数据占全部数据的80%以上。数字环境下,大多机构的文件档案管理依赖基于非结构化数据(即本白皮书所称内容)的解决方案,文件档案与内容有着异常紧密的关系。

如果说数据是一座煤矿,谁能掌握这座煤矿,谁就能为机构发展提供动能,那么文件档案与内容数据就是潜藏在煤矿深处的钻石,谁能够率先发现这些钻石,谁就能先人一步洞察和刻画机构内外的种种变化,进一步将数据的价值和潜能释放出来。国际数据管理协会在其标志性出版物《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)中将文件档案与内容管理放在了数据管理框架中显著的位置,凸显了文件档案与内容管理对于数据管理的重要性。

本白皮书的编制主要参考了《中华人民共和国档案法》(2020)、ISO15489-1:2016《信息与文献文件管理-第1部分:概念与原则》、GB/T18894-2016《电子文件归档与电子档案管理规范》、GB/T36073-2018《数据管理能力成熟度评估模型》、《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)等法律法规、标准规范和文献材料。

2.1文件、档案与文档

从文件档案管理视角来看,文件(records)是指机构或个人在履行其法定义务或开展业务活动过程中形成、接收并维护的作为凭证和具有查考作用的信息,可简称为“业务凭证”。档案(records/archives)是指形成文件的业务活动结束之后仍然具有保存价值的文件。文档是文件和档案的合称。

从计算机技术视角来看,文件(file)是作为一个单元存储或处理的命名的记录集。文档(document)主要是指非结构化数据。除非特别说明,本白皮书使用的文件、档案、文档概念均来自文件档案管理领域。

2.2内容与数据

从信息的角度来看,内容是指以任何形式或载体存在的有含义和背景的信息。在计算机技术领域,内容(content)一般指非结构化数据,是非结构化数据厂商提出的特定概念。在本白皮书中,数据与数字数据同义,是指以数字形式存在的信息记录。按照数据单元被定义的程度,数据一般包括结构化数据、非结构化数据以及介于两者之中的半结构化数据。其中,结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据是指未通过数据模型预先定义的数据。

2.3文档管理与内容管理

文档管理是一项专业工作,指对文件从生成、处理、流转、归档、移交、鉴定、保存到利用、处置等全生命周期进行管控的领域。手工环境下文件形成过程中的管理和档案管理相对独立,数字环境下文档一体化是文件档案管理的基本要求。

内容管理是一个IT产品分支,支持对非结构化数据进行采集、处理、组织、存储、查询和共享,实现从内容采集、创建、传递到内容分析等整个内容价值链的整合。

从概念来看,文件档案既可能是结构化数据,也可能是非结构化数据。但是在实践中,文件档案管理系统通常采用非结构化数据管理方案,以结构化数据存在的文件或者在归档环节被转化为非结构化数据(比如版式电子发票),以便固化其内容、背景与结构并进行长期保存;或者以数据文件的方式保存在文档系统中,该数据文件可能是多个业务记录的集合体。

虽然内容管理方案是非结构化数据的管理方案,但对内容的管理,需要借助于描述内容的结构化数据(元数据)展开;对内容的分析、挖掘与开发,则需要将非结构化数据转化为结构化数据,这是电子文件数据化的重要任务。结构化数据和非结构化数据,存在互相转化、互相支持、相互协同的关系。

2.4文档生命周期与数据生命周期

生命周期是看待和管理文档、内容和数据的重要视角,它倡导将文档、内容和数据看成一个有始有终、不断发展变化的对象,并根据其不同阶段的特点实施区别化的管理。其中,文档生命周期是指文件从产生到最终销毁或作为档案永久保存的整个运动过程。从文档价值来看,文档生命周期包括现行文件、半现行文件和非现行文件等不同阶段;从管理环节来看,文档生命周期主要包括生成、鉴定、归档、分类、存储、利用、分析、保存和处置等环节。

根据DAMA的界定,数据生命周期包括计划、设计、创建/接收、存储或处置、利用或复用、增值等环节,一方面,该定义将生命周期提前到数据实际产生之前的规划设计阶段,这与1997年国际档案理事会把电子文件划分为设计/概念阶段、形成阶段和维护阶段异曲同工。另一方面,该定义更为强调数据的增值利用,这提醒文档管理工作人员也要重视文档的复用和增值。

3数据管理框架下的文件档案与内容管理

随着文件档案和内容的数据属性逐渐明确,价值逐渐得到认可,文件档案与内容管理已经成为数据管理的重要组成部分。在DAMA的数据管理功能框架中,文件档案与内容管理被认为是数据生命周期管理中数据“使用与增强”阶段的组成部分,如图1所示,在文字描述部分,综合了非结构化数据和文件档案专业管理的内容。在数据管理的框架下,文件档案与内容管理已经成为机构数字治理和数据资产化的关键环节,是在数据流转过程中数据价值洞察和挖掘的基础性工作。

图1DAMA数据管理功能框架

尽管DAMA将文件档案与内容管理放到了一个比较高的位置,但是其提出的数据管理功能框架对于文件档案与内容管理的描述层次比较单薄,对文件档案与内容管理的价值认知有限。DAMA的数据管理功能框架将文件档案与内容管理描述为数据生命周期管理中一个特定阶段,即在数据管理中的某个阶段,数据管理会表现为文件档案与内容管理。但是,文件档案与内容有着更丰富的内涵,从横向来看,文件档案与内容管理同样存在其生命周期。

文件档案与内容的管理过程与其生命周期相对应,包括文件档案与内容数据的产生、捕获、分类索引、访问控制、存储、利用和重用、长期保存以及处置等。文件档案与内容管理并非是数据管理的一个特定阶段,而是贯穿于整个数据生命周期。从纵向来看,对于文件档案和内容的管理也需要着眼数据治理开展规划与监管,并提供元数据管理、风险管理等基础数据管理活动的支撑。

本白皮书认为:文件档案与内容管理并不只是数据管理的一个独立分支,而是渗透和融入数据管理的所有方面。文件档案管理工作因内容管理方案的应用而延展,内容管理方案因文件档案管理的应用而专业。

4文档与内容管理价值与效用

图2文件档案与内容管理的价值

4.1安全合规

文件档案与内容管理有利于帮助机构规避法律风险。有效的文件档案与内容管理能够保障机构依法维护机构业务记录的真实性和可靠性,保障证据性记录的长期保管,避免重要记录因管理不善而遗失、泄露或被篡改所带来法律风险,保障机构的合法利益。

4.2提效降本

文件档案与内容管理有利于帮助机构优化业务流程,促进机构高效透明运转,提高机构运行效率。相对于结构化数据,文件档案与内容等非结构化数据更加细致的刻画了业务流程中的事物运行情况,是对业务流程清晰的逻辑映射。有效的文件档案与内容管理,能够帮助管理者更好的洞察机构业务情况,从而提高机构运行效率,实现机构高效透明运转。

4.3业务连续

文件档案与内容管理有利于帮助机构应对突发事件,迅速恢复异常业务。文件档案与内容管理能够将机构运转的重要业务规则和事件予以留存和保管,当机构面对包括自然灾害、业务事故等突发事件而导致业务中断时,有效的文件档案与内容管理能够将数据取出以还原业务,从而帮助机构迅速恢复异常业务,降低突发事件所带来的经济损失。

4.4决策支持

文件档案与内容管理有利于促进信息资源共享整合,提升机构决策水平。文件档案与内容管理强调数据的资源性和业务性,有效的文件档案与内容管理能够帮助机构实现跨部门的信息资源共享和整合,减少部门之间因系统互操作差异等因素所带来的信息壁垒,降低跨部门合作的障碍,从而提升机构的整体决策水平。

4.5洞察创新

文件档案与内容管理有利于提升机构知识发现和创新能力,帮助机构洞察创新。有效的文件档案与内容管理能够实现对文件档案与内容的有效开发和利用,能够帮助机构充分挖掘和管理文件档案与内容中蕴涵的知识,从而提高机构的知识管理水平,提升机构的知识发现能力,实现机构创新发展。

4.6权益保障

4.7资产增值

4.8记忆(历史)留存

5内容管理软件的应用及类型

5.1应用架构视角下的内容管理软件应用

内容管理(ContentManagement,简称CM)是一种以各种类型内容为主体,实现内容创建、编辑、共享流转、利用、保护、管理、业务融合、洞察分析、归档销毁的应用软件集合。内容管理涵盖了企业内容管理、文档管理系统、内容协作系统、网页内容管理、影像管理系统、数字资产管理、质量体系文件管理、知识管理系统、涉密电子文档管理、内容归档系统、内容安全保护和内容智能应用等软件和系统(如图3所示)。接下来针对部分典型应用系统进行介绍。

图3内容管理应用全景图

5.1.1企业内容管理系统

ECM的核心能力包括:各种形态内容的全生命周期管理;提供统一的非结构化数据平台;全方位的内容数据保护技术;基于内容服务平台与低代码平台,实现与业务的深度融合;内容洞察能力用于知识创新和辅助决策等。

5.1.2内容协作系统

内容协作系统强调用户在进行内容创作和使用过程中的体验和交互,不受硬件设备和访问终端的限制,可以随时随地进行创作工作,并且通过全场景的团队协作方式来提升整体内容创作和利用效率。

5.1.3网页内容管理系统

网页内容管理(WebContentManagement,WCM)有两个主要应用分支:WCM和CMS。WCM侧重于通过提供应用组件实现面向组织内部员工的信息内容聚合和呈现(在国内也称作:Portal)。CMS是组织进行面向公众网站的内容创作、发布及管理的系统。随着两个应用分支的发展,两者之间的界限越来越模糊,并呈现出合二为一的趋势。两个分支虽有不同但都是针对Web内容的创作、发布和管理。网页内容管理强调创作方便、布局灵活、内容时效、表现丰富、扩展集成、宣传利用等。通过便捷的图文音视频编排即可形成具有视觉冲击和宣传效果的信息页面供用户浏览和利用。

5.1.4文档管理系统

文档管理系统是指对非结构化文档进行捕获和管理并提供长期利用的信息系统,能够实现对文档的集中存储、权限管理、查询索引、文档审计、版本控制、编目编号、安全保护、规则应用、存储加密、数据备份、开发利用、统计编研等基本功能,强调对文档进行全生命周期管理。

5.1.5影像管理系统

影像管理系统(ImagingManagementSystem,IMS)是在业务活动中将纸质原始凭证进行扫描生成电子影像文件,进行统一管理和保护,并通过文字识别和提取技术获取影像文件中的文字信息进而规范管理和利用的系统。影像管理系统主要包含三大模块:扫描仪、文字识别模块和文档管理系统。扫描仪将纸质单据凭证进行电子化和影像化;文字识别模块通过OCR技术提取影像文字进行价值信息获取;文档管理系统则对电子影像文件进行安全存储、共享分发、查询搜索和电子化流程管理等后续操作。影像管理系统在金融投资、保险信托、财务会计、通信、政府机关等产生大量纸质文档、票据的行业广泛的应用。

5.1.6质量体系文件管理系统

质量体系文件管理(ISO)是对体系文件的新增、发布、签收、培训、复审修订、废止等进行全生命周期管理。质量体系文件是建立并保持企业开展质量管理和质量保证的重要基础,是质量体系审核和质量体系认证的主要依据。主要管理四类文件:质量手册、程序文件、指导书和表单记录。质量体系文件管理在制造业和医药制造方面具有普遍的需求和广泛的应用。

5.1.7知识管理系统

5.2不同行业领域中的内容管理应用类型

内容管理软件在各行各业中被广泛应用,其中以制造业、医疗制药、工程建设、建筑设计、军工、汽车、银行金融、房地产、教育、航天航空、IT互联网、媒体出版、零售电商、运输、通讯、政府机关和公益组织等更为突出(如图4所示)。不同行业的内容管理应用涉及到的软件系统组合各有侧重和特色,接下来针对部分典型行业进行介绍。

图4内容管理行业全景图

5.2.1制造行业内容管理应用

中国是世界工厂,需要实现全球化接轨并通过数字化转型以支撑制造业的深层次发展。在这一进程中,制造行业必须解决海量业务中非结构化数据的高速互通、全球供应链的文档数据统一存储及一致性要求、快速扩展的员工协作要求、全生命周期的质量体系管控、技术及体系文件的外发协作、跨区域及体系的研发协作、数据安全与合规性保证、统一数据保证业务连贯性、随需的业务访问请求及多系统整合等问题,才能有效应对企业内容管理带来的挑战。

因此,制造行业内容管理在底层架构层面需要以PB级存储为支撑,并且进行多数据中心部署、集团化架构、多站点部署、跨国部署、多系统集成、全球加速和实时数据同步。应用层面涵盖:文档管理系统、ISO质量体系文件管理、文件档案一体化管理、研发文档安全防扩散管理、文档外发交换管理、知识管理、纸质文件捕获管理、图文档管理等。通过这些内容管理应用连接起企业各个部门,实现制造升级和智能制造,如图5所示。

图5制造行业内容管理应用

5.2.2制药行业内容管理应用

制药行业内容管理整合了文档管理系统、质量管理平台、资源计划管理、实验室信息管理平台、生产执行系统、记录管理系统、培训管理、档案管理系统等,共同构成全面的质量管理体系。规范体系文件的无纸化生命周期过程,提供涵盖文档、记录、档案及培训等全业务过程的制药管理应用,建立集中、安全的文件管理以及可追溯体系,同时借助系统实现业务数据的采集和分析,如图6所示。

图6制药行业内容管理应用

5.2.3军工行业内容管理应用

军工行业负责国家武器装备的科研、生产和配套等工作,对数据保密性、安全性具有非常高的要求。军工行业承接大量的以国防建设、军事工业发展为目的的各类项目,项目过程中的项目数据、办公数据、终端数据、业务数据和测试数据等内容需要加以管理和利用。完整的军工行业内容管理应用体系是以电子文档管理为基础,并在电子文档管理系统中通过分权管理体系、密级管控模块、智能定密模块、文件不落地模块等保障数据的安全和保密;在电子文档管理基础上结合网间文件安全交换,保障数据流转和使用过程中的安全。在上层通过项目文档管理应用进行项目过程及内容管理;通过质量体系文件管理应用对武器装备制造环节的质量进行严格规范地管控;通过文件档案一体化应用和知识管理应用将数据结构化和体系化,挖掘数据价值促进产品改良和组织创新,如图7所示。

图7军工行业内容管理应用

5.2.4金融行业内容管理应用

金融行业拥有大量的产品信息、CIF信息、CRM信息、合同资料、员工资料、财务报告等非结构化数据,这些数据作为企业资产需要进行体系化管理。金融行业的网络架构以生产网、办公网、互联网分级网络进行管理,同时根据国家档案局2015年通过并施行的《金融企业业务档案管理规定》要求,金融行业需要对自身业务办理及活动中形成的各种电子文件和档案记录进行统一规范的管理和应用。

较为典型的金融行业内容管理底层以非结构化数据中台作为数据存储中心和基础平台,在非结构化数据中台的基础上搭载安全网盘应用、文件安全交换应用、影像管理应用和知识管理应用等。其中,文件安全交换应用解决金融企业多级隔离网络间的数据交换和摆渡需求;影像管理应用通过扫描仪捕获业务单据凭证等影像资料并基于文字识别模块进行数据抽取和业务流转;知识管理应用通过挖掘企业存量数据资产和分析外部市场环境促进金融体制或金融工具的创新。办公网或互联网用户通过VDI安全云桌面接入方式进行网盘数据资源访问,保障云端数据不外泄。同时从风险评估、风险控制、运行监控和应急恢复方面进行全方位的风险预警和处理,如图8所示。

图8金融行业内容管理应用内容管理系统与文件档案管理系统的发展

6.1内容管理系统的发展过程

随着计算机技术的普及,办公自动化的推行,非结构化数据日益增加,国内外内容管理加速发展。国际上,1990年,Documentum公司成立,成为第一家利用标准关系型数据库技术以及面向对象方法提供企业级文档管理解决方案的公司;2000年左右,以电子商务和电子政务为代表的门户网站的发展带来了网页内容的指数级增长,促进了网页内容管理的成熟与发展;2002年Documentum正式发布ECM产品;2006年,SharepointPortalServer发布;2010年,OpenText发布;2010年后,云计算、移动互联网、大数据等新技术改变了ECM的形式与内容,ECM的内涵与外延不断更新。

国内来看,2002年起,航空、核电和工程领域的国家ECM一线厂商开始进入我国,首先在这些行业内掀起ECM潮流;2008年,上海鸿翼软件技术股份有限公司发布国内首款完整ECM产品“鸿翼15edoc2ECM”;2009年拓尔思信息技术股份在金融和政府领域推出WCM产品;2010年信雅达系统工程股份有限公司在金融领域推出ECM影像管理产品;2016年之后,应用层的网盘和功能更全面的ECM出现,ECM系统中的文档协同和服务能力不断提升;2017年开始,人工智能(AI)在ECM系统中的逐渐显现,例如利用AI实现元数据自动化提取等(如图9所示)。

6.2内容管理系统的发展阶段

图10内容管理系统四阶段进阶模型

(3)数字业务阶段。此阶段,行业数据经过不同维度的整理、提炼,围绕业务的垂直领域性、体系性进行立体式关联与聚合,形成了行业性的知识体系,对企业迅速应对市场变化和进行业务创新进行支持。(4)智能服务阶段。此阶段通过深度学习,自然语言处理(NLP)、知识图谱等技术对海量数据进行深度整理,能够立足业务场景提供内容智能化服务,为机构降本增效、决策制定提供支持。

表1内容管理系统四阶段特征

6.3文件档案管理系统的发展

文件档案管理系统既可能是一个单独的内容管理应用系统,也可能是企业内容管理平台的应用,还可能是某些内容管理软件的部分功能。20世纪80年代,很多机构开发了辅助纸质文档管理的早期文档管理系统,主要用于档案目录信息的集成、检索与统计等;90年代,办公自动化进程加快驱动电子文件管理系统的出现与发展,功能聚焦在电子文件的捕获归档、存储、长期保存和检索等。到21世纪初,文件档案管理系统已经成为信息化程度较高或知识密集型企业的必备系统,数字档案馆概念兴起,传统纸质文档的数字化、元数据著录以及长期保存等问题成为这一阶段旨在解决的主要问题。

2010年之后信息技术在业务领域的深入应用将电子文件、档案管理系统建设推向纵深化,面向电子文件单轨运行和电子档案单套保存的试点系统不断出现,以民生档案跨馆出证为代表的跨机构、跨区域的档案数据整合服务应用不断普及。2020年《新档案法》发布,电子文件单轨制管理走向合法合规,电子文件管理系统与业务系统的无缝挂接成为必然趋势。同时,随着文档资源管理与开发能力的提升,以用户为中心、面向内容和知识的文档管理系统成为新的趋势,更加强调对文档全生命周期的管理以及基于文档管理的内容共享与知识服务。

7文件档案与内容管理的应用问题

7.1IT视角下的应用问题

7.1.1业务系统核心文件“烟囱割裂”

为了高效完成业务推进,机构业务会不断细分,伴随业务细分而来的是每个环节的业务单元都在逐步数字化和系统化。在系统的使用过程中,核心的业务系统文件被分散在各个业务系统中的,每个业务系统的数据体系也会愈发复杂和深化,形成一个个高耸林立的数据“烟囱”,各个“烟囱”之间没有搭建互通的桥梁,机构数据体系在这种架构下,呈现出割裂的“烟囱群”情形。“烟囱割裂”式的业务系统给文档管理带来巨大挑战。每个业务系统的数据体系都异常复杂和庞大,离散在各个细分业务系统中的文档数据变得不可知、不可控、不可取、不可联和不可信。

7.1.2离散过程文件难以统一存储

组织的过程文件一般都离散存储于在各种文件服务器、邮件系统、个人电脑、运行设备和文件柜中,其涵盖了围绕机构业务活动产生的各种往来邮件、Office文档、会议纪要、设计图纸、音视频文件等。由于其形成环节众多,过程文件往往分布广泛且脱离控制,加之体量庞大,造成了离散过程文件的采集汇聚极为困难。

7.1.3海量数据带来存储扩展和安全问题

据IDC预测每年全球数据的增长量约为40%。随着互联网、移动互联网、物联网技术的发展,数据产生途径已延伸至更广泛的用户群体、各种机器设备和多样化的现实世界。海量数据在不间断产生,业务连续性对存储动态扩展的要求,加上勒索蠕虫病毒的越发猖狂等,都给文档管理带来了严峻的存储和安全挑战。

7.1.4多分支机构对部署架构挑战

多分支机构对文件档案管理系统的部署架构带来多方面挑战。第一个挑战就是多分支机构和庞大的用户群给系统架构带来的高并发压力。第二个挑战是在不同安全等级的分支机构间如何快速实现数据摆渡和高效地传递利用。第三个挑战是如何满足全球各地的分支机构都可以快速、低延迟地进行文件档案资源访问和利用。

7.2业务视角下的应用问题

7.2.1用户很难发现想要的文件档案

用户获取文件档案资源一般路径是从分类目录逐层进入发现、元数据检索、内容检索等。然而,文档分类规则往往并不严格和规范,欠缺业务传导途径。元数据也只是涉及非常有限的业务信息,且元数据质量经常不可控,这些都大大限制了通过元数据进行内容发现的效果。而对于内容检索,普遍性存在搜不到、搜不准、搜不完整等问题。

7.2.2业务文件不能及时、完整归档

各种业务系统会产生大量的文件需要统一管理。但是在业务系统与文件档案管理系统对接的过程中,往往由于档案策略没有前置、与业务系统整合难度大、整合技术能力有限、业务人员与档案管理人员缺乏有效沟通等问题,造成业务文件不能及时、完整地归档。

7.2.3文件档案未形成体系化知识

文件档案是机构在业务运营过程中形成和沉淀的显性知识,是数据中最宝贵、最有价值的部分。然而,在机构开展知识组织、知识挖掘过程中,往往过度重视人与隐形知识挖掘的重要性,而忽视了文件档案显性知识的价值创造。另外,文件档案管理系统与业务系统进行集成整合程度较低,文件数据难汇聚一起;加上非结构化数据开发与挖掘的技术手段有限,导致文件档案知识化效果较差。

7.2.4文件档案与业务融合不足

文件档案数据及其服务未能嵌入至具体应用场景中,未能成为有效而全面的业务支持数据,更没有形成文件档案驱动业务的管理理念。文件档案与业务融合的不足导致业务无法从文件档案数据中汲取知识资源以进行快速响应和业务决策。

7.2.5管理人员综合能力依然欠缺

7.3数据视角下的文档档案应用问题

7.3.1文件档案核心数字资产地位未被认可

7.3.2非结构化数据管理战略规划缺失

7.3.3内容数据化能力不足

非结构化的文件是一种组织无序、难分析的大颗粒度数据,且不同类型文件其数据组织、数据形成、数据呈现等都各不一样,从而造成了内容管理系统中的文件档案没有类似结构化数据的统一数据模型,也无法在其上层进行丰富的算术运算、逻辑分析和数据挖掘,更没有形成完善的技术生态体系。虽然基于元数据的著录、标引等都是内容数据化的基本手段,但都属于元数据应用的“浅层”状态;目前通过AI与图谱技术对文件档案可进行一定程度的内容结构化与内容关联,但仍处于培育与早期发展阶段,无法实现全面而深层的结构化。内容数据化能力不足是当前文件档案的利用开发不足、分析探索不够、安全管控不力的最关键原因。

7.3.4文件档案数据价值释放不够

本应是机构最具有价值的文件档案,却面临着“档案只是用于法规遵从的档案”、“数据中心建设与档案无关”、“档案人员与IT、数据人员的语言不通”等基础而又普遍存在的问题,造成多年来文件档案开发利用手段有限、能力不足,致使本属于高含金量的数据未得到应有的价值传递与释放。

8数据管理中的文件档案管理框架

图11数据管理中的文件档案管理框架

根据国内外文件档案管理标准以及DAMA数据管理框架,结合文件档案管理领域的实践进展,可总结提炼出文件档案管理框架,如图11所示。该框架自上而下包括四个部分,分别是价值实现层、文档治理层、管理活动层和技术实现层。

价值实现层是文档管理的价值目标和整体定位,是方向性的,处于最顶层;文档治理层涉及战略、职责、制度、沟通和监督等,是宏观层面的统筹考量;管理活动层既涉及文件档案生命周期中的流程性管理活动,也涉及贯穿全生命周期的管理活动,是微观层面的操作实施;技术实现层是支撑其他层次的基础和保障。图11中的箭头代表文档管理的动力,其中,左侧的箭头表示文档管理是需求引导、价值驱动的,右侧的箭头表示文档管理同时也是技术赋能、系统驱动的。

8.1价值实现层

8.2文档治理层

8.3管理活动层

管理活动层涉及两种类型的业务活动,一种是流程性的管理活动,包括生成、鉴定、捕获/归档、分类与索引、存储、使用和复用、长期保存、处置等。科学合理和高效有序的文档管理活动需要分类方案、归档范围、元数据方案、访问许可规则、保管期限与处置表等配套业务管理规则的支撑。

其中,生成是文档生命周期的第一个阶段,在此阶段中,文档通过创建或接收的方式得以积累,主要包括协作、创建、接收、流转、更改、分发、传输等。鉴定是指综合考虑法律、业务、社会、历史、文化等因素对文档的价值进行综合评估,判断其是否属于归档范围并划分保管期限的行为。归档(系统中的捕获)是指将业务活动中生成或接收到的数据对象作为文档及其元数据一起保存到文档管理系统中的过程,包括为文档分配唯一标识符、捕获或生成关于文档的元数据、建立文件与其他文件以及业务活动之间的关联。

元数据管理是有效开展文档管理工作、确保文档质量的关键。元数据包括文档元数据和文档管理元数据,涉及文档、业务、责任者、关系等不同类型的实体。管理的内容涉及元数据定义、元数据策略、元数据权限、元数据搜索、元数据视图和元数据分析等关键环节。质量管理需要从文档质量要求、文档质量策略、文档质量政策、文档质量标准、文档质量程序、文档质量实施规划等方面展开,围绕“计划-执行-检查-处理”的质量管理生命周期确保文档质量持续满足要求。

8.4技术实现层

9数据管理中文件档案与内容管理的发展趋势

9.1结构化数据和非结构化数据融合发展

结构化数据和非结构化数据都是组织机构的重要业务资产和关键生产要素。其中,非结构化数据已经成为数据治理体系中不可忽视的组成部分,在组织机构运转过程中发挥着不可替代的重要作用,亟待进行资产化管理。同时结构化数据和非结构化数据之间存在相互转化和互为补充的关系。

9.2文档管理和内容管理融合发展

文件档案管理是内容管理软件的重要功能,文档管理行业和内容管理行业密不可分,相互支撑、互为依靠,逐渐形成联动发展、互利共赢的良好生态。我国文档管理行业和内容管理行业之间的联系愈加紧密,文档管理行业逐渐成为内容管理行业的重要支撑。

两者融合发展主要表现在以下三个方面:一是目标和理念的融合。以往的文档管理侧重安全合规、业务连续、权益保障、记忆留存等,内容管理侧重支持决策、提效降本、创新发展、资产维护等,现在两者都被纳入数据管理体系中,将互相利用对方的优势,共同支撑组织机构的运作以及业务活动的高效有序开展。

二是组织和职能的融合。文档管理部门不再是居于后端的保管者,而是重新思考自身的职能和定位,一方面,参与机构整体的数据治理工作;另一方面,成为非结构化数据治理的责任部门,文档工作者成为“内容管事”,承担非结构化数据的统筹规划、全生命周期管控、数据质量保障、安全合规等职责。

三是技能和工具的融合。一方面,内容管理行业需要来自文档管理行业的支撑以及与之配套的管理理念和管理规则;另一方面,文档管理行业也需要与其需求相匹配的系统、平台、技术、工具,内容管理行业能够为其提供更为丰富多样的产品及信息化的集成化解决方案。

9.3文档管理和数字化业务融合发展

首先,从文档管理与业务活动的关联程度来看,国际标准化组织发布的文档管理核心标准(如ISO15489、23081、21946、26122等)确立了面向组织机构业务需求的以职能活动和业务流程分析为核心的方法体系,两者的融合程度逐步提高。组织机构实施文档管理的目标不再局限于文档本身的规范化和有序化,而是要更多地支撑、反馈和驱动业务活动。

一方面,文档管理“从业务中来”,即业务数据化。通过分析业务可形成数据资产清单,准确识别文档及其元数据,实现数据资产的实时登记和动态监测,将文档管理需求嵌入业务流程,实施嵌入式档案化管理,满足合规管理要求。

9.4文档管理基础建设和智能开发融合发展

文档和内容管理呈现出从简单的文档集中、协作办公、安全交换走向基于人工智能的智能开发的趋势,从数字化、数据化走向智能化,但需要指出的是,各阶段之间并不是直接替代的关系,而可能长期并存。未来的文档管理工作应该做到“两手抓”,一方面是文档管理基础建设,包括文档协作、文件归档、安全管理等方面。近年来,基于文档协作和共享的知识高效协同和文档全生命周期安全防控体系的市场需求呈上升趋势,成为文档管理的重要基础工作。

另一方面是基于文档的深度挖掘和分析,呈现出智能化乃至智慧化的趋势。文档管理应是语义层面的管理,基于人工智能,尤其是深度学习和知识图谱,实现洞察分析,同时融合应用云计算、大数据、区块链、5G等其他信息技术,共同赋能文档管理工作。具体来说,文档管理的智能应用场景将重点包括智能推荐、图谱探索、智能搜索、安全分析。总之,前面的文档管理基础建设是实现智能开发的前提和保障,后面的智能开发技术也可以反向推动基础工作的完善,实现文档管理基础建设和智能开发的融合发展。

以下是《数据管理中的文件档案与内容管理白皮书》PDF版,由鸿冀提供。

编写组

中国人民大学电子文件管理研究中心:刘越男杨建梁祁天娇何思源

THE END
1.演讲实录银行PB级别海量非结构化数据管理实践近期,巨杉数据库的技术总监郝大为受邀在第七届数据技术嘉年华中做了“银行PB级别海量非结构化数据管理实践”为主题的演讲,分享了巨杉数据库有关金融行业数据库管理以及金融级数据库技术与应用的一些实践及思考。 新一代金融级数据管理需求 数据爆炸:数据呈现急剧增长,对数据存储的数据量,并发性和响应速度都提出了更高https://cloud.tencent.com/developer/article/1055034
2.非结构化数据管理平台开发及实施研究非结构化数据管理平台的研究与实施还具有深远的社会意义。随着大数据时代的到来,非结构化数据在社会各个领域的应用场景愈发广泛。例如,在金融行业,非结构化金融数据管理系统的设计与实现,能够有效助力金融行业的信息化改革,提升金融服务的效率与质量[5]。因此,本文研究不仅关注企业级非结构化数据管理平台的建设,还着眼于https://blog.csdn.net/CaritoB/article/details/141936221
3.如何在数字化时代有效管理非结构化数据?以某大型企业为例,介绍其在非结构化数据管理方面的实践经验。该企业采用了分布式文件系统和对象存储来存储非结构化数据,并通过数据治理和合规性管理来确保数据的质量和安全性。同时,该企业还采用了数据可视化和分析工具来更好地理解和分析非结构化数据。 https://www.filez.com/news/detail/a404d0026f199851fc7ddf605d7ccd3f.html
4.专业的非结构化数据管理解决方案在当今数字化时代,企业和组织所面临的数据管理挑战日益复杂,其中非结构化数据的管理尤为关键。非结构化数据,如文档、图像、音频、视频等,占据了企业数据的大部分份额,且其增长速度迅猛。因此,建立一套专业的非结构化数据管理解决方案已成为企业提升数据管理能力、提高业务效率和保障数据安全的必要举措。 https://www.gokuai.com/press/a666
5.非结构化数据的资产管理系统构建与实现【摘要】: 办公office文本,PDF文件,图片,网页,影音等正逐渐成为商业流程中非结构化数据不断快速增长的重要来源,传统上把数据进行结构化的数据库管理方式已经不能满足企业信息管理的需要,企业要求将大量信息的管理与业务流程充分整合,直接针对各种非结构化数据类型,提供高效的收集、整理、归档、安全存储、快速查询、知识https://cdmd.cnki.com.cn/Article/CDMD-10005-1013020283.htm
6.非结构化数据管理平台非结构化数据管理平台 产品概述 非结构化数据资源管理平台能够将学校各教学平台、录播系统的教学资源(视、音、图、文)汇集在一起,实现高校多业务整合,并且可由平台集中对数据进行存储、运算,然后通过标准的API接口对外输出资源查询、数据支撑等服务。该平台面向教师、学校领导、学生及校外人员提供全方位的服务,增加系统http://www.guanxingkeji.com/info/1176/1203.htm
7.企业级非结构化数据管理平台研究及实践企业级非结构化数据管理平台研究及实践:非结构化数据是大型企业的宝贵数据资产,其基本特征是数据格式多样、数据存储分散、数据总量大、增长速度快,蕴含有提升企业管理水平的大量重要信息。非结构化数据的统一存储、集中管理与深化应用是当今大型企业信息化建设的重要方向http://www.toberp.com/html/support/1112157370.html
8.非结构化数据管理专家深圳市连用科技有限公司(Shenzhen LinkAPP Technology Co., Ltd 简称LinkAPP)成立于2008年,是一家专注于非结构化数据管理和应用的国家认定高新技术企业和深圳市政府重点扶持的软件企业,总部位于深圳,在北京、上海、广州、海口等多地均设立有办事机构,建立了辐射全国的https://www.linkapp.cn/products/42/0
9.鸿翼&京东方ECM非结构化数据平台及知识管理项目案例;物联网创新为新零售、交通、金融、教育、艺术、医疗等领域,搭建物联网平台,提供“硬件产品+软件平台+场景应用”整体解决方案;在智慧医工领域,京东方通过移动健康管理平台和数字化医院为用户提供了全面的健康服务。 需求分析 1、数据离散存储 同时使用多套业务系统,重要数据分散在各自系统及员工电脑中,无法做到集中管理https://www.macrowing.com/Case/162.html
10.XSKY星辰天合X3DS立体数据管理系统非结构化数据管理难题 根据Gartner 预测,到 2024 年,大型企业以文件或对象存储在企业内部、边缘或公有云中的非结构化数据量将是 2020 年的三倍。而且,现在非结构化数据在企业生产系统中的重要性越来越突出,也面临业务连续性的巨大挑战。 Gartner 在 2020 年的 “Survey Analysis: IT Disaster Recovery Trends andhttps://www.xsky.com/products/x3ds
11.分布式存储高端存储全球客户的数据系统提供商极道的数据管理系统Metaview是强关联大规模实时数据特征管理系统,能够管理所有在非结构化存储系统中的数据特征,根据海量、多维度、复杂的数据特征发现数据和构建数据特征的关联关系,高效的实现非结构化数据的“多维有序”。通过极道创新的分布式“图引擎”分析数据特征,可以快速的根据复杂特征的组合条件查询数据,和分析特征https://www.xtaotech.com/product/metaview
12.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
13.什么是结构化数据和非结构化数据?零代码知识中心结构化数据易于搜索和组织,机器设备可以轻松地处理。用户可以输入数据、搜索数据库、修改和使用数据,通常使用关系数据库管理系统或结构化查询语言 (SQL)。SQL 是专门为管理结构化数据而设计的编程语言。 二、什么是非结构化数据? 顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图https://www.jiandaoyun.com/fe/gdyqhj/
14.《DAMADMBOK2》读书笔记第9章文件和内容管理内容管理在网站和门户中尤为重要,但基于关键字的索引和基于分类的组织方法可以跨技术平台应用。当在整个企业范围内进行内容管理时,称之为企业内容管理(ECM)。 内容元数据 P232 元数据对于管理非结构化数据至关重要,无论是传统上认为的内容和文件,还是现在理解的“大数据”。如果没有元数据,就无法对内容进行编目和组https://www.jianshu.com/p/fa34d269374b
15.大数据基础术语精粹来袭但不是系统中所有信息都可以这样简单的用一个表中的字段就能对应的。 十六:非结构化数据 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
16.使用SQLServer2008管理非结构化数据dinoworld使用SQL Server 2008管理非结构化数据 microsoftSQL Server? 2008提供了一个灵活的解决方案,使得可以存储非结构化数据,并将它与关系数据合并起来建立使用整个公司范围内的数据的综合的解决方案。 1. 导言 在最近几年,个人和公司创建和存储的数字数据的数量急剧膨胀。过去,企业使用计算机系统和数据库以结构化格式例如https://www.cnblogs.com/dinoworld/articles/1079387.html
17.发布┊AI安全监测┊AR远程协助┊流媒体发布┊非结构化数据管理YUWOSOFT(誉沃软件)-全媒体融合发布┊虚拟演播室┊录音棚┊虚拟录课┊督导巡课系统┊多媒体信息发布┊网络电视台┊录播┊非线性编辑┊高清编码器┊直播系统┊点播系统┊智慧媒资系统┊流媒体转发服务器┊流媒体发布┊非结构化数据管理┊IPTV┊AR远程协助┊AI安全监测报警https://www.yuwosoft.com/
18.数据安全密码防护体系建设思路企业同时存在结构化数据和非结构化数据,需要采用不同技术手段加以保护。 结构化数据是指具有确定长度或结构的数据,严格遵循数据格式和长度规范,主要通过关系型数据库进行存储和管理,例如身份证号码、电话号码、银行卡号等。可以将CASB插件与数据安全管理平台相结合,针对结构化数据进行加密,并实现“主体到应用内用户、客体https://www.secrss.com/articles/18668
19.组织如何管理PB级数据?大数据CIO时代网大量数据中心面临的最大挑战是非结构化数据的极大增长。虽然结构化数据在过去10至20年间有所增长,但在过去几年中,非结构化数据的来源以及人们使用所述数据的能力已经显着增加。非结构化数据管理面临的挑战之一是,通常很难确定何时删除它。 例如,从以往的会计年度选择所有财务记录,将其归档并从主存储系统中删除是非常https://www.ciotimes.com/bigdata/142302.html
20.行政管理论文15篇3.2对非结构化和半结构化数据的采集与应用 缺乏技术支撑像图像摘要技术、互联网搜索拦截技术、图像识别技术、磁盘恢复与解密技术、数字认证技术等非结构化和半结构化的应用和数据,在工商系统既无采集也无积累。由于没有充足完整的数据信息量做支撑,工商信息化还处于相对简单和小规模的阶段,依托海量数据或大数据的深度挖https://www.ruiwen.com/lunwen/6220159.html
21.大数据的数据治理与应用嘲大数据技术在技术层面、业务层面都有十分重要的应用价值在技术层面:大数据技术可以应用于非结构化数据的分析、挖掘,大量实时监测数据分析等,为管理系统、综合信息平台等建设提供技术支持;在业务层面:大数据技术可以提供辅助决策和科研支持,向管理者提供管理辅助决策、行业监管、绩效考核支持。 https://www.51cto.com/article/680957.html
22.gis原理十1)数据集,一个结构化的相关数据的集合体,包括数据本身和数据间的联系。数据集独立于应用程序而存在,是数据库的核心和管理对象。 2)物理存储介质,指计算机的外存储器和内存储器。前者存储数据;后者存储操作系统和数据库管理系统,并有一定数量的缓冲区,用于数据处理,以减少内外存交换次数,提高数据存取效率。 http://www.360doc.com/content/11/1115/15/8060039_164528106.shtml
23.银行专岗计算机考试大纲(三)大数据的结构类型 大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC(互联网内容提供商)的调查报告显示,企业中80%的数据都是非结构化数据。 1.结构化数据 包括预定义的数据类型、格式和结构的数据。如:关系数据库中的数据。 2.半结构化数据 具有可识别的模式并可以解析http://www.yinhangzhaopin.com/yhks/yhbs/1/96117.html
24.达梦启智对象存储系统达梦启智对象存储系统是面向海量非结构化数据的通用数据存储系统,为用户提供安全可靠的数据存储服务。作为企业的数据存储和流转中心,用户可通过浏览器、SDK等方式高效的访问、存取和管理文件,为上层应用系统和数据分析提供支撑。 简介 智能化时代,为了应对飞速增长的非结构化存储和处理需求,达梦对象存储系统DMOBS提供海量非https://www.dameng.com/view_3286.html