兰台之家兰台资讯

△第十一届“中国电子文件管理论坛”现场图

2020年11月28日,以“数据管理深度融合下的电子文件管理”为主题的第十一届“中国电子文件管理论坛”在北京举行,论坛由中国人民大学电子文件管理研究中心、北京市档案馆共同举办。国家电子文件管理主管部门与国家档案局的有关领导,各事业企业专家学者出席会议。

以下内容为《数据管理中的文件档案与内容管理白皮书》全文,由鸿冀提供。

1背景

随着大数据、人工智能等信息技术的快速发展,数据的价值愈发凸显,人们越来越意识到数据管理对于机构的重要性。然而,根据国内外多个研究机构的调查,大多数机构中非结构化数据占全部数据的80%以上。数字环境下,大多机构的文件档案管理依赖基于非结构化数据(即本白皮书所称内容)的解决方案,文件档案与内容有着异常紧密的关系。

如果说数据是一座煤矿,谁能掌握这座煤矿,谁就能为机构发展提供动能,那么文件档案与内容数据就是潜藏在煤矿深处的钻石,谁能够率先发现这些钻石,谁就能先人一步洞察和刻画机构内外的种种变化,进一步将数据的价值和潜能释放出来。国际数据管理协会在其标志性出版物《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)中将文件档案与内容管理放在了数据管理框架中显著的位置,凸显了文件档案与内容管理对于数据管理的重要性。

本白皮书的编制主要参考了《中华人民共和国档案法》(2020)、ISO15489-1:2016《信息与文献文件管理-第1部分:概念与原则》、GB/T18894-2016《电子文件归档与电子档案管理规范》、GB/T36073-2018《数据管理能力成熟度评估模型》、《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)等法律法规、标准规范和文献材料。

2.1文件、档案与文档

从文件档案管理视角来看,文件(records)是指机构或个人在履行其法定义务或开展业务活动过程中形成、接收并维护的作为凭证和具有查考作用的信息,可简称为“业务凭证”。档案(records/archives)是指形成文件的业务活动结束之后仍然具有保存价值的文件。文档是文件和档案的合称。

从计算机技术视角来看,文件(file)是作为一个单元存储或处理的命名的记录集。文档(document)主要是指非结构化数据。除非特别说明,本白皮书使用的文件、档案、文档概念均来自文件档案管理领域。

2.2内容与数据

从信息的角度来看,内容是指以任何形式或载体存在的有含义和背景的信息。在计算机技术领域,内容(content)一般指非结构化数据,是非结构化数据厂商提出的特定概念。在本白皮书中,数据与数字数据同义,是指以数字形式存在的信息记录。按照数据单元被定义的程度,数据一般包括结构化数据、非结构化数据以及介于两者之中的半结构化数据。其中,结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据是指未通过数据模型预先定义的数据。

2.3文档管理与内容管理

文档管理是一项专业工作,指对文件从生成、处理、流转、归档、移交、鉴定、保存到利用、处置等全生命周期进行管控的领域。手工环境下文件形成过程中的管理和档案管理相对独立,数字环境下文档一体化是文件档案管理的基本要求。

内容管理是一个IT产品分支,支持对非结构化数据进行采集、处理、组织、存储、查询和共享,实现从内容采集、创建、传递到内容分析等整个内容价值链的整合。

从概念来看,文件档案既可能是结构化数据,也可能是非结构化数据。但是在实践中,文件档案管理系统通常采用非结构化数据管理方案,以结构化数据存在的文件或者在归档环节被转化为非结构化数据(比如版式电子发票),以便固化其内容、背景与结构并进行长期保存;或者以数据文件的方式保存在文档系统中,该数据文件可能是多个业务记录的集合体。

虽然内容管理方案是非结构化数据的管理方案,但对内容的管理,需要借助于描述内容的结构化数据(元数据)展开;对内容的分析、挖掘与开发,则需要将非结构化数据转化为结构化数据,这是电子文件数据化的重要任务。结构化数据和非结构化数据,存在互相转化、互相支持、相互协同的关系。

2.4文档生命周期与数据生命周期

生命周期是看待和管理文档、内容和数据的重要视角,它倡导将文档、内容和数据看成一个有始有终、不断发展变化的对象,并根据其不同阶段的特点实施区别化的管理。其中,文档生命周期是指文件从产生到最终销毁或作为档案永久保存的整个运动过程。从文档价值来看,文档生命周期包括现行文件、半现行文件和非现行文件等不同阶段;从管理环节来看,文档生命周期主要包括生成、鉴定、归档、分类、存储、利用、分析、保存和处置等环节。

根据DAMA的界定,数据生命周期包括计划、设计、创建/接收、存储或处置、利用或复用、增值等环节,一方面,该定义将生命周期提前到数据实际产生之前的规划设计阶段,这与1997年国际档案理事会把电子文件划分为设计/概念阶段、形成阶段和维护阶段异曲同工。另一方面,该定义更为强调数据的增值利用,这提醒文档管理工作人员也要重视文档的复用和增值。

3数据管理框架下的文件档案与内容管理

随着文件档案和内容的数据属性逐渐明确,价值逐渐得到认可,文件档案与内容管理已经成为数据管理的重要组成部分。在DAMA的数据管理功能框架中,文件档案与内容管理被认为是数据生命周期管理中数据“使用与增强”阶段的组成部分,如图1所示,在文字描述部分,综合了非结构化数据和文件档案专业管理的内容。在数据管理的框架下,文件档案与内容管理已经成为机构数字治理和数据资产化的关键环节,是在数据流转过程中数据价值洞察和挖掘的基础性工作。

图1DAMA数据管理功能框架

尽管DAMA将文件档案与内容管理放到了一个比较高的位置,但是其提出的数据管理功能框架对于文件档案与内容管理的描述层次比较单薄,对文件档案与内容管理的价值认知有限。DAMA的数据管理功能框架将文件档案与内容管理描述为数据生命周期管理中一个特定阶段,即在数据管理中的某个阶段,数据管理会表现为文件档案与内容管理。但是,文件档案与内容有着更丰富的内涵,从横向来看,文件档案与内容管理同样存在其生命周期。

文件档案与内容的管理过程与其生命周期相对应,包括文件档案与内容数据的产生、捕获、分类索引、访问控制、存储、利用和重用、长期保存以及处置等。文件档案与内容管理并非是数据管理的一个特定阶段,而是贯穿于整个数据生命周期。从纵向来看,对于文件档案和内容的管理也需要着眼数据治理开展规划与监管,并提供元数据管理、风险管理等基础数据管理活动的支撑。

本白皮书认为:文件档案与内容管理并不只是数据管理的一个独立分支,而是渗透和融入数据管理的所有方面。文件档案管理工作因内容管理方案的应用而延展,内容管理方案因文件档案管理的应用而专业。

4文档与内容管理价值与效用

图2文件档案与内容管理的价值

4.1安全合规

文件档案与内容管理有利于帮助机构规避法律风险。有效的文件档案与内容管理能够保障机构依法维护机构业务记录的真实性和可靠性,保障证据性记录的长期保管,避免重要记录因管理不善而遗失、泄露或被篡改所带来法律风险,保障机构的合法利益。

4.2提效降本

文件档案与内容管理有利于帮助机构优化业务流程,促进机构高效透明运转,提高机构运行效率。相对于结构化数据,文件档案与内容等非结构化数据更加细致的刻画了业务流程中的事物运行情况,是对业务流程清晰的逻辑映射。有效的文件档案与内容管理,能够帮助管理者更好的洞察机构业务情况,从而提高机构运行效率,实现机构高效透明运转。

4.3业务连续

文件档案与内容管理有利于帮助机构应对突发事件,迅速恢复异常业务。文件档案与内容管理能够将机构运转的重要业务规则和事件予以留存和保管,当机构面对包括自然灾害、业务事故等突发事件而导致业务中断时,有效的文件档案与内容管理能够将数据取出以还原业务,从而帮助机构迅速恢复异常业务,降低突发事件所带来的经济损失。

4.4决策支持

文件档案与内容管理有利于促进信息资源共享整合,提升机构决策水平。文件档案与内容管理强调数据的资源性和业务性,有效的文件档案与内容管理能够帮助机构实现跨部门的信息资源共享和整合,减少部门之间因系统互操作差异等因素所带来的信息壁垒,降低跨部门合作的障碍,从而提升机构的整体决策水平。

4.5洞察创新

文件档案与内容管理有利于提升机构知识发现和创新能力,帮助机构洞察创新。有效的文件档案与内容管理能够实现对文件档案与内容的有效开发和利用,能够帮助机构充分挖掘和管理文件档案与内容中蕴涵的知识,从而提高机构的知识管理水平,提升机构的知识发现能力,实现机构创新发展。

4.6权益保障

4.7资产增值

4.8记忆(历史)留存

5内容管理软件的应用及类型

5.1应用架构视角下的内容管理软件应用

内容管理(ContentManagement,简称CM)是一种以各种类型内容为主体,实现内容创建、编辑、共享流转、利用、保护、管理、业务融合、洞察分析、归档销毁的应用软件集合。内容管理涵盖了企业内容管理、文档管理系统、内容协作系统、网页内容管理、影像管理系统、数字资产管理、质量体系文件管理、知识管理系统、涉密电子文档管理、内容归档系统、内容安全保护和内容智能应用等软件和系统(如图3所示)。接下来针对部分典型应用系统进行介绍。

图3内容管理应用全景图

5.1.1企业内容管理系统

ECM的核心能力包括:各种形态内容的全生命周期管理;提供统一的非结构化数据平台;全方位的内容数据保护技术;基于内容服务平台与低代码平台,实现与业务的深度融合;内容洞察能力用于知识创新和辅助决策等。

5.1.2内容协作系统

内容协作系统强调用户在进行内容创作和使用过程中的体验和交互,不受硬件设备和访问终端的限制,可以随时随地进行创作工作,并且通过全场景的团队协作方式来提升整体内容创作和利用效率。

5.1.3网页内容管理系统

网页内容管理(WebContentManagement,WCM)有两个主要应用分支:WCM和CMS。WCM侧重于通过提供应用组件实现面向组织内部员工的信息内容聚合和呈现(在国内也称作:Portal)。CMS是组织进行面向公众网站的内容创作、发布及管理的系统。随着两个应用分支的发展,两者之间的界限越来越模糊,并呈现出合二为一的趋势。两个分支虽有不同但都是针对Web内容的创作、发布和管理。网页内容管理强调创作方便、布局灵活、内容时效、表现丰富、扩展集成、宣传利用等。通过便捷的图文音视频编排即可形成具有视觉冲击和宣传效果的信息页面供用户浏览和利用。

5.1.4文档管理系统

文档管理系统是指对非结构化文档进行捕获和管理并提供长期利用的信息系统,能够实现对文档的集中存储、权限管理、查询索引、文档审计、版本控制、编目编号、安全保护、规则应用、存储加密、数据备份、开发利用、统计编研等基本功能,强调对文档进行全生命周期管理。

5.1.5影像管理系统

影像管理系统(ImagingManagementSystem,IMS)是在业务活动中将纸质原始凭证进行扫描生成电子影像文件,进行统一管理和保护,并通过文字识别和提取技术获取影像文件中的文字信息进而规范管理和利用的系统。影像管理系统主要包含三大模块:扫描仪、文字识别模块和文档管理系统。扫描仪将纸质单据凭证进行电子化和影像化;文字识别模块通过OCR技术提取影像文字进行价值信息获取;文档管理系统则对电子影像文件进行安全存储、共享分发、查询搜索和电子化流程管理等后续操作。影像管理系统在金融投资、保险信托、财务会计、通信、政府机关等产生大量纸质文档、票据的行业广泛的应用。

5.1.6质量体系文件管理系统

质量体系文件管理(ISO)是对体系文件的新增、发布、签收、培训、复审修订、废止等进行全生命周期管理。质量体系文件是建立并保持企业开展质量管理和质量保证的重要基础,是质量体系审核和质量体系认证的主要依据。主要管理四类文件:质量手册、程序文件、指导书和表单记录。质量体系文件管理在制造业和医药制造方面具有普遍的需求和广泛的应用。

5.1.7知识管理系统

5.2不同行业领域中的内容管理应用类型

内容管理软件在各行各业中被广泛应用,其中以制造业、医疗制药、工程建设、建筑设计、军工、汽车、银行金融、房地产、教育、航天航空、IT互联网、媒体出版、零售电商、运输、通讯、政府机关和公益组织等更为突出(如图4所示)。不同行业的内容管理应用涉及到的软件系统组合各有侧重和特色,接下来针对部分典型行业进行介绍。

图4内容管理行业全景图

5.2.1制造行业内容管理应用

中国是世界工厂,需要实现全球化接轨并通过数字化转型以支撑制造业的深层次发展。在这一进程中,制造行业必须解决海量业务中非结构化数据的高速互通、全球供应链的文档数据统一存储及一致性要求、快速扩展的员工协作要求、全生命周期的质量体系管控、技术及体系文件的外发协作、跨区域及体系的研发协作、数据安全与合规性保证、统一数据保证业务连贯性、随需的业务访问请求及多系统整合等问题,才能有效应对企业内容管理带来的挑战。

因此,制造行业内容管理在底层架构层面需要以PB级存储为支撑,并且进行多数据中心部署、集团化架构、多站点部署、跨国部署、多系统集成、全球加速和实时数据同步。应用层面涵盖:文档管理系统、ISO质量体系文件管理、文件档案一体化管理、研发文档安全防扩散管理、文档外发交换管理、知识管理、纸质文件捕获管理、图文档管理等。通过这些内容管理应用连接起企业各个部门,实现制造升级和智能制造,如图5所示。

图5制造行业内容管理应用

5.2.2制药行业内容管理应用

制药行业内容管理整合了文档管理系统、质量管理平台、资源计划管理、实验室信息管理平台、生产执行系统、记录管理系统、培训管理、档案管理系统等,共同构成全面的质量管理体系。规范体系文件的无纸化生命周期过程,提供涵盖文档、记录、档案及培训等全业务过程的制药管理应用,建立集中、安全的文件管理以及可追溯体系,同时借助系统实现业务数据的采集和分析,如图6所示。

图6制药行业内容管理应用

5.2.3军工行业内容管理应用

军工行业负责国家武器装备的科研、生产和配套等工作,对数据保密性、安全性具有非常高的要求。军工行业承接大量的以国防建设、军事工业发展为目的的各类项目,项目过程中的项目数据、办公数据、终端数据、业务数据和测试数据等内容需要加以管理和利用。完整的军工行业内容管理应用体系是以电子文档管理为基础,并在电子文档管理系统中通过分权管理体系、密级管控模块、智能定密模块、文件不落地模块等保障数据的安全和保密;在电子文档管理基础上结合网间文件安全交换,保障数据流转和使用过程中的安全。在上层通过项目文档管理应用进行项目过程及内容管理;通过质量体系文件管理应用对武器装备制造环节的质量进行严格规范地管控;通过文件档案一体化应用和知识管理应用将数据结构化和体系化,挖掘数据价值促进产品改良和组织创新,如图7所示。

图7军工行业内容管理应用

5.2.4金融行业内容管理应用

金融行业拥有大量的产品信息、CIF信息、CRM信息、合同资料、员工资料、财务报告等非结构化数据,这些数据作为企业资产需要进行体系化管理。金融行业的网络架构以生产网、办公网、互联网分级网络进行管理,同时根据国家档案局2015年通过并施行的《金融企业业务档案管理规定》要求,金融行业需要对自身业务办理及活动中形成的各种电子文件和档案记录进行统一规范的管理和应用。

较为典型的金融行业内容管理底层以非结构化数据中台作为数据存储中心和基础平台,在非结构化数据中台的基础上搭载安全网盘应用、文件安全交换应用、影像管理应用和知识管理应用等。其中,文件安全交换应用解决金融企业多级隔离网络间的数据交换和摆渡需求;影像管理应用通过扫描仪捕获业务单据凭证等影像资料并基于文字识别模块进行数据抽取和业务流转;知识管理应用通过挖掘企业存量数据资产和分析外部市场环境促进金融体制或金融工具的创新。办公网或互联网用户通过VDI安全云桌面接入方式进行网盘数据资源访问,保障云端数据不外泄。同时从风险评估、风险控制、运行监控和应急恢复方面进行全方位的风险预警和处理,如图8所示。

图8金融行业内容管理应用内容管理系统与文件档案管理系统的发展

6.1内容管理系统的发展过程

随着计算机技术的普及,办公自动化的推行,非结构化数据日益增加,国内外内容管理加速发展。国际上,1990年,Documentum公司成立,成为第一家利用标准关系型数据库技术以及面向对象方法提供企业级文档管理解决方案的公司;2000年左右,以电子商务和电子政务为代表的门户网站的发展带来了网页内容的指数级增长,促进了网页内容管理的成熟与发展;2002年Documentum正式发布ECM产品;2006年,SharepointPortalServer发布;2010年,OpenText发布;2010年后,云计算、移动互联网、大数据等新技术改变了ECM的形式与内容,ECM的内涵与外延不断更新。

国内来看,2002年起,航空、核电和工程领域的国家ECM一线厂商开始进入我国,首先在这些行业内掀起ECM潮流;2008年,上海鸿翼软件技术股份有限公司发布国内首款完整ECM产品“鸿翼15edoc2ECM”;2009年拓尔思信息技术股份在金融和政府领域推出WCM产品;2010年信雅达系统工程股份有限公司在金融领域推出ECM影像管理产品;2016年之后,应用层的网盘和功能更全面的ECM出现,ECM系统中的文档协同和服务能力不断提升;2017年开始,人工智能(AI)在ECM系统中的逐渐显现,例如利用AI实现元数据自动化提取等(如图9所示)。

6.2内容管理系统的发展阶段

图10内容管理系统四阶段进阶模型

(3)数字业务阶段。此阶段,行业数据经过不同维度的整理、提炼,围绕业务的垂直领域性、体系性进行立体式关联与聚合,形成了行业性的知识体系,对企业迅速应对市场变化和进行业务创新进行支持。(4)智能服务阶段。此阶段通过深度学习,自然语言处理(NLP)、知识图谱等技术对海量数据进行深度整理,能够立足业务场景提供内容智能化服务,为机构降本增效、决策制定提供支持。

表1内容管理系统四阶段特征

6.3文件档案管理系统的发展

文件档案管理系统既可能是一个单独的内容管理应用系统,也可能是企业内容管理平台的应用,还可能是某些内容管理软件的部分功能。20世纪80年代,很多机构开发了辅助纸质文档管理的早期文档管理系统,主要用于档案目录信息的集成、检索与统计等;90年代,办公自动化进程加快驱动电子文件管理系统的出现与发展,功能聚焦在电子文件的捕获归档、存储、长期保存和检索等。到21世纪初,文件档案管理系统已经成为信息化程度较高或知识密集型企业的必备系统,数字档案馆概念兴起,传统纸质文档的数字化、元数据著录以及长期保存等问题成为这一阶段旨在解决的主要问题。

2010年之后信息技术在业务领域的深入应用将电子文件、档案管理系统建设推向纵深化,面向电子文件单轨运行和电子档案单套保存的试点系统不断出现,以民生档案跨馆出证为代表的跨机构、跨区域的档案数据整合服务应用不断普及。2020年《新档案法》发布,电子文件单轨制管理走向合法合规,电子文件管理系统与业务系统的无缝挂接成为必然趋势。同时,随着文档资源管理与开发能力的提升,以用户为中心、面向内容和知识的文档管理系统成为新的趋势,更加强调对文档全生命周期的管理以及基于文档管理的内容共享与知识服务。

7文件档案与内容管理的应用问题

7.1IT视角下的应用问题

7.1.1业务系统核心文件“烟囱割裂”

为了高效完成业务推进,机构业务会不断细分,伴随业务细分而来的是每个环节的业务单元都在逐步数字化和系统化。在系统的使用过程中,核心的业务系统文件被分散在各个业务系统中的,每个业务系统的数据体系也会愈发复杂和深化,形成一个个高耸林立的数据“烟囱”,各个“烟囱”之间没有搭建互通的桥梁,机构数据体系在这种架构下,呈现出割裂的“烟囱群”情形。“烟囱割裂”式的业务系统给文档管理带来巨大挑战。每个业务系统的数据体系都异常复杂和庞大,离散在各个细分业务系统中的文档数据变得不可知、不可控、不可取、不可联和不可信。

7.1.2离散过程文件难以统一存储

组织的过程文件一般都离散存储于在各种文件服务器、邮件系统、个人电脑、运行设备和文件柜中,其涵盖了围绕机构业务活动产生的各种往来邮件、Office文档、会议纪要、设计图纸、音视频文件等。由于其形成环节众多,过程文件往往分布广泛且脱离控制,加之体量庞大,造成了离散过程文件的采集汇聚极为困难。

7.1.3海量数据带来存储扩展和安全问题

据IDC预测每年全球数据的增长量约为40%。随着互联网、移动互联网、物联网技术的发展,数据产生途径已延伸至更广泛的用户群体、各种机器设备和多样化的现实世界。海量数据在不间断产生,业务连续性对存储动态扩展的要求,加上勒索蠕虫病毒的越发猖狂等,都给文档管理带来了严峻的存储和安全挑战。

7.1.4多分支机构对部署架构挑战

多分支机构对文件档案管理系统的部署架构带来多方面挑战。第一个挑战就是多分支机构和庞大的用户群给系统架构带来的高并发压力。第二个挑战是在不同安全等级的分支机构间如何快速实现数据摆渡和高效地传递利用。第三个挑战是如何满足全球各地的分支机构都可以快速、低延迟地进行文件档案资源访问和利用。

7.2业务视角下的应用问题

7.2.1用户很难发现想要的文件档案

用户获取文件档案资源一般路径是从分类目录逐层进入发现、元数据检索、内容检索等。然而,文档分类规则往往并不严格和规范,欠缺业务传导途径。元数据也只是涉及非常有限的业务信息,且元数据质量经常不可控,这些都大大限制了通过元数据进行内容发现的效果。而对于内容检索,普遍性存在搜不到、搜不准、搜不完整等问题。

7.2.2业务文件不能及时、完整归档

各种业务系统会产生大量的文件需要统一管理。但是在业务系统与文件档案管理系统对接的过程中,往往由于档案策略没有前置、与业务系统整合难度大、整合技术能力有限、业务人员与档案管理人员缺乏有效沟通等问题,造成业务文件不能及时、完整地归档。

7.2.3文件档案未形成体系化知识

文件档案是机构在业务运营过程中形成和沉淀的显性知识,是数据中最宝贵、最有价值的部分。然而,在机构开展知识组织、知识挖掘过程中,往往过度重视人与隐形知识挖掘的重要性,而忽视了文件档案显性知识的价值创造。另外,文件档案管理系统与业务系统进行集成整合程度较低,文件数据难汇聚一起;加上非结构化数据开发与挖掘的技术手段有限,导致文件档案知识化效果较差。

7.2.4文件档案与业务融合不足

文件档案数据及其服务未能嵌入至具体应用场景中,未能成为有效而全面的业务支持数据,更没有形成文件档案驱动业务的管理理念。文件档案与业务融合的不足导致业务无法从文件档案数据中汲取知识资源以进行快速响应和业务决策。

7.2.5管理人员综合能力依然欠缺

7.3数据视角下的文档档案应用问题

7.3.1文件档案核心数字资产地位未被认可

7.3.2非结构化数据管理战略规划缺失

7.3.3内容数据化能力不足

非结构化的文件是一种组织无序、难分析的大颗粒度数据,且不同类型文件其数据组织、数据形成、数据呈现等都各不一样,从而造成了内容管理系统中的文件档案没有类似结构化数据的统一数据模型,也无法在其上层进行丰富的算术运算、逻辑分析和数据挖掘,更没有形成完善的技术生态体系。虽然基于元数据的著录、标引等都是内容数据化的基本手段,但都属于元数据应用的“浅层”状态;目前通过AI与图谱技术对文件档案可进行一定程度的内容结构化与内容关联,但仍处于培育与早期发展阶段,无法实现全面而深层的结构化。内容数据化能力不足是当前文件档案的利用开发不足、分析探索不够、安全管控不力的最关键原因。

7.3.4文件档案数据价值释放不够

本应是机构最具有价值的文件档案,却面临着“档案只是用于法规遵从的档案”、“数据中心建设与档案无关”、“档案人员与IT、数据人员的语言不通”等基础而又普遍存在的问题,造成多年来文件档案开发利用手段有限、能力不足,致使本属于高含金量的数据未得到应有的价值传递与释放。

8数据管理中的文件档案管理框架

图11数据管理中的文件档案管理框架

根据国内外文件档案管理标准以及DAMA数据管理框架,结合文件档案管理领域的实践进展,可总结提炼出文件档案管理框架,如图11所示。该框架自上而下包括四个部分,分别是价值实现层、文档治理层、管理活动层和技术实现层。

价值实现层是文档管理的价值目标和整体定位,是方向性的,处于最顶层;文档治理层涉及战略、职责、制度、沟通和监督等,是宏观层面的统筹考量;管理活动层既涉及文件档案生命周期中的流程性管理活动,也涉及贯穿全生命周期的管理活动,是微观层面的操作实施;技术实现层是支撑其他层次的基础和保障。图11中的箭头代表文档管理的动力,其中,左侧的箭头表示文档管理是需求引导、价值驱动的,右侧的箭头表示文档管理同时也是技术赋能、系统驱动的。

8.1价值实现层

8.2文档治理层

8.3管理活动层

管理活动层涉及两种类型的业务活动,一种是流程性的管理活动,包括生成、鉴定、捕获/归档、分类与索引、存储、使用和复用、长期保存、处置等。科学合理和高效有序的文档管理活动需要分类方案、归档范围、元数据方案、访问许可规则、保管期限与处置表等配套业务管理规则的支撑。

其中,生成是文档生命周期的第一个阶段,在此阶段中,文档通过创建或接收的方式得以积累,主要包括协作、创建、接收、流转、更改、分发、传输等。鉴定是指综合考虑法律、业务、社会、历史、文化等因素对文档的价值进行综合评估,判断其是否属于归档范围并划分保管期限的行为。归档(系统中的捕获)是指将业务活动中生成或接收到的数据对象作为文档及其元数据一起保存到文档管理系统中的过程,包括为文档分配唯一标识符、捕获或生成关于文档的元数据、建立文件与其他文件以及业务活动之间的关联。

元数据管理是有效开展文档管理工作、确保文档质量的关键。元数据包括文档元数据和文档管理元数据,涉及文档、业务、责任者、关系等不同类型的实体。管理的内容涉及元数据定义、元数据策略、元数据权限、元数据搜索、元数据视图和元数据分析等关键环节。质量管理需要从文档质量要求、文档质量策略、文档质量政策、文档质量标准、文档质量程序、文档质量实施规划等方面展开,围绕“计划-执行-检查-处理”的质量管理生命周期确保文档质量持续满足要求。

8.4技术实现层

9数据管理中文件档案与内容管理的发展趋势

9.1结构化数据和非结构化数据融合发展

结构化数据和非结构化数据都是组织机构的重要业务资产和关键生产要素。其中,非结构化数据已经成为数据治理体系中不可忽视的组成部分,在组织机构运转过程中发挥着不可替代的重要作用,亟待进行资产化管理。同时结构化数据和非结构化数据之间存在相互转化和互为补充的关系。

9.2文档管理和内容管理融合发展

文件档案管理是内容管理软件的重要功能,文档管理行业和内容管理行业密不可分,相互支撑、互为依靠,逐渐形成联动发展、互利共赢的良好生态。我国文档管理行业和内容管理行业之间的联系愈加紧密,文档管理行业逐渐成为内容管理行业的重要支撑。

两者融合发展主要表现在以下三个方面:一是目标和理念的融合。以往的文档管理侧重安全合规、业务连续、权益保障、记忆留存等,内容管理侧重支持决策、提效降本、创新发展、资产维护等,现在两者都被纳入数据管理体系中,将互相利用对方的优势,共同支撑组织机构的运作以及业务活动的高效有序开展。

二是组织和职能的融合。文档管理部门不再是居于后端的保管者,而是重新思考自身的职能和定位,一方面,参与机构整体的数据治理工作;另一方面,成为非结构化数据治理的责任部门,文档工作者成为“内容管事”,承担非结构化数据的统筹规划、全生命周期管控、数据质量保障、安全合规等职责。

三是技能和工具的融合。一方面,内容管理行业需要来自文档管理行业的支撑以及与之配套的管理理念和管理规则;另一方面,文档管理行业也需要与其需求相匹配的系统、平台、技术、工具,内容管理行业能够为其提供更为丰富多样的产品及信息化的集成化解决方案。

9.3文档管理和数字化业务融合发展

首先,从文档管理与业务活动的关联程度来看,国际标准化组织发布的文档管理核心标准(如ISO15489、23081、21946、26122等)确立了面向组织机构业务需求的以职能活动和业务流程分析为核心的方法体系,两者的融合程度逐步提高。组织机构实施文档管理的目标不再局限于文档本身的规范化和有序化,而是要更多地支撑、反馈和驱动业务活动。

一方面,文档管理“从业务中来”,即业务数据化。通过分析业务可形成数据资产清单,准确识别文档及其元数据,实现数据资产的实时登记和动态监测,将文档管理需求嵌入业务流程,实施嵌入式档案化管理,满足合规管理要求。

9.4文档管理基础建设和智能开发融合发展

文档和内容管理呈现出从简单的文档集中、协作办公、安全交换走向基于人工智能的智能开发的趋势,从数字化、数据化走向智能化,但需要指出的是,各阶段之间并不是直接替代的关系,而可能长期并存。未来的文档管理工作应该做到“两手抓”,一方面是文档管理基础建设,包括文档协作、文件归档、安全管理等方面。近年来,基于文档协作和共享的知识高效协同和文档全生命周期安全防控体系的市场需求呈上升趋势,成为文档管理的重要基础工作。

另一方面是基于文档的深度挖掘和分析,呈现出智能化乃至智慧化的趋势。文档管理应是语义层面的管理,基于人工智能,尤其是深度学习和知识图谱,实现洞察分析,同时融合应用云计算、大数据、区块链、5G等其他信息技术,共同赋能文档管理工作。具体来说,文档管理的智能应用场景将重点包括智能推荐、图谱探索、智能搜索、安全分析。总之,前面的文档管理基础建设是实现智能开发的前提和保障,后面的智能开发技术也可以反向推动基础工作的完善,实现文档管理基础建设和智能开发的融合发展。

以下是《数据管理中的文件档案与内容管理白皮书》PDF版,由鸿冀提供。

编写组

中国人民大学电子文件管理研究中心:刘越男杨建梁祁天娇何思源

THE END
1.数据分析是从大量的数据中通过算法搜索隐藏于其中信息的过程在数据分析的过程中,我们从大量的数据中发现有价值的信息。作为一名刚入行的小白,你需要掌握一系列的步骤和工具。本文将带你走过整个数据分析的过程,帮助你理解每个步骤的具体操作。 数据分析流程 我们可以将数据分析的过程划分为以下几个主要步骤: 步骤描述 1. 数据采集 收集所需的数据,包括结构化和非结构化数据。https://blog.51cto.com/u_16213353/12875055
2.关联分析:挖掘年度数据中的隐藏价值在当今数据驱动的时代,年度数据分析已成为企业战略规划与运营优化的核心环节。通过对海量数据的深入挖掘与分析,企业能够准确把握市场动态、用户行为、产品性能等多维度信息,进而制定更加精准有效的策略。本文将从数据收集、处理、分析到应用的全链条出发,探讨如何通过年度数据分析实现业务增长,以助力企业更好地解读数据,驱动https://zhuanlan.zhihu.com/p/12846398104
3.好书推荐《数据挖掘技巧》用通俗的话说,就是面临大量的数据,使用数据挖掘工具“探勘”一遍之前,审计人员不一定有明确的目标,挖掘出来的结果也不一定在审计人员的预料之中。数据挖掘作为一种新的计算机审计方法,能够辅助审计人员发现疑点,为数据式审计提供一个重要的应用途径。本书介绍了审计实践中已经https://mp.weixin.qq.com/s?__biz=MzU0ODk2NjA0Nw==&mid=2247509056&idx=3&sn=efa3fad8b2f29bc4520c0acc7354b793&chksm=fbb5ffb0ccc276a6cbbf6d12458f702a0a731627617b65747658b89c3bbcd90cde9b3f9a9192&scene=27
4.非结构化数据的分析与挖掘非结构化数据的分析与挖掘 案例1 词频统计 # 导入库importre# 正则表达式库importcollections# 词频统计库importnumpyasnp# numpy库importjieba# 结巴分词importwordcloud# 词云展示库fromPILimportImage# 图像处理库importmatplotlib.pyplotasplt# 图像展示库# 读取文本文件withopen('article1.txt')asfn:string_data=fnhttps://blog.csdn.net/qq_31139389/article/details/107882676
5.非结构化数据如何挖掘帆软数字化转型知识库非结构化数据如何挖掘 非结构化数据的挖掘可以通过多种方法实现,包括自然语言处理(NLP)、机器学习、文本挖掘、图像和视频分析。自然语言处理是一种广泛应用的方法,通过分析和理解文本数据的语义结构来提取有用的信息。NLP可以帮助企业从大量的文本数据中获取有价值的洞察,例如用户评论、社交媒体帖子和电子邮件。通过使用https://www.fanruan.com/blog/article/611442/
6.文本挖掘与非结构化数据分析通过OpenText Intelligent Classification 获取洞察力!由人工智能驱动的文本挖掘和非结构化数据分析,帮助您做出更明智的决策,发现隐藏的价值。https://www.opentext.com/zh-cn/products/magellan-text-mining
7.以数据分析数据挖掘与图像检索为中心2005年,李铎先生即敏锐指出信息技术在人文学科的应用方面已经进入了“分析时代”,此说确然。十年后的今天,社会已然进入了以大数据、云计算为代表的“挖掘时代”。对结构化文本的数据分析、对非结构化文本的数据挖掘,是文本研究领域的发展方向。随着多媒体检索技术的发展,对图像、声音、视频等进行检索成为IT界的热点。http://www.sass.cn/109002/30207.aspx
8.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了两种新的决策树框架LDATree和FoLDTree,它们结合了不相关线性判别分析(ULDA)和前向ULDA。这些方法能够高效地进行斜切分,处理缺失值,支持特征选择,并提供类标签和概率作为模型输出。通过在模拟和真实数据集上的评估,LDATree和FoLDTree在准确率上与随机森林相当,显示出作为传统单树方法的稳健替代方案的潜力。 https://www.bilibili.com/read/cv40067807
9.结构化数据vs非结构化数据但是,在对结构化数据进行分析的简便性与对非结构化数据进行更具挑战性的分析之间,存在着越来越大的压力。结构化数据分析是一种成熟的过程和技术。非结构化数据分析是一个新兴行业,在研发方面投入了大量新资金,但并不是一项成熟的技术。公司内部的结构化数据与非结构化数据的问题正在决定公司是否应该对非结构化数据的https://www.jianshu.com/p/1ae5d687092e
10.干货!非结构化数据分析的10个步骤腾讯云开发者社区如今,数据分析正在成为企业发展过程中的重要组成部分。企业必须对结构化和非结构化数据有所了解,才能更好地为业务发展做出正确决策。本文将详细介绍企业分析非结构化数据的10个步骤: 1.确定一个数据源 了解有利于小型企业的数据来源非常重要。企业可以使用一个或多个数据源来收集与其业务相关的信息。而从随机数据源收集https://cloud.tencent.com/developer/article/1008189
11.你知道非结构化数据分析是如何进行数据采集吗非结构化数据分析的采集在很多知识库系统中,需要从PDF、Word、Rtf、Excel和PowerPoint等格式的文档中提取可以描述文档的文字,为了查询大量积累下来的文档,这些描述性的信息包括文档主要内容、标题、作者等等。这样一个过程就是非结构化数据的采集过程,非结构化数据的采集是信息进一步处理的基础。针对不同格式的文档,所用https://www.yun88.com/news/1166.html
12.大数据基础术语精粹来袭结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。 http://www.mudan.gov.cn/2c908084831c4eb30183205259ac001f/2c908084831c4eb3018320df837d0020/1669185201282129920.html
13.结构化数据vs.非结构化数据基础设施CIO时代网结构化数据与非结构化数据:有什么区别? 除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。 https://www.ciotimes.com/Infrastructure/147367.html
14.非结构化数据挖掘和分析研究非结构化数据挖掘和分析研究 在数字化时代,数据已经成为企业和组织最为重要的资产之一。每天,我们都会产生海量的数据,包括文本、图像、音频和视频等各种形式,这些数据被称为非结构化数据。相对于结构化数据,如数据库或表格形式的数据,非结构化数据难以被处理和分析。但是,挖掘和利用非结构化数据对于企业和组织的创新https://wenku.baidu.com/view/71d9c264a11614791711cc7931b765ce04087a0c.html
15.能源数据分析报告(精选5篇)项目测试采用模块化,具有选择性的结构,其内容包含了光伏发电的质量,低电压穿越,传输功率的特性,防孤岛检测功能,频率的波动等。1、检测电能的质量时通过质量分析仪采集电站的电能信息,并通过无线传输把采集到的数据信息传送至集成检测系统,在集成检测系统中进行数据处理。2、对于低压穿越装置的检测,由集成检测系统指令,https://www.1mishu.com/haowen/101242.html
16.浅析Facebook对大数据的分析和利用建站经验网站运营连对技术一窍不通的资本人,已经注意到Facebook大数据结构中“海量数据+复杂数据类型”,非结构化数据等典型问题。事实上,这还没有涉及Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多基础性问题。 大数据大致的技术过程,是先以SNS、搜索引擎、POS机等采集器,将海量数据采集进数据仓库中,https://www.jb51.net/yunying/423026.html
17.什么是文本挖掘?IBM这种做法评估结构化和非结构化数据,以发现新信息,通常用于分析营销和销售领域的消费者行为。 文本挖掘本质上是数据挖掘的一个子领域,因为它专注于为非结构化数据赋予结构,并对其进行分析以产生全新洞察。 上面提到的方法都是不同形式的数据挖掘,但属于文本数据分析的范围。 https://www.ibm.com/cn-zh/topics/text-mining
18.数据挖掘论文一、数据挖掘概述 (一)数据挖掘技术。数据挖掘是指从大量的、不规则、乱序的数据中,进行分析归纳,得到隐藏的,未知的,但同时又含有较大价值的信息和知识。它主要对确定目标的有关信息,使用自动化和统计学等方法对信息进行预测、偏差分析和关联分析等,从而得到合理的结论。在档案管理中使用数据挖掘技术,能够充分地发挥https://www.unjs.com/lunwen/f/20220924130749_5650839.html
19.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
20.以虎嗅网4W+文章的文本挖掘为例,展现数据分析的一整套流程机器(2)通过文本分析,对互联网行业的一些人、企业和细分领域进行趣味性的分析; (3)展现文本挖掘在数据分析领域的实用价值; (4)将杂芜无序的结构化数据和非结构化数据进行可视化,展现数据之美。 1.3分析方法---分析工具和分析类型 本文中,笔者使用的数据分析工具如下: https://www.jiqizhixin.com/articles/2018-12-20-18
21.知识图谱:知识图谱的典型应用四、知识抽取与挖掘 4.1知识抽取基本问题 a.实体识别 b.关系抽取 c.事件抽取 4.2数据采集和获取 4.3面向结构化数据的知识抽取 a.D2RQb.R2RML 4.4面向半结构化数据的知识抽取 a.基于正则表达式的方法b.基于包装器的方法 4.5.面向非结构化数据的知识抽取 https://www.elecfans.com/d/1906523.html
22.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·提供开放的元数据管理 API,供报表管理系统、财务总账系统等业务系统集成整合听,TA说 AnyShare 率先推出内容数据湖,为海量非结构化数据提供存储、编目、标签、摘要、检索能力,采用全集群和即时分析架构,提供强大的数据分析能力。 产品运营负责人Tank预约体验 立即咨询 查看更多特性 关于https://www.aishu.cn/cn/feature/content-lake
23.非结构化数据中心结构化数据与非结构化数据非结构化数据中心 内容精选 换一换 数据备份归档在哪里_数据分析存储系统_大数据存储管理 对象存储数据备份归档应用场景 场景描述 OBS 提供高并发、高可靠、低时延、低成本的海量存储系统,满足各种企业应用、数据库和非结构化数据的备份归档需求。 企业数据中心的各类数据通过使用同步客户端(如OBS Browser+、obsutilhttps://www.huaweicloud.com/theme/103294-3-F
24.大数据技术原理与应用期末复习知识点全总结(林子雨版2.数据存储和管理层面 功能:利用分布式文件系统、数据仓库、关系数据库、NoSQL 数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 3.数据处理与分析层面 功能:利用分布或并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好https://developer.aliyun.com/article/1418435