在大数据技术和人工智能技术已经把我国社会推向智慧社会或智能化社会的今天,在大多数档案馆(室)正在大力开展档案数字化,一部分档案馆(室)已被认证为数字档案馆(室)的新形势下,我国档案馆(室)建设的新方向或新目标是什么?我认为是智慧档案馆(室)。
一、什么是智慧档案馆(室)
我这里所说的智慧档案馆(室),同之前很多人所说的智慧档案馆(室),在概念上、内涵上及侧重点上,都是不同的。
我所说的智慧档案馆(室),首先应该把档案或档案数字化图像的内容全文输入电脑,即把档案全部“数据化”,让档案内容全都变成可被电脑全文检索、任意组合、全部关联、重新生成、主动推送的数据,使档案里所包含的智慧,经过电脑处理,成为人类智慧的一部分,成为人的外脑;其次,它也能对档案实体、档案装具、档案环境、档案人流、档案工作各环节等进行智能化、自动化、联动化的管理。它所侧重的是档案内容的智慧性摄取或智慧管理、知识管理。智慧档案馆是继传统档案馆(室)及数字档案馆(室)之后的第三代档案馆(室),是档案馆(室)的3.0版。它可以说是目前已建设了20多年的数字档案馆(室)的升级版,也可以说是已开展了30多年的档案信息化的升级版。
从智慧和信息的区别来看,信息基本相当于数据。数据的含义是进行各种统计、计算、科学研究和技术设计所依据的数值,是事实或观察的结果,是用于表示客观事物的未经加工的原始素材,并被认为是信息的表现形式和载体。所以,数据基本上跟信息是一样的东西。随着大数据技术的出现,现在数据一词很流行,几乎和信息一词在20世纪80年代的流行程度一样。彼时是无事物无信息,现今则是无事物无数据;彼时是信息一词泛化,而现今又是数据一词泛化。
智慧档案馆(室)首先要把档案数据化或信息化。档案数据化是相对于之前的档案数字化而言的,是我在2019年的一次讲话中为了区别于此前人们常说的档案数字化而提出来的。其实,它的意思就是把纸质档案或纸质档案数字化图像中的每个字都转换成电脑可以处理的数据或信息,并输入电脑,进入数据库,供人们通过大数据技术进行挖掘和处理。数据是智慧档案馆(室)的基础。没有数据,特别是没有档案内容的所有数据,就不能把数据或信息变成智慧。也可以说,智慧档案馆(室)是基于数据的,有了数据和各种数据处理技术,才有智慧档案馆(室)。所以,没有数据就谈不上建设智慧档案馆(室)。
智慧档案馆(室)的数据应包括电脑可检索的档案全文数据,即:信息流数据;档案实体、档案装具、档案设备等方面的数据,即物流数据;档案工作者、档案利用者、档案参观者等方面的数据,即人流数据;档案库房温度、湿度及各种有毒有害气体浓度,水、火、菌、虫、鼠等各种环境或条件的数据,即环境数据。也就是说,“智慧档案馆(室)的数据=档案全文数据+物流数据+人流数据+环境数据”。在这些数据中,档案全文数据是最关键、最重要、最根本、具有决定性的部分。建设智慧档案馆(室),最重要的是运用各种手段尽快地把纸质档案和纸质档案数字化图像及录音录像档案等全部转化为电脑可以检索的电子文档,把档案里的前人智慧挖掘出来,转化为今人的智慧,这就是档案数据化,即档案的数据转化工作。档案数据化是智慧档案馆(室)建设的要义和核心。
为什么说在智慧档案馆(室)中档案全文数据和数据挖掘及主动推送技术缺一不可呢?因为只有数据的档案馆(室)还不能称为智慧档案馆(室),也还不是真正的智慧档案馆(室)。数据只
二、为什么现在要建设智慧档案馆(室)
我们为什么现在要迫切地提出建设智慧档案馆(室)呢?因为现在有着5个方面的有利条件和现实基础。
1.智慧社会的到来,为智慧档案馆(室)建设营造了外部环境
“智慧社会”的提法,最早源于IBM在2008年11月提出的“智慧地球”的概念,2009年时任美国总统奥巴马运用了这个提法后,这个概念迅速蹿红。它包括三个要素,即物联化、互联化、智能化。这个概念提出后,很多城市又提出了“智慧城市”的概念,并开始了智慧城市的建设和评选,我国的许多城市就在积极地建设智慧型城市。2019年我在雄安看到了无人驾驶汽车、无人酒店、无人超市等,切切实实地感受到了智慧城市的雏形。伴随着智慧城市的还有智慧小区、智慧楼宇、智慧家居等。此外,智慧教育、智慧交通、智慧医疗、智慧司法、智慧旅游、智慧人文、智慧物流等也已经扑面而来,各行各业、方方面面都在以智慧为引领,推进智能化建设。正是在此基础上,党的十九大提出了“智慧社会”这一新的理念,智慧社会的到来为智慧档案馆(室)建设营造了很好的社会环境,同时也增添了现实的迫切性。
2.人工智能和数据挖掘推送为智慧档案馆(室)提供了关键技术
(1)先看人工智能技术
最近几年我们先后看到,“阿尔法狗”这款智能人工软件,先是在2017年以4:1战胜了前世界围棋第一人李世石九段。这是人工智能研究的一个标志性成就和里程碑式事件。之后,它又在2018年击败了史上最年轻的“五冠王”、中国围棋九段职业棋手柯洁,再次显示了人工智能的威力。紧接着,在中央电视台“中国诗词大会”节目中出现了一款输入了几万首诗词的机器人,与诗词高手们同台竞赛,主持人任意出一个诗题,机器人都能根据题意写出诗来,而且水平不亚于人类,与同台选手的写诗水平难分伯仲。同样在2018年,我国应用了机器人播音。它能模仿任何人进行播音,只要把某人的声音和影像资料输进去,它就能模仿这个人进行播音,其动作、表情、声音都惟妙惟肖。现在,科大讯飞可以根据声纹来让机器人模仿任何人的声音,只要输入不到一分钟的真人声音,机器人即可模仿出可以乱真的模拟声音。
2019年11月,司法部在南京召开有关“智慧司法”的会议,重庆市司法局展示了法律服务智能机器人“大牛”,它的服务速度和准确度已多次战胜人类律师。最近我在参观科大讯飞时得知,他们研制的智能机器人参加律师资格考试,竟然胜过90%以上的人类考生;智能机器人教师能够批改考试卷,并且比人类教师批改得更加客观公正,其评分一致率在中考试卷评分中普遍高于人类教师5%左右,在高考试卷评分中普遍高于人类教师10%左右;智能机器人医生的诊断水平也高于很多人类医生,因而被推荐到全国很多基层医院做医生助手使用。
由上可见,人工智能技术的发展,已使得机器人不但具有“智慧”,而且具有高于人类平均水平或高于普通人的“智慧”。以前,我们以为机器人只能干体力活,不能干智力活,但现在人工智能技术的发展,已经打破我们的这个认识。
(2)再看数据挖掘推送技术
定向推送技术最知名的应用是所谓“俄罗斯干预美国大选”。据说俄罗斯运用定向推送技术,向美国各种不同的人群,定向地、主动地推送美国总统候选人有关信息,对选民进行“洗脑”和引导,影响选民对候选人的好恶。
由上可见,数据挖掘与推送技术发展得也出乎想象地快,应用得也出乎意料地普遍。今天,可能我们一不小心就会被别人“定向推送”,并加以左右甚至成功“洗脑”了。
人工智能技术也好,数据挖掘推送技术也好,都是把数据变成智慧的技术。这些技术的应用和发展,为建设智慧档案馆(室)提供了关键性的技术,让智慧档案馆(室)不再是一个空话或标签,而是能够变成现实、得以实现、成为实际。在它们没有出现的时候,人们讲智慧档案馆(室),只能是表面的、浅层次的、名义上的,甚至是误读的,而当它们出现以后,建设智慧档案馆(室)就可以名副其实了,可以建成实质意义上的智慧档案馆(室)。这些技术的出现,是我这两年开始提出建设智慧档案馆(室)的一个重要主因。
3.信息识别转化为智慧档案馆(室)建设提供了技术手段
以前,传统的纸质和声像档案要转化为电脑可检索的数据,实现手段只有一个—人工输入电脑。尽管有汉语拼音输入、笔画输入、手写输入等方法,但输入速度都比较慢。之后,又不断地发展出一些新的信息识别转化技术。
(1)OCR识别技术
目前只能用于印刷体或手写特别工整的文字,其识别率可达99%以上。一页印刷的或手写工整的档案扫描进电脑,通过软件即可把它转化成电脑可以检索的文字。前提是档案页面要整洁,没有凌乱的笔画,否则识别率就会降低。
(2)手写字扫描识别技术
为了解决OCR技术识别不了手写档案的问题,人们又专门研究出手写字的扫描识别技术。据我所知,科大讯飞的扫描识别技术在识别民国档案上的繁体手写字时,准确率已可达80%以上。银雁科技的简体手写字识别技术的准确率也能达90%左右。前几年,中国科学院自动化研究所的扫描识别技术在扫描识别快递上的简体手写字时,准确率已可达95%以上。随着扫描识别的不断积累,识别率肯定还会继续地不断提高,将来一定能达到目前OCR对印刷体字的识别水平。
(3)声音转化文字技术
也就是通过人来读档案,机器再把人的声音转化成文字。只要读音准确,机器基本能“听声出字”,准确率也很高,它的速度是电脑手工输入的一倍以上。前不久,我在科大讯飞目睹了一场“嘴”和“手”的比赛:国内一些数字化公司的录入快手之间先进行比赛,产生的冠军再与讯飞的声音录入员比赛,结果“人嘴”完胜了“人手”,声音转化文字的速度大大快于计算机手工录入文字的速度。
(4)人脸识别技术
主要是根据人的面部特征,把照片、录像中的人物识别出是谁来。
智慧档案馆(室)建设,关键在于建立档案全文数据;建立档案全文数据,关键又在于把档案里电脑不能检索的文字、声音、图像,转化成可检索的数据。当有了以上这些途径的识别转化技术以后,档案数据化就不再是不可能的了,而是变成完全可能了。这些技术的应用和发展,也是我在今天提出建设智慧档案馆(室)的又一个主要原因。
4.档案行业对建设智慧档案馆(室)有了更高的积极性,使智慧档案馆(室)建设有了实现主体
从档案部门来说,有些档案室十几年前就通过手工录入的方法,对档案进行了“数据化”,把档案中的所有文字转化成了电脑可以检索的数据。只可惜那时尚无数据挖掘技术,因而未对这些数据进行智慧性开发、关联性挖掘和自主式推送。2014年以来,浙江省和其他一些地方的档案馆(室)在数字档案馆(室)的基础上,对档案实体、档案保管条件等方面进行智能化、自动化管理,进行了他们所自定义的智慧档案馆(室)建设。
档案馆(室)的积极性会带动起档案服务企业的积极性和创造性。因为档案馆(室)有建设智慧档案的积极性,则会产生智慧档案的需求;智慧档案的需求,则会引发档案服务企业产生积极性,引导企业的技术和人力向这个方面发展、向这个方向投入。档案馆(室)是需方,他们有需求,但缺技术、缺人力;档案服务企业是供方,他们有技术、有人力,但缺市场、缺用武之地。现在,需方和供方这双方都产生了并且双方都有积极性,就可以自然结合、互利共赢。他们的结合,可以很快让智慧档案变成现实,让智慧档案馆(室)建设起步、起飞。他们的积极性,让我看到了智慧档案馆(室)建设的可行性和现实性。
5.在推进纸质档案数字化的过程中,不厘清思路将造成人力和财力的浪费
以上这些,都为智慧档案馆(室)建设提供了各方面的条件,使智慧档案馆(室)建设具有了现实的可行性,也有了实际的可操作性,甚至还有了紧迫性。因为“智慧化”是目前的大势所趋,已不得不行。因此,智慧档案应该是我国档案馆(室)建设和档案事业发展的新方向、新目标、新任务、新出路。
三、怎样建设智慧档案馆(室)
1.切实转变思想观念
转变思想观念是建设智慧档案馆(室)的第一步,没有这一步就不可能建设智慧档案馆(室)。转变思想观念主要是要树立以下几种新观念:
(1)树立数据越多越智慧的观念
这是一种全新的思想观念,是和我们过去的传统观念完全不同的新观念。因为在有了数据处理技术后,数据越多就越接近事物的原貌和全貌,智能机器人就越智慧、越聪明,回答的问题和给出的方案就越准确、越精确。比如,拥有1亿个用户的导航系统,肯定比只有1000万个用户的导航系统更准确;存有10万首诗的机器人,肯定比只存有1万首诗的机器人更会作诗;存有100年气象档案的机器人,肯定比只存有10年气象档案的机器人预报天气更准确。这就说明,数据越多越智慧。
(2)树立数据就是财富的观念
(3)树立数据都是档案的观念
由于数据都是记录,而记录就是档案,所以,数据也是档案。档案工作者必须尽早地认识到数据都是档案,尽早地把数据看作档案,并把数据当作档案去收集、去管理、去服务。这样,档案馆(室)才能不丧失数据并拥有数据,档案部门才能不被数据部门所取代。否则,档案馆(室)将失去最大量、最重要的档案资源—数据,档案工作和档案部门也将逐步被数据工作、数据部门所覆盖并取代。
(4)树立“数据=档案=财富”的观念
既然上面我已说到两个等式:“数据=财富”“数据=档案”,那么我们也可以推导出第三个等式:“档案=财富”,并可以把这三者画等号,得出“数据=档案=财富”的结论。在大数据时代、智能化时代、智慧时代,档案工作者一定要树立“数据=档案=财富”的新观念,不要再认为数据不是档案,也不要认为数据和档案不是财富。否则,档案数据化和智慧档案馆(室)建设就缺少了理论依据和精神动力,就会增加认识上和行动上的阻力。
(5)树立合作开展档案数据化和数据挖掘的观念
2.及时收集新形成的档案数据
3.积极开展非电子档案的数据化工作
目前,在绝大多数档案馆(室)中,纸质档案和音像档案这些非电子档案普遍都没有开展数据化工作,即电脑可处理文字的转化工作。而这是建设智慧档案馆(室)的前提和关键,也是工作量最大的一项工作,是最实的一招。各个档案馆(室)都要以最坚定的信心、最大的力量去完成这项工作。
(1)纸质档案或其数字化图像数据化
已开放档案可以先搞数据化,因为它可以外包给档案数据化企业去做。涉密档案可以先不搞数据化,有特殊需要的可采购设备,用自己人去搞。纸质档案数据化,可以各种技术并用,可用OCR识别技术转化的,则用OCR识别技术转化成数据,因为它速度最快,成本也最低。不能用OCR识别的,还可用其他技术和方法去转化,一种是手写字识别技术,即把手写档案扫描进电脑,电脑通过软件识别成它可处理的文字;另一种是声音转化技术,即由人把手写档案中的每个字读出准确的读音来,设备通过声音转化成文字即电脑可处理的数据;再一种是电脑手工录入技术,即由录入员把档案上的文字通过拼音或字码录入电脑,转化成文字。以上这4种方法,档案馆(室)可以根据自己的档案情况和经费情况等,或单独运用,或联合使用,或多种并用。只要咬定青山不放松,用钉钉子的精神,一年接着一年干,坚持数年,必有大成。
(2)音像档案数据化
就是把录音、录像档案中的声音通过声音识别转化技术或软件,全部自动地转化成文字即电脑可处理的数据,并把它导入数据库。这样,音像档案中的所有声音内容就可以全部数据化了。这项技术不但可以把音像档案中的文字全部转化为数据,让它成为人类智慧的一部分,而且还可以通过声音识别并找出数据库中某个人的所有声音。现在,很多年代久远的音像档案中有些声音已不知道发言者是谁了,但只要有一份音像档案知道是谁的,设备就可以根据这个已知人的声音,把他的其他音像档案都识别出来,让人们知道那些也是这个人讲的。并且设备还可以根据文字找到声音在档案中的位置,利用者通过文字即数据内容可随即听到某段声音或看到某段录像。
(3)照片、录像档案中的人物数据化
通过这几方面工作,纸质档案、音像档案、照片档案中的信息就可以完成数据化,并进入相应的大数据库,成为被电脑所挖掘和推送的数据,成为智慧档案馆(室)的源头和储备。数据储备越多,档案馆(室)就越智慧、越有价值。
4.广泛收集数据
建设智慧档案馆(室),数据是基础。各个档案馆(室)要运用各种数据自动收集技术,广泛收集各种数据。
(1)收集档案内容数据
也就是档案的全文数据。要运用各种技术,把纸质档案、照片档案、音像档案中能够转化的,全部转化为电脑可处理的数据,并把它们同电子档案数据汇合在一起,建立起档案全文数据库。这是基础,是重点,是最要紧、最关键的数据。收集得越早越好,收集得越广泛、越齐全越好。除档案外,报纸、杂志、内部出版物等资料的数据将来也可收集进来,它们对档案数据也是重要的补充。
(2)档案实体数据
即档案的编号、数量、位置、被移动情况、被利用情况、损坏或修复情况等方面的数据。在智慧档案馆(室)里,档案实体是基本不动的,对它的监控不需要太复杂,主要记录它的位置、数量、动用等就可以了。
(3)档案环境数据
即档案库房的温湿度、有毒有害气体浓度、灰尘浓度、烟雾浓度等数据。这些数据,各地可以因地制宜,主要收集有损档案安全的主要数据。比如,一些温湿度变化不足以影响档案安全的地区,就无需建立温度和湿度的数据。
(4)人流数据
包括档案工作者人数、档案利用者人数、档案参观者人数、工作交流者人数,以及他们的位置等。
(5)其他数据
比如,档案装具的数量及位置,库房的数量及位置,工作用房和技术用房的数量及位置,档案设施设备的数量、位置、年限等。
档案馆(室)只有把各方面数据都收集齐全,才能根据这些数据进行智慧性管理。拥有以上这些数据后,通过利用大数据技术和物联网系统就可以实现档案馆(室)中的信息与电脑、人与电脑、物品或设备与电脑,以及信息与信息、人与人、物与物、人与信息、人与物、信息与物等等之间的互联互通、互感互知。
5.千方百计确保数据安全
有了数据,还要用各种方法保证数据的安全。因为,数据是智慧档案馆(室)的灵魂,数据一旦丢失,档案馆(室)就只剩下外壳。
(1)对全部数据在异地备份一套以上
数据都是电子的,电子数据的最大弱点是不安全因素很多,安全系数比较低,安全风险比较大。为了确保它的安全,就要对它全部进行异地备份,在几百公里以外的多处地方备份保存一套以上,从而确保特殊情况导致数据丢失后,能有备份数据顶上来,不会造成数据的“全军覆没”。
(2)应用自动报警设备
要普遍应用防火、防水、防盗、防远程攻击等的自动报警设备。在高温、高湿地区还要有高温、高湿的自动报警与调控设备。
(3)应用自动灭火装置
数据库房要用防火、防水材料进行隔离,而且一定要有自动灭火装置,以确保即使库房发生火灾也能自动扑灭,不致损毁数据。
(4)设置防远程攻击的“防火墙”
电子数据的一个软肋是黑客可以通过网络发起远程攻击,窃取、篡改、调换、锁住或销毁数据。所以,数据库房必须采用最先进的信息安保技术和设备,为数据建立“防火墙”“安全盾”“生命线”。
6.积极采用数据挖掘推送技术
档案服务企业更要注重数据挖掘推送技术,尽早地研究这项技术,并开展这项工作。这一技术将来的应用前景会很大,因为它将像以往的计算机技术一样,全面地覆盖全国所有的档案馆(室),将来真正风行全国、风行世界的,将是这项技术和人才。
高等学校要尽早开设数据挖掘推送技术方面课程,培养这方面的人才。因为这方面人才现在社会上很急需。未来几年、十几年中,数据工程师必然会像十几年前的网络工程师一样稀缺和紧俏。档案服务企业和档案馆(室)可以和高校联合培养或在高校定向培养这方面人才,并优先录用这方面人才。
7.尽快地主动推送档案信息
8.积极采用物联网技术
物联网技术可以把档案馆(室)的人、物、信息、环境等方面全部连接起来,实现自动感知和自动调控。档案工作者不管身在何处,都可用手机掌控一切。
建设智慧档案馆(室)除了以上这些工作之外,肯定还有其他事情要做,我不再一一列举了。
在建设智慧档案馆(室)过程中,档案工作者要敢于想、善于想,想我们的各方面需求,并向合作方提出我们的需求。甚至可以说,在智慧档案馆(室)建设中,档案人的主要任务就是提需求。在这个时代,只有想不到而没有做不到的。只要我们提出需求,就会有人帮助我们实现需求。档案服务企业也要帮助档案人想,主动地针对他们的需要点、实用点、兴奋点、难点和痛点提出解决方案。只要档案部门与档案服务企业同心协力,共同联手,智慧档案馆(室)就一定能早日地、大批地并最终全部地建成。