4、司的配合下,自2007年2月始,历时2年零5个月,完成了“上谕档”全文数字化项目。本文拟对“上谕档”全文数字化项目的背景、实施情况以及成果功能加以概述,以期读者能够对该项目和项目成果的利用价值有一个较为全面的了解,以便更好地利用这一大型的清代档案数字化成果。一项目背景1.全文数字化的实践基础和难点。“上谕档”以及“大清历朝实录”和“大清五部会典”三个全文数字化项目,作为一史馆“清代档案文献全文数据库”的首期工程一并立项。其于档案文献数字化方面的意义在于,面对存世明清档案文献形制的复杂性,实践一种适用于诸如“实录”、“会典”、“上谕档”、“起居注”等一类篇幅巨大、记事繁复、内容重要却又缺少题名
5、,并且按其内容逐条著录工作量极大的簿册式档案文献的数字化模式,以期与适用于折件式档案的目录数据库链接原文数字图像的数字化模式互为补充,从而丰富明清档案文献数字化的技术模式,满足社会对明清档案文献数字化成果多样性的需求。“大清历朝实录”和“大清五部会典”全文数字化项目先期完成,因其对档案文献形式与内容信息全面而深入的揭示,以及强大的全文检索功能和辅助阅读功能,受到了专家和读者一致好评。同时,专家和读者也对其数字化中的版式处理、检索记录功能和软件结构等提出了一些建设性改进意见,为一史馆全文数字化工作的推进奠定了基础。但是,“大清历朝实录”和“大清五部会典”属于官修典籍,其版本、版式状况,比之“上谕
6、档”这类直接产生于政务活动的原始档案要规范、齐整得多。原始档案所具有的复杂的文本状况,多眉批、夹条、夹批、夹注、删改的特点,都是“上谕档”全文数字化项目必须面对并须妥善解决的难题。2.以往“上谕档”的出版情况及纸质出版物的局限。1986年至1999年,一史馆曾分别与中国档案出版社、广西师范大学出版社合作,陆续影印出版了馆藏乾隆朝至宣统朝等七朝上谕档,受到读者的广泛欢迎。但是,由于卷帙颇巨,该书仅有时序查阅一条检索途径,使得阅读十分不便。此外,更关紧要的是,受当时出版经费、人力等条件所限,在出版前未能对馆藏上谕档进行必要的文本分析。特别是未对馆藏相同年月的不同文本的上谕档档册进行相互比对和划分,
8、、快捷的查阅功能;从学术研究的严谨性出发,学者对档案文献的文本的了解有了更觉必须的要求;同时,从档案科学管理的理念出发,档案馆对档案数字化必须兼顾促进档案实体管理水平,也有了更深刻的认识和切实的要求。二项目实施情况1.实施组织准备和初设工作内容。立项伊始,根据项目预设实施模式和预想工作内容成立了12人组成的项目组。项目组经集体研究讨论,明确了该项目主要工作内容,包括:文档调研;项目实施方案制订;编辑体例制定;数字化前处理(含档案的清点、登记、文本划分、确定文字识别范围);选择专业数字化加工公司:评估、核证专业公司的技术方案;与专业公司签订委托加工服务合同;按委托加工服务合同监督专业公司履行合
9、同各项条款;在数字化加工中提调、派发、回收档案,并向专业;公司提供档案业务咨询;对项目成果的质量进行检测;组织专家评审验收;汇集项目工作文档整理归档。2.知识准备。为保证项目实施的科学性和成果的质量,项目组首先安排了文档调研并结合文档调研,进行了必要的知识准备。首先,了解和掌握“上谕档”的实体管理情况,以既有馆藏秩序目录为基础,经过清点、登记、添加档册封面题名、年月、页数,以及残破状况,更新完成对“上谕档”实体描述更为翔实、精准的秩序目录;同时,比对年月相同的档册,记录、分析其在形式与内容上的异同;另以5年为一时段,取样进行比对,记录、分析不同时段的档册在形式与内容上的异同,建立对“上谕档”较
11、中的“现月”又为何义?还有,一种小开本行草书写的“上谕档”是如何形成的?等等。实际情况与文献记载和以往学者所见不无出入,从而使项目组充分认识到原始档案文本的复杂性,为使数字化成果如何能够最大限度地维护和反映“上谕档”的原貌拓展了思路。另外,针对“大清历朝实录”和“大清五部会典”全文数字化项目中遇到的问题,如版面处理方法不妥需要改进;缺少眉批、夹批、删改文字等的处理方法;辅助阅读功能不够完善;软件结构不适于互联网应用等问题,与多家数字化专业公司进行了分析、研讨,明确了技术解决思路。通过上述实施组织准备和知识准备工作,建立了对“上谕档”形成概况和文本类型以及改进拓展应用软件功能的基本认识,为科学制
12、订项目实施方案和在后续工作中提供专业咨询、协作改进软件功能,做好了必要的准备。3.项目实施方案。在上述准备工作的基础上项目组着手制订项目实施方案,该方案包含以下内容:(1)项目实施目标。可详细表述为:首先通过扫描将“上谕档”原文转化成数字图像,然后进行文本划分选择用于文字识别的主要文本,进而以此作为内容比对基础,确定“上谕档”不同文本中的所有不重复内容,作为文字识别范围,并利用当前最高水平的古籍数字化技术进行汉字识别,形成可供全文检索的电子文本,之后,将扫描形成的原文数字图像与电子文本整合链接,最终制作成既可提供原文图像浏览,又可提供关键词检索,并具有多种检索途径和强大辅助阅读功能的大型档案史
13、料电子图书(包括CS和BS两种结构的版本),达到方便当地和异地读者利用并最大限度地维护档案原貌和保护档案原件的根本目的。(2)项目实施原则。在充分考虑了数字化过程中档案原件的安全。以及档案数字化的保真性、客观性和规范性要求的基础上,确定了项目实施的四项原则:以保证档案实体和数据安全,作为档案数字化全程必须遵守的首要原则;以最大限度地反映档案原有特征保证信息完整,作为档案数字化处理的基本原则;以技术方法服从实际需要,作为确定档案数字化模式的技术决策原则;以贯彻标准化、规范化作为档案数字化的科学操作原则。(3)项目实施基本工作思路。以维持现有档案实体秩序不变为基本工作前提;以综合考量档案的形式与内
17、档案原貌并兼顾读者查阅的便利,针对“上谕档”中存在的一些特殊问题采取了特别处置办法。1.上谕条目编目。在制作“朝年月日条”目录时,以每条上谕为基本编目单位,保证上谕条目的完整性。由于同一天的上谕条目可能来自于不同的盒册版本,需要仔细翻阅每条上谕所在的“朝年月日”。具体编目处理办法为:(1)同页同日多条上谕,依多条处理。(2)同页多条不同日上谕,各条分别出现在目录不同的“日”中。2.版面还原。由于上谕档部分原档册页书写不够工整规范,特做有如下数字化处理规定:(1)删除、涂改过的文字,保留了其局部小图,这些文字不参与检索。(2)原档页中字迹已经模糊不清或残损局部,保留了其局部小图。(3)批注、插入
18、文字,在原文处,依据上下文语义顺序做正确连接,版面展现上依照原样,技术上采用“逻辑块Block”,不仅保证显现贴近原版面,而且语义逻辑上也是正确的。(4)满文、蒙文或签名文字部分,不做文字识别处理,仅以图表示。(5)个别页中存在的故宫档案整理人员在整理时的说明文字或夹条,不做文字识别处理,只作为图像页予以保留。(6)个别省略写文字,数字化时采用原字予以还原。(7)遇到文字书写换位修改标注时,数字化按照文字正确顺序予以处理。3.常见草书和异体字的处理。原档中个别抄缮潦草的版本,存在大量难辨的行草字体,且又为不同年代不同人所书写,须经反复阅读上下文,查阅草书大字典(1924年扫叶山房编修)后,再经
19、项目组专家予以校对方予确认。“上谕档”中常见的异体字则用规范正体字代换,以便于读者阅读。例如:四项目成果1.主体成果。完成“上谕档”全文数字化项目,共收录馆藏雍正元年正月至宣统三年十二月的各种文本的汉文上谕档档册,计2,504册,712,542页,6,035万字,是有史以来一史馆馆藏“上谕档”最为完整的公布。为了使中外读者能够更方便、更完整地应用这一部分珍贵档案,该项目利用目前最先进的古籍数字化技术,实现了完备的应用功能:全文检索:在具有原文版面和繁体字原形,保证档案凭证作用的基础上,全部数字化内容实现“字字可查、句句可检”,差错率达到万分之三以下。汉字数字化标准:采用ISO/IEC-106
21、进行中西历日期转换。历史记录功能,则能记录读者曾经浏览过的页面。同时,用户还可在阅读结果的任意处直接加注笔记、标注书签、标点和勘误等。由于上述勘误功能,该产品可做动态管理,项目组可根据读者反馈的纠错信息定期进行修订,使项目成果的差错率逐步趋向于零。此外,该项目成果在总结“大清历朝实录”和“大清五部会典”全文数字化项目的经验与不足的基础上,改进了功能,增加BS结构版本,使读者亦能通过互联网异地应用。整体设计水平和功能、质量均超过前者,特别是针对原始档案中复杂的眉批、夹条、夹注、修改文字等所采用的技术处理,尽可能地保护了档案版面的原状,对探索原始档案的数字化处理方法做了有益的尝试。2.附属成果。首
22、次对馆藏上谕档文本进行了辨识、登记,制作了文本列表,为学者从文本角度判定“上谕档”史料价值提供了参考。深化了馆藏“上谕档”的实体整理,在区分文本的基础上,统计了全部档册的总页数,标注出以往整理错分入“上谕档”的寄信档、剿捕档、密记档、衡工档,同时,生成了完全按实体顺序排序的数字化图像,用以支持今后出版、展览对“上谕档”的需求,改善了实体管理的条件。在实施过程中形成了“上谕档”原档扫描规程、文本划分执行标准、文字识别范围确定办法和编目规则,以及实施工作流程与各类问题处置说明和各种统计表和工作文档,为今后同类项目的实施积累了宝贵的经验。2009年9月12日,该项目在北京经由国内知名清史专家和档案学专家评审验收,其项目总体价值评审如下:一史馆与北京书同文数字化技术有限公司合作完成的一史馆藏清代军机处上谕档全文数字化项目,是进行清史研究和中国社会史研究不可或缺