史料是历史研究的基础,而古籍的全文检索是文史研究电子化应用最为直接和最为有效的手段。河北大学宋史研究中心的创立者漆侠先生十分重视古籍整理中的新技术应用,自1989年开始,与河北大学电子信息工程学院的汉字信息处理研究室联合开发《宋代文献资料微机检索系统》,采用自己研制的“汉字识别系统D-OCR”进行录入,完成《续资治通鉴长编》(520卷,720万字)的录入工作,后经河北省教委主持鉴定,1995年在河北省第六届发明展览会上获金奖。该成果受到国内外同行专家的重视,曾有多位海内外宋史界学者前来参观试用,并被评价为“中国大陆第一个有组织地利用现代化手段进行的宋代文献资料检索系统。”
新世纪以来,中国古籍数字化的研究和实践已经摒弃了手工作坊式的简单录入形态,河北大学宋史研究中心中止了此后《夷坚志》以及数十种宋人笔记小说的录入工作,逐步提出建设断代宋史数据库的计划。2006年10月,我中心为早日启动在“宋辽夏金元史数据库”建设工作,当年在北京召开了有宋辽夏金元史专家、文献学专家和文献数字化专家参加的咨询会议,明确了建设该专业数据库的初步构想和功能要求。2007年我中心成立了数据库建设工作工作领导小组,向河北大学申请了“宋辽夏金元史数据库”的专项建设经费。2007年底在原有工作的基础上召开了第三次数据库工作会议,讨论了贾文龙、肖爱民起草的《<宋辽夏金元数据库>建设的几个重要问题》的报告。我们认为建设断代数据库,首先要处理好以下问题:
1、断代数据库的学术价值定位
在研制“宋辽夏金元史数据库”之时,通史类古籍全文软件已有相当高的成就,其中迪志公司开发的《文渊阁四库全书》和北京书同文数字化技术有限公司开发的《四部丛刊》已经成为学者检索史料的优先选择,另外还有广西金海湾电子音像出版社和广西师范大学出版社出版的《古今图书集成》对通史史料的检索也有相当帮助。2002年以来,北京爱如生公司研发、刘俊文先生主持了《中国基本古籍库》项目,这是古籍全文数字化的重大工程,并于2005年10月完成。
2、简体与繁体的选择问题
马克思说,生产工具促进生产力。马克思在经典著作中论述人类历史发展阶段划分时指出:历史发展阶段是以人类采用什么生产工具及相应的生产方法来划分的,所以分成石器时代、铁器时代等。推动历史发展,生产工具的变革是最积极、最首要的因素。人类的生产工具由手动发展到具备动力,马克思认为这是一次人类生产工具的大革命。现在计算机技术的发展,使人类的生产工具具有一定智能性,这是人类生产工具新的又一具有划时代意义的发展。
对古籍数字化而言,检索手段是这个智能性的主要体现,通过史料的查询可以把原来枯燥的史料翻检工作变为技术性操作。因此衡量古籍数字化成果的重要标准是文献检索的精度与准度,检索结果的精准性下降,就会给学术研究带来片面性。
如果将检索词整理成工具书,并附在史料库前,可说明整理凡例,作为使用者的参考,那么用简体进行古籍数字化整理也是可行的。
3、文字与图像的关联问题
探讨文字与图像的关系,我们从高校教学的需要与实践出发,认为应要充分考虑检索与阅读的关系问题。阅读是学术研究的常态活动,其与检索的关系应该是主辅关系。无庸置疑,数字化后的古籍也具有可阅读功能,高质量的数字化成果可以达到万分之一左右的差错率,完全可以用以满足一般性的阅读要求。但是数字化后的古籍常常是纯文字史料,如电子版《四库全书》则连标点也没有,并不便于学者阅读。此外古籍数字化过程中还会产生录入错误,又不具有原始性质,因而不能成为阅读信本,也不能成为真正的版本。
因为数字化后的古籍不能成为阅读信本,笔者感到在实际学术研究过程中文本阅读(包含文献扫描的图像版)与电子阅读并不是同步的。常见的情况是先读了史料,然后再根据需要检索史料;其次是先检索史料,再去核对文本。一边阅读图像,一边检索复制,在文字与图像间往返切换的情况并不多。
古籍数字化工作应该考虑如何与前人整理版本的衔接。古籍不同于近现代文本,其中知识与观念的时代差异,是需要专家学者去辨析注释的。从古至今,各个时期都有学者对前人著述进行整理。《四库全书》是清代乾隆年间官修的规模庞大的百科丛书,共收书3400余种,实际也可以看作是一次大规模的版本整理的文化盛事。目前大型数据库都是以图文对照的形式解决这个问题的,即原文与文字是可以显示的,当然是最为完美的解决途径。但是图文对照的成本很高,每个页面都要单独处理,如《四库全书》有79000多卷,页面又数倍于此数,因此对财力提出很高的要求。
鉴于学术研究过程中阅读与检索可以前后进行,古籍数字化中文字与图像也可以分开,又要借助于一定手段而建立联系。这一点尤其适于高等院校的教学与科研工作。
从以上考虑出发,我们提出一些《宋辽夏金元史数据库》的建设思路,希望数据库既有资料性,又有学术性;不仅可以用于科研,还要利于教学工作;含有动态建设过程,而在相当时段内保持一定的先进性。下面提出这些思路,借这次大会的机会,以求教于方家。
一、以时人诗文为数据库主体
二、以篇目章节检索为图文对照间的联系
古籍数字化的最理想的成果形式是能直接引用,图文对照是能达到直接引用的最有效途径。《宋辽夏金元史数据库》计划建立《古籍书影数据库》,首先实现书名章目的检索,并以对照原文制作资料专题的方式,基本达到直接引用的要求。
三、以工具书库作为检索词的延伸
史料是历史研究的基础。学术上的突破,往往依赖于新材料的发现。古代典籍浩如烟海,传统的史学研究在某种程度上,就是发掘史料功夫的较量。而数据库能够把原来枯燥的史料翻检工作变为技术性操作,就某种意义而言,数据库建设将引发传统史学研究的革命。为方便史料查询,就要丰富检索词,所以第一届古籍数字化国际会议外,李伟国等多位专家提出建立同位语数据库的倡议。《宋辽夏金元史数据库》似建立《宋人存世著述书目》、《全宋人名资料库》(姓名、字号、籍贯、事迹、生卒、著述)、《宋辽夏金元史地名资料库》、《宋辽夏金元史官名资料库》,以为使用者丰富检索词,并提供查询帮助工具。
四、以影像资料为文本古籍的补充
史料包括历史文献与史迹遗存,《宋辽夏金元史数据库》还计划建立《宋辽夏金元史文物考古图片库》和《宋辽夏金元史文物教学资料库》,主要包括这一时期的书法、绘画、书影、兵器、建筑、雕塑、印章、壁画、瓷器、金银器、服饰、车舟等各方面文物考古图片。王国维先生两重证据法之一即为“取地下之实物与纸上之遗书辨证”,进行古史新证。《考古图片库》是影像时代二重史证在教学方面的努力。
五、以论著索引为学术前沿的反映
《宋辽夏金元史数据库》计划集资料性与信息性为一体,包含20世纪至今宋辽金史百年论著索引,反映了海内外宋辽夏金元史的最新研究成果,希望成为最全、最新的宋元时期的古籍及研究前沿的数字化成果。目前我们与方建新先生、刘浦江先生已合作完成《二十世纪宋史研究百年论文索引》、《二十世纪辽金史研究百年论文索引》;宋辽夏金元史博士、硕士学位论文索引已有一定成绩。中国宋史研究会秘书处设在河北大学宋史研究中心,会员刊物《宋史研究通讯》每年都要收集当年度的论著索引。
六、以网络化丰富发展
作为断代史料数据库,其数字化过程尽量避免毕其功于一役式建设,而应该不断向精细化发展。如果停留在史料录入的初级阶段,必然会被大量通史类数据库所取代,从而失去存在价值,成为重复建设。《宋辽夏金元史数据库》项目设立之初,就是作为教育部省属高校人文社科重点研究基地的标志性成果而开展的,所以承担着为宋史学界提供信息资料中心的责任。因此《宋辽夏金元史数据库》还要与中国宋史研究会的网站相结合,应用系统架构上也要从“C/S”(“客户端——服务器”模式)向“B/S”(“浏览器——服务器”模式)转变,以便于学者通过网页浏览器直接访问数据库,使《宋辽夏金元史数据库》成为治宋史研究者的学术公器。
小结
2008年7月,河北大学宋史研究中心与北京国学时代公司签署协议,决定共同投资300万元研制《宋辽夏金元史数据库》。河北大学宋史研究中心与北京国学时代文化传播有限公司双方优势互补、强强合作,《宋辽夏金元史数据库》可以完成对宋辽夏金元时期基本的重要的古籍、碑刻及文物考古图片的数字化使命。《宋辽夏金元史数据库》既注重资料性,也注重工具性和信息性,我们相信《宋辽夏金元史数据库》可以最终建设成具有良好的应用性与专业性、达到国际先进水准的宋辽夏金元史学术研究平台。
{附记:《宋辽夏金元史电子数据库》后期称为《宋辽夏金元史电子馆》。2010年8月6日,“《宋辽夏金元史电子馆》成果鉴定会”在北京顺利举行,来自中国社会科学院、清华大学、北京大学、中国人民大学、河南大学、首都师范大学、中华书局等单位的多位著名学者,认为本项目成果是教育部重点研究基地与专业古籍数字化公司联合攻关的结晶,该成果的完成和投入使用,对于中国古代史教学科研手段现代化具有重要意义。}
基金项目:本文为教育部基地项目《宋代地方法制研究》(10JJD770009)、国家社会科学青年项目《宋朝地方司法结构变革与治理效能研究》(11CFX010)的阶段研究成果。