敦煌藏经洞出土文献包括佛经、道书、四部典籍、公私文书等各类文献材料,其中典籍部分有些有文本传世,有些则是佚书,而公私文书则是独一无二的。敦煌文献主要产生于公元5世纪初至11世纪初,作为中国古代文献的一部分,有其特殊的意义,很多文献是现存历史文献中的孤本,是无法用其他文献替代的。
敦煌文献自1900年发现以来,大多数精品被斯坦因、伯希和、奥登堡等人劫往英、法、俄国,还有很多流散在国内外众多公私藏家手中。经过一百多年来学者和收藏机构的努力,目前大多数文献的图片已经发表,从缩微胶卷、黑白图版,到彩色图版和数字化图像,直到最近出版的高清彩色图录,如《法国国家图书馆藏敦煌文献》1、《甘肃藏敦煌文献》2、《中国国家图书馆藏敦煌文献》3,极大地推动了敦煌文献的整理与研究。
到目前为止,传世的中国古代典籍不少已经数字化,与敦煌文献对应的中古时代的四部书、佛典、道书,几乎都有可以检索的电子数据库,如《四库全书》数据库、CBETA(中华佛教典籍数据库)、《中华道藏》数据库等等,做到了所有文字都可以检索,极大地推动了中国古籍的整理、研究和中华文化的传播。
然而,到目前为止,敦煌文献的数字化情况并不乐观。我们就以收藏敦煌文献最为丰富的英国国家图书馆、法国国家图书馆、俄罗斯科学院东方文献研究所、中国国家图书馆这四大收藏单位的藏卷为例,目前虽然已有多家专门的敦煌文献的数据库或是加载了敦煌文献的数据库,如英国国家图书馆牵头并与中国国家图书馆等单位共建的IDP(国际敦煌项目)、法国国家图书馆的Gallica、中国国家图书馆的中华古籍资源库、敦煌研究院的藏经洞出土文献目录数据库、敦煌研究院敦煌文献研究所的敦煌遗书数据库,这些数据库基本上上传的都是图片,而且像拥有敦煌文献数量居于前列的英国国家图书馆、中国国家图书馆,由于种种原因,都还没有把大量敦煌汉文文献图片上传到数据库中,而俄罗斯科学院东方文献研究所的一万多号敦煌文献也还没有上传,甚至还没有做好图片的扫描工作。
虽然大多数敦煌数据库加载的彩色图片对于敦煌学研究给予了巨大的帮助,但都不是真正的“数字化”数据库,无法检索每一个敦煌文献上的词语,只有敦煌研究院敦煌文献研究所的敦煌遗书数据库加载了录文,但目前也只有1千多号的文字资料,与7万号的敦煌文献相距甚远。
因为没有数字化的敦煌文献,所以我们还不能像其他传世文献那样做全文数据处理,比如我们无法检索出敦煌文献中出现了多少次“张议潮”一名,我们也不能知道到底有多少件编号的《大般若波罗蜜多经》。这严重阻碍了敦煌文献的整理和敦煌学研究的发展。
那么,如何做到敦煌文献真正的“数字化”呢,这里结合我目前正在主编的《法国国家图书馆藏敦煌文献》高清彩色图录和《解题目录》的工作,略加探讨。
敦煌文献的数字化主要应当由四个部分构成,(1)图像,(2)题目,(3)数字化文本,(4)检索工具。
(1)图像方面,如上所述,法国国家图书馆的藏卷已经全部上网,英国国家图书馆和中国国家图书馆还有相当数量的没有上网,俄罗斯科学院东方文献研究所的藏卷更不容乐观。最近笔者参加敦煌研究院与英国国家图书馆共同举办的“流失海外敦煌文物国际学术研究会暨国际敦煌项目工作会议”得知,目前主要的困难在于没有经费,工作人员不够,所以上网的速度非常缓慢,这个问题似乎也无法在短期内解决。英国国家图书馆获得香港北山堂的资助,开始从事《妙法莲华经》的修复,为该经图片的上传IDP做准备。这样就某一部经来设计工作方案,不是一种学术的做法,只能对某个专题的研究有帮助,而敦煌学发展到现在,已经到了综合研究敦煌文献的时代;敦煌数据库的建设也应当从整体上全面处理文本,并把敦煌文献数据纳入到整个中国古代文献数据库的大家庭当中。因此,各个收藏单位还需要大力开源,争取更多的资金,把敦煌文献的图像早日上传。如果要分出上传文献的先后,应当由馆藏单位广泛征求学术界的意见,选择优先上传的文献,而不是只选择某一部普通的佛经来做先期工作。
(2)标目方面,经过各国敦煌学者、收藏单位的专家、修复技术人员的多年努力,目前海内外敦煌文献的编目、缀合等方面,都取得了长足的进步。中国国家图书馆的藏卷编目随着《国家图书馆藏敦煌遗书》的出版而基本完成,即每册后面所附的条记目录,这个目录也单独出版4。法国国家图书馆的藏卷目录都已发表5,其中原本没有以纸本形式出版的第二卷,也随着Gallica和IDP的图版在网上发表出来,极便学人使用。英国国家图书馆的目录原本有翟林奈(L.Giles)的《英国博物馆藏敦煌写本注记目录》6和刘铭恕的《斯坦因劫经录》7,随后又有黄永武《敦煌遗书最新目录》8,非佛经部分则有《英藏敦煌文献》图录的标题9、拙编《英国图书馆藏敦煌汉文非佛教文献残卷目录》10,以及郝春文等编著的《英藏敦煌社会历史文献释录》的重新标目11,这些都对英藏文献编目有很大推进,目前只有S.8400后的佛典还没有出版专门的目录。俄藏卷现有孟列夫主编的两卷本《苏联科学院亚洲民族研究所藏敦煌汉文写本注记目录》12,上海古籍出版社出版《俄藏敦煌文献》时也做了一部分新标目13,邰惠莉主编了俄藏全部写卷的目录14。
(3)电子化的文本,这是敦煌文献数字化的核心部分,也是最有学术含量和最难做的部分。正是因为有一定的难度,所以目前的敦煌文献数据库基本上都没有这一部分。不过我对这项工作表示十分乐观的态度,这也是我最近主持《法国国家图书馆藏敦煌文献》,随图录编纂《解题目录》时的感受。
(4)检索功能,这也需要敦煌学研究者和数字化专家合作,前者提出研究的要求和指向,后者设计出各种检索功能,其结果必然对敦煌学有极大的推动作用。
最后应当提到的是,敦煌文献数据库的建设和完善,需要国际同行的通力合作,需要敦煌学者和数字化学者的相互结合,才能搭建好这个真正数字化的平台。同时应当指出,敦煌文献的录文大多数是中国学者整理完成的,因此在今后的敦煌文献数据库的建设中,中国学者理应做出自己的贡献,把自己的成果转化成数字化的敦煌文献,在扩大自己学术影响力的同时,也使数字化的敦煌文献成为更大范围的中国古代数字文献的一个组成部分。