研究人员用数据统计的方法来做文学研究
谁是最爱往外跑的诗人?
唐宋时期最爱往外跑的诗人是谁?答案可能是苏轼。
打开“唐宋文学编年地图”,点击苏轼的名字,地图上立刻显示出密密麻麻的足迹,西到雅安,东到蓬莱、青浦,北到定州,南到海南南部的陵水。从青年时代开始,苏轼的脚步就一直没停过,在他58岁那年甚至一口气走了31个地方,堪称中国古代一股“行走的力量”。
“苏轼一生的轨迹信息高达近万条,遍布全国各地,是我们录入信息最多的一位唐宋诗人。”“唐宋文学编年地图”的建立者、中南民族大学教授王兆鹏告诉《中国科学报》记者。
在对四万多首唐诗进行了数据整理后,“前进四先生”发现在唐朝,两位关系最好的诗人不是李白和杜甫,也不是白居易和元稹,而是陆龟蒙和皮日休。这两位诗人互相提到对方的次数都在百次以上,中国文学史上的第一本唱和诗集《松陵集》也是他俩的作品。从排名前30的引用关系来看,白居易绝对是唐朝诗人朋友圈中的明星。
大数据与小阅读
在国外,也有展现中国历代人物生平资料的数据库,比如由哈佛大学、北京大学、台湾“中研院”合作开发的CBDB数据库,通过字号、亲属关系、生卒年份等数据,展现人物的社会关系网。
几年前,王兆鹏利用数据分析进行过另一项研究——唐诗宋词排行榜,曾招来过不少争议。
2011年,王兆鹏出版了《唐诗排行榜》一书,运用统计学方法得出了唐诗前100名排行榜,排在榜首的是崔颢的《黄鹤楼》,其次是王之涣的《凉州词》、杜甫的《登高》、王之涣的《登鹳雀楼》和张继《枫桥夜泊》等,被大众熟知的陈子昂的《登幽州台歌》等诗作则名落孙山。2012年,他又出版了《宋词排行榜》,将《念奴娇·赤壁怀古》列为宋词第一名。
两本书出版后,立刻有人质疑:“对古典文学的艺术鉴赏也能列排行榜?”“甚至有人说,是不是因为你是湖北人,所以把唐诗宋词第一名都给了写湖北的?”王兆鹏说。但在他看来,这两个排行榜是将现代科学手段引入到古典文学作品的研究赏析中的尝试,是严肃的学术研究。“而且,我评价的不是一首诗的好坏,而是评价它的影响力和知名度。”
但在中国科学院数学与系统科学研究院研究员安鸿志看来,“影响力”仍然是个模糊的指标。“要给唐诗宋词做排名,目的不同,指标不同,得出的结论就可能会截然不同。如果我们要办的是跑步比赛,首先就要确定跑一万米还是一百米,男子还是女子,个人还是接力,一旦确立指标,比如男性100米个人短跑,那么世界第一就是唯一解。可是对于唐诗宋词,会有唯一解吗?同样是看影响力,如果指标是‘哪首唐诗被现代人记住的最多’,那有可能是《静夜思》;如果把指标设为‘哪些诗句在日常生活中使用频率最高’,答案又可能会是‘粒粒皆辛苦’。话说回来,没有唯一解就不能去研究吗?”安鸿志说,“当然也不是,这项研究是有价值的。但你要承认,指标不唯一,得出的结论也不唯一,这才是科学方法、科学态度、科学结论。”
正确利用大数据技术
在王兆鹏看来,哪首诗词排第一名倒也在其次,这些诗词为何能从古至今一直为人们所熟知,这其中有何传播规律,更能引起他的兴趣。“比如,除了诗本身之外,故事对作品的传播有着非常重要的助推力。”王兆鹏解释说,“崔颢的《黄鹤楼》在古代非常有名,为什么?一个重要原因是李白很欣赏。李白到黄鹤楼后想写一首诗,后来因为‘崔颢题诗在上头’便搁笔未写。这在宋代还成了一句俗语‘莫因崔颢不题诗’。所以历代唐诗选本,没有不选《黄鹤楼》的。王之涣的《凉州词》也有‘旗亭画壁’的故事流传至今。”
通过数据整理,王兆鹏还统计出,唐宋诗人创作的优秀作品大多是在落后地区完成的,在失意受贬谪的地区更可能诞生名篇。“而且优秀作品的作者大多不是本地人。比如黄州、惠州打名片爱说苏轼,可苏轼是四川人;写黄鹤楼那么多名篇,可没有一个人是湖北人写的。”
王兆鹏正在做着更多探索。他计划将更多历史信息融入到现有的电子地图中去,比如某年哪些人中了进士、哪些人做了官、他们之间有何相互影响等。“数字技术正在改变我们观察文学、思考文学的方式。以前由于纸本的局限,我们每次只能看一位人物或一个时期。现在利用信息技术,我们可以把大大小小的人物同时放在一个舞台上,就像把树与树之间隔着的围墙打破后展现出一片森林一样,把历史的一个个横截面完整地呈现出来。”
“大数据技术作为人类认识客观世界的一种工具,给我们带来的进步是难以想象的。从研究者的角度来说,以前我们要到图书馆去查阅很多资料,现在只要坐在屋子里,摆上一台电脑,连接上网络,海量的资料就送到了眼前。”安鸿志说,“大数据资料既可影印,又可编辑,我们可以从中查询关键词,提取信息,进而进行修改、识别、对比。大数据技术是时代的象征,各行各业都要适应这个潮流,在文史哲研究领域当然也是如此。”