梳理文献发现,研究者对文本分析有着不同的理解和运用。
1.描述型文本分析:在研读文本的基础上对文本进行描述、比较、阐释和评价的研究方法。赵勇对文学作品《明朝那些事儿》所做的文本分析①,主要以描述和举例说明的方法,分析作品中所采用的文学性写作手法,如戏仿、戏说、反讽、征引、调侃、挪用、庄词谐用、今词古用等等。也有研究者用这种方法对政策类文本进行分析,如范国睿基于中国40年教育改革政策文本②进行分析,考察教育制度的变迁;钟秉林、王新凤对40年高考招生政策进行文本分析③。
二、计算型文本分析常见方法
计算型文本分析,与通常所说的数据分析,没有本质上的区别,广义上的数据(data)也包括文本(text)在内。计算型文本分析常见方法如下:
2.情感分析(SentimentAnalysis),很多词语带有情感色彩,如热爱、高兴、喜悦、失望、痛哭、死亡,给这些词语赋予一定的情感值,乐观积极的词语情感值为正值,消极悲观的词语情感值为负值,根据文本中高频词语情感值的计算,就可以分析出文本的情感倾向。情感分析有两种情况:一种是基于词典,通过制定情感词典规则,对文本进行拆解、提取关键词,计算情感值,将情感值作为分析文本情感倾向的依据。另一种是基于机器学习的算法,可避免大量人工提取特征。情感分析常用于舆情分析、产品或服务的用户评价等领域。
三、文本分析在数据类内容创作中的应用
随着文本分析工具的普及,以往用于学术研究、数据分析的方法,也被借鉴到内容创作领域。数字媒体时代,资讯传播速度加快,人们接触大量碎片化信息的同时,也希望看到对一些问题的深度权威的解读。数据类内容是近年出现的一种新的内容样式,包括数据新闻、数据报告等。文本分析是数据内容创作常用的方法,来看下边的案例。
举例1:词频分析——庆祝中国共产党成立100周年重要讲话文本分析
作者所采用的文本分析方法并不复杂:首先,用词频分析工具统计两篇讲话的高频词,将高频词进行分类,分为名词、动词、形容词等;其次,由于两篇讲话原文字数相差较大(80周年讲话字数约为100周年讲话字数的3倍),作者在进行词频比较分析时,把两者相差的倍数考虑在内;最后,作者对同义词语进行了合并统计。
词频分析的第一步是找出高频词,这一步比较容易,如何分析高频词,特别是分析像中国共产党成立100周年讲话这样的文本,则需要从政治的、历史的、国际比较的高度去评价词语的变化,需要大量描述性分析,而后者对作者的知识储备和写作能力要求非常高。
举例3:关联分析——粤港澳大湾区城市定位分析
2019年2月18日,中共中央、国务院印发《粤港澳大湾区发展规划纲要》,这是我国进一步深化改革开放的又一重大举措。粤港澳大湾区包括香港、澳门两个特别行政区和广东省的广州、深圳、珠海、佛山、惠州、东莞、中山、江门、肇庆共9个内地城市,总面积5.6万平方公里,覆盖约7000万人口,是我国开放程度最高、经济活力最强的区域之一,在国家发展大局中具有重要战略地位。《规划纲要》超过2.7万字,认真读完至少要两个小时。
如何让读者快速理解《规划纲要》中的城市定位?利用词频分析,可以发现“9+2”城市名称的出现频次依次为:香港(102),澳门(90),广州(41)深圳(39)珠海(20)佛山(9)惠州(6)东莞(8)中山(9)江门(7)肇庆(5)。香港在《规划纲要》中被提及的次数最多,显示在粤港澳大湾区未来发展定位中,香港被赋予“龙头”地位。
《规划纲要》发布后,中国(深圳)综合开发研究院智库研究与信息部发表了《大湾区规划观察:发展规划纲要11城词频统计》,该文统计了“9+2”城市在《规划纲要》第四至第十章重点任务中的分布情况,清楚地指出各城市在大湾区建设中被赋予的角色和权重。例如,香港在建设国际科技创新中心、构建具有国际竞争力的现代产业体系、建设宜居宜业宜游的优质生活圈、紧密合作共同参与“一带一路”建设方面,被赋予重要角色,这也是港澳回归后,国家首次通过区域规划的形式,将特别行政区纳入区域发展总体规划当中。
举例4:复杂词频分析——特朗普新冠疫情讲话分析
统计发现,“特朗普讲话中最常出现的话语是自我表扬(超600处),其中超130处属于没有事实依据的夸大其词。他虽有肯定他人(超过360次),但也将责任归咎于他人(超过110次)。他虽有表示同情或呼吁团结(约160次),但更多是夸赞自己或其团队。通过分析特朗普讲话,《纽约时报》为读者还原了一个“自大、自负、不诚实、不团结”的美国总统。
用同样的手法,《今日美国》对比分析了特朗普和拜登两位美国总统的就职演讲。2021年1月21日,《今日美国》发表《从“美国优先”到“美国要团结”:特朗普和拜登总统就职演讲分析》,作者对两位总统的就职演讲词进行分类概括,发现特朗普在演讲词中强调“华盛顿如何令美国其他地区失败”“美国优先”“爱国主义”,而拜登总统则强调“民主”“团结”“事实”“诚实”和“宽容”。
通过以上四个案例可以看到,文本分析方法应用于内容创作,可以带给读者不一样的视角,对于长篇或大量的文本素材,通过单独运用一种或者综合使用多种文本分析方法,另辟蹊径,抽丝剥茧,可以发现隐藏在文本背后的主旨、立场、倾向、性格、喜好、情绪、趋势等等。文本分析的方法应用得当,可以让内容更有说服力,进而影响和启发受众。
(作者系南京大学新闻传播学院教授)
注释:
①赵勇:《“好看”的秘密——<明朝那些事儿>的文本分析》,《文艺争鸣》,2010第5期,第133—141页。
②范国睿:《教育制度变革的当下史:1978—2018——基于国家视野的教育政策与法律文本分析》,《华东师范大学学报(教育科学版)》,2018年第5期,第1—19、65页。
③钟秉林、王新凤:《我国高考改革的价值取向变迁与理性选择——基于40年高考招生政策文本分析的视角》,《教育研究》,2017年第10期,第12—20页。
④喻国明:《网络谣言的文本结构与表达特征——基于腾讯大数据筛选鉴定的6000+谣言文本的分析》,《新闻与写作》,2018年第2期,第53—59页。
⑤陈雅赛:《突发公共卫生事件网络谣言传播与治理研究——基于新冠疫情的网络谣言文本分析》,《电子政务》,2020年第6期,第2—11页。
⑥陈翔、陈国权:《我国地方政府问责制的文本分析》,《浙江社会科学》,2007年第1期,第70—77页。
⑧刘宏笪、张茜、张济建、闫东:《中国钢铁产业五年规划:演进脉络与调整展望———基于“十五”以来规划文本分析》,《产业经济》,2020年第3期,第29—35页。