文本分析如何应用到数据类内容创作中

梳理文献发现,研究者对文本分析有着不同的理解和运用。

1.描述型文本分析:在研读文本的基础上对文本进行描述、比较、阐释和评价的研究方法。赵勇对文学作品《明朝那些事儿》所做的文本分析①,主要以描述和举例说明的方法,分析作品中所采用的文学性写作手法,如戏仿、戏说、反讽、征引、调侃、挪用、庄词谐用、今词古用等等。也有研究者用这种方法对政策类文本进行分析,如范国睿基于中国40年教育改革政策文本②进行分析,考察教育制度的变迁;钟秉林、王新凤对40年高考招生政策进行文本分析③。

二、计算型文本分析常见方法

计算型文本分析,与通常所说的数据分析,没有本质上的区别,广义上的数据(data)也包括文本(text)在内。计算型文本分析常见方法如下:

2.情感分析(SentimentAnalysis),很多词语带有情感色彩,如热爱、高兴、喜悦、失望、痛哭、死亡,给这些词语赋予一定的情感值,乐观积极的词语情感值为正值,消极悲观的词语情感值为负值,根据文本中高频词语情感值的计算,就可以分析出文本的情感倾向。情感分析有两种情况:一种是基于词典,通过制定情感词典规则,对文本进行拆解、提取关键词,计算情感值,将情感值作为分析文本情感倾向的依据。另一种是基于机器学习的算法,可避免大量人工提取特征。情感分析常用于舆情分析、产品或服务的用户评价等领域。

三、文本分析在数据类内容创作中的应用

随着文本分析工具的普及,以往用于学术研究、数据分析的方法,也被借鉴到内容创作领域。数字媒体时代,资讯传播速度加快,人们接触大量碎片化信息的同时,也希望看到对一些问题的深度权威的解读。数据类内容是近年出现的一种新的内容样式,包括数据新闻、数据报告等。文本分析是数据内容创作常用的方法,来看下边的案例。

举例1:词频分析——庆祝中国共产党成立100周年重要讲话文本分析

作者所采用的文本分析方法并不复杂:首先,用词频分析工具统计两篇讲话的高频词,将高频词进行分类,分为名词、动词、形容词等;其次,由于两篇讲话原文字数相差较大(80周年讲话字数约为100周年讲话字数的3倍),作者在进行词频比较分析时,把两者相差的倍数考虑在内;最后,作者对同义词语进行了合并统计。

词频分析的第一步是找出高频词,这一步比较容易,如何分析高频词,特别是分析像中国共产党成立100周年讲话这样的文本,则需要从政治的、历史的、国际比较的高度去评价词语的变化,需要大量描述性分析,而后者对作者的知识储备和写作能力要求非常高。

举例3:关联分析——粤港澳大湾区城市定位分析

2019年2月18日,中共中央、国务院印发《粤港澳大湾区发展规划纲要》,这是我国进一步深化改革开放的又一重大举措。粤港澳大湾区包括香港、澳门两个特别行政区和广东省的广州、深圳、珠海、佛山、惠州、东莞、中山、江门、肇庆共9个内地城市,总面积5.6万平方公里,覆盖约7000万人口,是我国开放程度最高、经济活力最强的区域之一,在国家发展大局中具有重要战略地位。《规划纲要》超过2.7万字,认真读完至少要两个小时。

如何让读者快速理解《规划纲要》中的城市定位?利用词频分析,可以发现“9+2”城市名称的出现频次依次为:香港(102),澳门(90),广州(41)深圳(39)珠海(20)佛山(9)惠州(6)东莞(8)中山(9)江门(7)肇庆(5)。香港在《规划纲要》中被提及的次数最多,显示在粤港澳大湾区未来发展定位中,香港被赋予“龙头”地位。

《规划纲要》发布后,中国(深圳)综合开发研究院智库研究与信息部发表了《大湾区规划观察:发展规划纲要11城词频统计》,该文统计了“9+2”城市在《规划纲要》第四至第十章重点任务中的分布情况,清楚地指出各城市在大湾区建设中被赋予的角色和权重。例如,香港在建设国际科技创新中心、构建具有国际竞争力的现代产业体系、建设宜居宜业宜游的优质生活圈、紧密合作共同参与“一带一路”建设方面,被赋予重要角色,这也是港澳回归后,国家首次通过区域规划的形式,将特别行政区纳入区域发展总体规划当中。

举例4:复杂词频分析——特朗普新冠疫情讲话分析

统计发现,“特朗普讲话中最常出现的话语是自我表扬(超600处),其中超130处属于没有事实依据的夸大其词。他虽有肯定他人(超过360次),但也将责任归咎于他人(超过110次)。他虽有表示同情或呼吁团结(约160次),但更多是夸赞自己或其团队。通过分析特朗普讲话,《纽约时报》为读者还原了一个“自大、自负、不诚实、不团结”的美国总统。

用同样的手法,《今日美国》对比分析了特朗普和拜登两位美国总统的就职演讲。2021年1月21日,《今日美国》发表《从“美国优先”到“美国要团结”:特朗普和拜登总统就职演讲分析》,作者对两位总统的就职演讲词进行分类概括,发现特朗普在演讲词中强调“华盛顿如何令美国其他地区失败”“美国优先”“爱国主义”,而拜登总统则强调“民主”“团结”“事实”“诚实”和“宽容”。

通过以上四个案例可以看到,文本分析方法应用于内容创作,可以带给读者不一样的视角,对于长篇或大量的文本素材,通过单独运用一种或者综合使用多种文本分析方法,另辟蹊径,抽丝剥茧,可以发现隐藏在文本背后的主旨、立场、倾向、性格、喜好、情绪、趋势等等。文本分析的方法应用得当,可以让内容更有说服力,进而影响和启发受众。

(作者系南京大学新闻传播学院教授)

注释:

①赵勇:《“好看”的秘密——<明朝那些事儿>的文本分析》,《文艺争鸣》,2010第5期,第133—141页。

②范国睿:《教育制度变革的当下史:1978—2018——基于国家视野的教育政策与法律文本分析》,《华东师范大学学报(教育科学版)》,2018年第5期,第1—19、65页。

③钟秉林、王新凤:《我国高考改革的价值取向变迁与理性选择——基于40年高考招生政策文本分析的视角》,《教育研究》,2017年第10期,第12—20页。

④喻国明:《网络谣言的文本结构与表达特征——基于腾讯大数据筛选鉴定的6000+谣言文本的分析》,《新闻与写作》,2018年第2期,第53—59页。

⑤陈雅赛:《突发公共卫生事件网络谣言传播与治理研究——基于新冠疫情的网络谣言文本分析》,《电子政务》,2020年第6期,第2—11页。

⑥陈翔、陈国权:《我国地方政府问责制的文本分析》,《浙江社会科学》,2007年第1期,第70—77页。

⑧刘宏笪、张茜、张济建、闫东:《中国钢铁产业五年规划:演进脉络与调整展望———基于“十五”以来规划文本分析》,《产业经济》,2020年第3期,第29—35页。

THE END
1.文本数据怎么分析帆软数字化转型知识库自然语言处理是一种通过计算机技术处理人类语言的技术,它可以帮助我们自动化地分析和理解文本数据。例如,情感分析可以用来检测文本中的情感倾向,帮助企业了解客户的情绪和态度。这些方法结合使用,可以全面而深入地挖掘文本数据中的信息,为决策提供有力支持。自然语言处理(NLP)是一个非常重要的工具,通过 NLP 技术可以对https://www.fanruan.com/blog/article/454281/
2.网络文本分析法内容分析法和文本分析法的区别是一种通过对网络上的文本数据进行分析和挖掘,来获取有关信息和洞察的方法。它可以帮助我们理解和解释网络上的文本内容,包括社交媒体、新闻、博客、论坛等。网络文本分析法可以应用于多个领域,如市场调研、舆情监https://cloud.tencent.com/developer/information/%E7%BD%91%E7%BB%9C%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90%E6%B3%95-article
3.文本数据与分析方法的介绍与讨论文本数据与分析方法的介绍与讨论 什么是文本数据 文本数据是指由各种字符或字母组成的数据,可以包括文字、数字、符号等。文本数据通常用于表示文字信息,如文章、新闻、网页内容、聊天记录等。文本数据可以在计算机系统中进行存储、处理和分析,也可以用于自然语言处理、机器学习和数据挖掘等领域的研究和应用。https://blog.csdn.net/weixin_71158509/article/details/135370308
4.第十六章文本分析方法及应用第十六章文本分析方法及应用 16.1 文本分析简介 文本分析是指对文本的表示及其特征项的选取,文本分 析是文本挖掘,信息检索的一个基本问题,它把从文本 中抽取出的特征词进行量化来表示文本信息.文本分析 的目的是将它们从一个无结构的原始文本转化为结构化 的计算机可以识别处理的信息,即对文本进行科学的抽 象,建立https://etcnew.sdut.edu.cn/meol/analytics/resPdfShow.do?resId=405861
5.文本分析法的方法有哪些?干货分享学术资讯学术会议网站文本分析法的方法有哪些?:文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。https://www.allconfs.org/list_info_view_xueshu.asp?id=3D889B7394CAF6054A0BB8A8A8CDC075
6.信息分析方法有哪些信息分析方法总共有四种,分别为:1.信息联想法;2.信息综合法;3.信息预测法;4.信息评估法。 1.信息联想法 联想本来是指由感知事物联想到另一事物的心理过程,这里是指在事物之间建立或发现相关关系的思维活动,其关键是准确把握事物之间的关系。常见信息联想法有:比较分析、逻辑分析、头脑风暴、触发词、强制联想、特性列https://wap.finance.gaodun.cn/wenda/39393.html
7.自然语言处理技术揭秘命名实体识别可以采用基于规则的方法,也可以采用基于机器学习的方法,比如条件随机场(CRF)等。通过对语料库进行标注和训练,可以构建出命名实体识别模型,实现对文本中命名实体的自动识别和提取。 案例分析 例如,在一篇新闻报道中,命名实体识别可以自动识别出人名、地名、时间等重要信息,为信息检索和文本理解提供重要支持。 https://www.jianshu.com/p/e2b4ae2188d4
8.直播回放:于上尧老师“财务报表数字背后的秘密“文字信息 来源:财务报告、公司公告、媒体报道…… 分析方法:人工提取、机器学习 2.结合表外信息: 宏观环境,行业数据,同业对比,企业行为 来源: 统计年鉴,行业协会,其他公司公告…… 分析方法:以专业为底,以阅历为干;综合运用财务、金融、行为、心理等学科 https://www.dongao.com/jxjy/jxjybm/202107223494190.shtml