近20年来,数字技术的飞速发展正在重塑人类的生产生活,以信息为中心所产生的数据出现指数级增长,信息过载使得依靠传统技术处理这些数据变得越发困难,需要新的技术解围。主题模型(topicmodeling)可以从海量的文本数据中提取隐含主题,挖掘其中的问题、观点、情感和趋势等信息。目前,主题模型的应用范围在不断拓展,除广泛应用于商业和诸多自然科学领域外,也逐渐在教育学、社会学、文学、法学、历史学、哲学等人文社会科学研究领域发挥更大作用。
工作原理
主题模型通常涉及以下四个步骤。首先是文本预处理,将文档转换为仅包含有意义的单词的标记化表征,并根据需要进行去除停用词、词干提取等预处理步骤。其次是构建单词—文档矩阵,将文档表征为一个单词—文档矩阵,其中每一行代表一个文档,每一列表示一个单词,矩阵元素表示单词在文档中出现的次数。再次是建立模型,使用主题模型算法构建出每个主题的单词分布和每个文档的主题分布。最后是推断主题,对于新文档而言,可以使用已经训练好的模型来推断其主题分布。
主要方法
主题模型的方法多种多样。一般而言,基于数学方法,主题模型可分为概率主题模型和非概率主题模型。概率主题模型主要包括:概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)、结构主题模型(STM)和层次潜在狄利克雷分配(hLDA)等。非概率主题模型则主要包括:潜在语义分析(LSA)和非负矩阵分解(NNMF)等。在具体应用中,需要根据研究目的选择合适的主题模型。这里主要讨论三种经典的主题模型方法:PLSA、LDA和STM。
由霍夫曼(ThomasHoffman)开发的PLSA,是一种基于词袋的文本挖掘降维技术,也是第一个揭示语料库文档术语矩阵中语义共现的统计模型。该技术将潜在语义分析从线性代数的框架发展为概率统计的框架。PLSA为文本分析奠定了基础,但也存在一些问题。该模型包含了大量参数,而且这些参数还会随文档数量的增加呈线性增长,并且无法为未经训练的文档分配概率,如果应用于大型语料库则容易导致过度拟合。
为解决上述问题,布莱(DavidM.Blei)等学者在PLSA模型的基础上,提出了一种更加泛化的语言统计模型,即LDA。此种方式允许文档在内容上相互“重叠”,而不是被划分为离散的组,从而能够反映自然语言的典型使用方式。具体而言,在此模型中,多个主题的单词可以按比例组成一个文档。由于LDA具有多个生成模型,所以也很容易适应特定的应用程序需求。因此,与PLSA完全基于数据的参数估计相比,LDA可以通过参数先验分布的引入弥补有限数据统计存在的缺陷,从而提高模型的泛化性能。
应用领域
目前,计算传播学是传播学领域的一种发展前沿。主题模型基于应用各类媒介话语的截面和纵贯进行研究。此外,研究者还可以使用主题模型来分析社交媒体数据中的主题和趋势,以识别公众对某个事件或话题的观点和态度等。总之,主题模型在传播学领域的应用,可以帮助我们更好地理解媒体环境和公众意见,从而为优化传播效果提供依据。
主题模型在语言学领域的应用,主要可以分为三个方面:语音识别、文本分类和语言知识提取。首先,语音识别是将语音信号转换为文本信息的过程。使用主题模型对大量语音数据进行分析,可以提取出与语音信号相对应的语义主题,从而提高识别的准确率。其次,在文本分类方面,主题模型可以按照话题、说话者、文体等因素快速有效地对海量文本进行自动分类。最后,语言知识提取领域也广泛应用主题模型。语言知识提取可以理解为,从大量文本中自动抽取出语言知识(如词汇、语法结构、句子类型等),其结果是可以增加语言学研究的深度。
在历史学、哲学研究领域,主题模型可以被用于研究文化史上特定时期、特定地域或特定社会群体中所涉及的主题、话题和语义特征,进而探讨不同文化、文明和价值体系之间的差异、相似性以及互动关系。比如,对中国文物中的注释进行主题建模,可以发现中国传统文化中的哲学、道德与人生观等方面的价值观。艾伦(ColinAllen)团队首先将主题模型引入科史哲的研究工作,借助LDA对达尔文所阅读的文献进行主题建模,窥探其如何通过阅读文献积聚了深厚而广阔的思维空间。
由于处理的文本数量在理论上不受限制,且能够解决传统的文本细读无法回答的宏大叙事问题,主题模型在推动人文社会学科数据驱动的研究转型方面作用显著。目前,在数据分析领域,一些复杂算法、对现存数据和软件包进行空间分析、基于关系研究的文本语义网络分析等,都正在与主题模型深度融合。
未来挑战
第三,主题模型有助于多种类型的文本分析,但应用于以叙事为主的文学文本等可能并非明智之举。主题模型采用的“词袋”方法,会忽略文本的语法、语境等重要内容,从而导致“关系似乎胜过语法”的现象。而对于这种特定类型的文本,一些其他分析方法似乎更加奏效。比如,莫瑞蒂(FrancoMoretti)对莎士比亚戏剧的网络分析和赫尔曼(DavidHerman)的叙事逻辑模型。这些方法更加注重建立文本中对象和情节之间的关系,从而揭示文本更深层次的内涵。因此,在实际应用中,研究者需要综合考虑文本的类型、目标和需求,选择合适的方法进行分析和研究。
(本文系国家社科基金重点项目“基于文本挖掘的中国政治话语国际传播研究”(18AYY006)阶段性成果)
(作者系西安外国语大学研究生院博士研究生、副教授;西安外国语大学研究生院院长、教授)