主题模型:拓展人文社会科学研究新视野

近20年来,数字技术的飞速发展正在重塑人类的生产生活,以信息为中心所产生的数据出现指数级增长,信息过载使得依靠传统技术处理这些数据变得越发困难,需要新的技术解围。主题模型(topicmodeling)可以从海量的文本数据中提取隐含主题,挖掘其中的问题、观点、情感和趋势等信息。目前,主题模型的应用范围在不断拓展,除广泛应用于商业和诸多自然科学领域外,也逐渐在教育学、社会学、文学、法学、历史学、哲学等人文社会科学研究领域发挥更大作用。

工作原理

主题模型通常涉及以下四个步骤。首先是文本预处理,将文档转换为仅包含有意义的单词的标记化表征,并根据需要进行去除停用词、词干提取等预处理步骤。其次是构建单词—文档矩阵,将文档表征为一个单词—文档矩阵,其中每一行代表一个文档,每一列表示一个单词,矩阵元素表示单词在文档中出现的次数。再次是建立模型,使用主题模型算法构建出每个主题的单词分布和每个文档的主题分布。最后是推断主题,对于新文档而言,可以使用已经训练好的模型来推断其主题分布。

主要方法

主题模型的方法多种多样。一般而言,基于数学方法,主题模型可分为概率主题模型和非概率主题模型。概率主题模型主要包括:概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)、结构主题模型(STM)和层次潜在狄利克雷分配(hLDA)等。非概率主题模型则主要包括:潜在语义分析(LSA)和非负矩阵分解(NNMF)等。在具体应用中,需要根据研究目的选择合适的主题模型。这里主要讨论三种经典的主题模型方法:PLSA、LDA和STM。

由霍夫曼(ThomasHoffman)开发的PLSA,是一种基于词袋的文本挖掘降维技术,也是第一个揭示语料库文档术语矩阵中语义共现的统计模型。该技术将潜在语义分析从线性代数的框架发展为概率统计的框架。PLSA为文本分析奠定了基础,但也存在一些问题。该模型包含了大量参数,而且这些参数还会随文档数量的增加呈线性增长,并且无法为未经训练的文档分配概率,如果应用于大型语料库则容易导致过度拟合。

为解决上述问题,布莱(DavidM.Blei)等学者在PLSA模型的基础上,提出了一种更加泛化的语言统计模型,即LDA。此种方式允许文档在内容上相互“重叠”,而不是被划分为离散的组,从而能够反映自然语言的典型使用方式。具体而言,在此模型中,多个主题的单词可以按比例组成一个文档。由于LDA具有多个生成模型,所以也很容易适应特定的应用程序需求。因此,与PLSA完全基于数据的参数估计相比,LDA可以通过参数先验分布的引入弥补有限数据统计存在的缺陷,从而提高模型的泛化性能。

应用领域

目前,计算传播学是传播学领域的一种发展前沿。主题模型基于应用各类媒介话语的截面和纵贯进行研究。此外,研究者还可以使用主题模型来分析社交媒体数据中的主题和趋势,以识别公众对某个事件或话题的观点和态度等。总之,主题模型在传播学领域的应用,可以帮助我们更好地理解媒体环境和公众意见,从而为优化传播效果提供依据。

主题模型在语言学领域的应用,主要可以分为三个方面:语音识别、文本分类和语言知识提取。首先,语音识别是将语音信号转换为文本信息的过程。使用主题模型对大量语音数据进行分析,可以提取出与语音信号相对应的语义主题,从而提高识别的准确率。其次,在文本分类方面,主题模型可以按照话题、说话者、文体等因素快速有效地对海量文本进行自动分类。最后,语言知识提取领域也广泛应用主题模型。语言知识提取可以理解为,从大量文本中自动抽取出语言知识(如词汇、语法结构、句子类型等),其结果是可以增加语言学研究的深度。

在历史学、哲学研究领域,主题模型可以被用于研究文化史上特定时期、特定地域或特定社会群体中所涉及的主题、话题和语义特征,进而探讨不同文化、文明和价值体系之间的差异、相似性以及互动关系。比如,对中国文物中的注释进行主题建模,可以发现中国传统文化中的哲学、道德与人生观等方面的价值观。艾伦(ColinAllen)团队首先将主题模型引入科史哲的研究工作,借助LDA对达尔文所阅读的文献进行主题建模,窥探其如何通过阅读文献积聚了深厚而广阔的思维空间。

由于处理的文本数量在理论上不受限制,且能够解决传统的文本细读无法回答的宏大叙事问题,主题模型在推动人文社会学科数据驱动的研究转型方面作用显著。目前,在数据分析领域,一些复杂算法、对现存数据和软件包进行空间分析、基于关系研究的文本语义网络分析等,都正在与主题模型深度融合。

未来挑战

第三,主题模型有助于多种类型的文本分析,但应用于以叙事为主的文学文本等可能并非明智之举。主题模型采用的“词袋”方法,会忽略文本的语法、语境等重要内容,从而导致“关系似乎胜过语法”的现象。而对于这种特定类型的文本,一些其他分析方法似乎更加奏效。比如,莫瑞蒂(FrancoMoretti)对莎士比亚戏剧的网络分析和赫尔曼(DavidHerman)的叙事逻辑模型。这些方法更加注重建立文本中对象和情节之间的关系,从而揭示文本更深层次的内涵。因此,在实际应用中,研究者需要综合考虑文本的类型、目标和需求,选择合适的方法进行分析和研究。

(本文系国家社科基金重点项目“基于文本挖掘的中国政治话语国际传播研究”(18AYY006)阶段性成果)

(作者系西安外国语大学研究生院博士研究生、副教授;西安外国语大学研究生院院长、教授)

THE END
1.基于MOORS平台的研究性学习首先,MOORS平台以“资源超市”为理念,既为学生提供自主学习的数字化资源,又有利于资源的数字化管理。平台的资源分为几个专区,如文库专区、微课专区、创客专区、校本资源等。文库专区主要包括研究性学习指导型课程、典型案例、优秀个案等;微课专区包括研究性学习专题讲座、项目学习介绍、课题研究介绍等;创客专区主要围绕创https://www.meipian.cn/1ye9de03
2.关键是对接了综评以及资料共享moors研究性课题自适应平台上海市教研室研究型课程教研员江铭初老师抓住推进研究型课程建设的重点,如学习档案、规则意识、表现标准等,用生动而有逻辑的语言、清晰而又形象的图表,为我们厘清了在三类课程的大框架下研究型课程的功能与定位,通过学生研究能力习练途径的解析辨明了研究型课程与研究性学习的区别与联系;上海市电教馆的学生综合素质评价https://blog.csdn.net/gnicky/article/details/54950581
3.基于SO摘要:文旅消费是促进经济回暖、满足人民美好生活需要的新引擎。文章以刺激-机体-反应理论为指导,以国家级文旅消费集聚区南京市夫子庙步行街和文旅消费新地标金陵小镇为样本收集地,构建多群组结构方程模型剖析文旅消费的驱动机制。研究发现:(1) 文旅消费动机、文旅消费体验、文旅消费满意度和文旅消费忠诚度是文旅消费的主要https://lykx.sitsh.edu.cn/CN/abstract/abstract550.shtml
4.初中MOORS平台探究性学习流程随着上海中考改革,初中综评实施,探究性学习作为综评的重要一环也即将上线。以下是根据初中探究性学习课程开设办法所设计的初中探究性学习流程初步方案。流程确定后,学生会在初中MOORS平台根据要求进行操作和填写。请各位老师根据学校的招生要求、课程要求等选择流程中必要的步骤,如果有问题则在相应步骤下提出自己的意见。 https://www.wjx.cn/m/37817933.aspx
5.MOORs研究性学习平台app免费下载MOORs研究性学习服务平台是手机的一个一站式响应式学习平台,特有全新升级探索o2o学习方式,综合性完成steam文化教育,打造出线上与线下学习培训绿色生态。热烈欢迎必须的小伙伴赶来免费下载感受! 软件简介 研究性学习服务平台是一套根据数据管理系统技术性的研究性学习文化教育辅助工具,该系统软件用以应对当今很多院校安排学https://www.duote.com/android/869174.html
6.埃默里大学心理学硕士毕业论文选题推荐5.心理学与法律相关的研究,如证人证言的可靠性、人类行为和法律制度之间的联系、刑事和民事司法心理学等 论文是从选题开始,选题确定才能继续接下来的部分写作,埃默里大学心理学硕士毕业论文选题,斯笔客教育在上面给大家做了五个方向的选题推荐,当然具体的选题还是需要结合个人兴趣和导师的建议来确定,如果你有埃默里大学https://www.sibikeedu.com/wp/88023/
7.基于学生画像的项目式学习评价指标体系研究[摘 要] 项目式学习是当前教育领域关注的热点,而如何在线开展学习评价是项目式学习研究的难题。构建学生能力画像有助于解决这一难题,而从哪些维度采集哪些行为数据支持能力画像建模,是构建画像的关键。因此,有必要研制项目式学习评价指标体系指导数据的采集。文章采用表现性评价方法,分析了项目式学习的评价内容和表现性任http://www.360doc.com/content/23/0224/00/10096_1069158516.shtml
8.MOORs研究性学习平台电脑版v7.5.8更新时间:202204MOORs研究性学习平台电脑版是一款优质的在线学习软件。MOORs研究性学习平台pc版大量的教育课程,每天都可以在线学习,还有很多丰富的课题,每天都可以参加讨论。MOORs研究性学习平台独有全新探索O2O学习模式,综合实现STEAM教育,打造线上线下学习生态。 软件介绍 研究性学习平台是一套基于专家系统技术的研究性学习教育辅助软件,https://www.zuixu.com/down/404694.html
9.MOORs研究性学习平台电脑版MOORs是一个研究性学习平台,MOORs主打线上学习与线下实践相结合的一站式研学成长空间,MOORs基于探究式学习、项目式学习及挑战式学习等国内外先进的教学方法论,构建学习流程引导、资源自适应匹配、专家答疑及社区互动等产品功能。华军软件园为您提供MOORs官方版下载,有需要的小伙伴赶紧下载吧! MOORs软件介绍 MOORs是https://m.onlinedown.net/soft/10102704.htm
10.目录2.3.1 国外英语课程情感目标理论研究现状 2.3.2 国内英语课程情感目标理论研究现状 3 研究设计 3.1 研究问题 3.2 研究对象 3.3 研究工具 3.3.1 问卷 3.3.2 访谈提纲 3.4 数据收集与分析 4 研究结果与讨论 4.1 问卷结果 4.1.1 学生对情感目标的落实状况 https://wap.cnki.net/touch/web/Dissertation/List/1015951201.nh.html