政策文本计算:一种新的政策文本解读方式

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2017.08.27

引言

政策文本计算的方法论解析

2.1政策文本计算是非介入式研究方法

2.2政策文本计算是非精确性研究方法

从分析方法看,政策文本计算的出发点是政策文本的自然语言处理,即政策的语法解析。虽然众多政策文本计算研究者试图构建语法文本与语义文本、语用文本的映射关系,或依据研究者的理解构建分析词表或抽取若干政策元素或属性,然后以“聚焦”方法跟踪研究。但早期通过这种“重构”或“再塑造”方式建构的政策文本内容分析方法,不仅耗时长、成本高,而且在方法论上形成了研究者事实上的“意识介入”,研究者本身作为研究工具存在于研究过程,其可靠性依然为学界所诟病。

2.3政策文本计算聚焦于元政策分析

究其原因:首先,元政策分析的非精确编码属性与政策计算分析的非精确性具有很好的契合度,具备了元政策计算分析的方法论基础;其次,元政策抽离了政策工具、政策区域以及政策地域的语境影响,一是形成了最大可能的频次聚焦,二是具备了跨区域政策比较的可能性;最后,元政策具有非显在性,无法通过简单观察获知,而借助计量或计算方法的元政策识别机制能为研究者所接受。

政策文本计算分析的典型方法与议题

政策文本计算既是一种政策分析研究理念和研究框架,也是完整的政策分析流程。从分析方法角度看,Wiedemann将政策文本计算,或称为计算机辅助文本分析(ComputerAssistedTextAnalysis,CATA)分为文本内容分析、文本数据处理和文本挖掘三个研究层次,并先后经历了计算化内容分析(ComputationalContentAnalysis,CCA)、计算机辅助定量数据分析(Computer-AssistedQualitativeDataAnalysis,CAQDA)以及语料计算学(LexicometricsforCorpusExploration)等不同发展阶段[16];从分析流程角度看,Grimmer和Steward[13]将政策计算分为政策文本获取(AcquireDocuments)、政策文本处理(Process)和政策文本分析三个典型阶段(见表1)。两者均认为政策文本处理和文本挖掘方法是政策文本计算分析的核心,本文则从政策文本内容分析、政策文本计量分析、政策文本数据处理和政策文本挖掘四个方面考察政策文本计算的典型方法。

3.1政策文本内容分析方法

因此,这类计算处理方法能够处理的政策文本数据有限,一般处理政策样本集(Sample,n≤200),最多通过协作方式处理政策主题集(Subsets,N≈1000)范畴的政策文本集,而对政策语料库(Corpus,N≥10000)基本上无法处理。因而,这类研究方法的研究议题也主要沿袭了政治学和诠释学中的政治话语研究和政治文本内容分析框架中的符号论和政治语词解读(政策主题识别与比较)的研究传统。

3.2政策文本计量分析方法

3.3政策文本数据处理方法

3.4政策文本数据挖掘方法

政策文本计算应用研究进展

4.1政策文本语料库建设

(1)德国柏林社会科学研究中心比较政见研究项目政见文本语料库(MRG/CMP/MARPOR)[45]。Manifesto语料库是目前政策分析领域加工最为成熟的开放政策语料,包括1945~2015年70年跨度,涉及所有欧洲国家和少数英美联邦国家(美国、加拿大、澳大利亚、南非、新西兰)总计超过50个国家的4051个政见语料集,涵盖了1979~1989年政见研究组MRG(ManifestoResearchGroup)、1989~2009年比较政见研究CMP(ComparativeManifestosProject)以及当前基于政治表达的政见研究MARPOR(ManifestoResearchonPoliticalRepresentation)持续研究的政策语料。在语料分析工具包中,既包括手工编码的政策术语编码手册(CodeBook),也包括794536个跨语种的机器识别政策术语、短语或词条;既包括软件版本的WordScore分析工具,也包括R语言的分析包ManifestoR。因此,Manifesto语料库和Word-Score分析软件是目前政见分析和政策文本计算领域引用率最广的语料库,尤其在政策立场和政策倾向研究中。

(4)卡内基梅隆大学计算机系Sailing实验室的政治博客语料库[48]。由JacobEisenstein和EricXing整理开发,主要采集了2008年6个博客平台的13246个政治博客文本记录,并且通过意识形态的分层抽样,也是政治博客研究比较重要的语料资源。类似的语料集还有美国海军学院Twitter政策语料集。

(5)香港浸会大学整理开发的政治演讲语料集(CorpusofPoliticalSpeeches-HKBULibrary)[49]。目前主要包括4个部分:美国历届总统演说语料文本集和多媒体文本(1789~2015)(约443万字)、历届香港总督或特首施政报告语料集(1984~1996,1997~2015,约43万字)、历届中国台湾地区领导人新年致辞和双十演讲语料集以及中国历届政府总理施政报告语料集,是比较完整的中文政策语料集之一。

此外,德国柏林Brandenburg科学研究院的阿德莱登·巴拉巴西提供的德国政策语料集[50]则结合了政策语料分析与可视化研究,利用这个政策语料集可进行总统演讲频率、演讲主题和演讲所涉及的政策语言的可视化分析,网站提供粗语料、分词后的语料以及标引后的语料等不同版本的语料。

4.2政策文本分析工具研制

因语境意义对政策文本分析的现实意义更大,当前政策文本计算比较注重政策词典和政策文本分析专用工具的研制。目前,主要有两类研究方法:

第二,研制政策分析专有词表和分析工具。典型如政策立场和政见研究中的WordScore算法和WordFish算法。两种方法都注重政策语词对政策内涵表达的影响权重差异,WordScore方法通过专家判定的参考文本作为政策语词权重依据,从而生成政策分析文本中政策内涵的表达效果,其实质是对词频结果进行语义加权处理,类似一种基于动态“词典”的分类算法;WordFish算法认为政策文本具有不同的政策特征向量,在某一特征中政策语词的概率分布符合泊松分布,因此可以通过一种类似非监督学习的方式对政策文本所蕴含的“政策立场”进行分类。由于WordScore算法的分类效果和可解释性优于WordFish,但分类效果受参考文本的影响大,在历时分析或跨文化环境的比较参考分析中效度不高。此外,政策文本计算因德语或北欧国家特有的构词方式而具有一定研究效度,而在英语地区却并不显著,这也是当前政策文本计算研究兴盛于德国和北欧,而英美地区进展缓慢的主要原因。

因此,政策文本分析词表、文本分析效度改进工具和跨语言政策文本分析工具都是目前政策文本分析工具研究的热点问题。

政策文本计算的应用前景与障碍

政策文本计算方法是大数据环境下政策分析科学与计算科学交叉融合的产物,目前已经形成了较为稳定的研究议题和研究队伍。随着政策文本资料的日益丰裕以及大数据分析方法日益为社会科学研究者所采纳,可以预见未来政策文本计算在精细化政策分析和定量政治研究领域具有广阔的研究前景。

5.1政策文本计算的应用前景

就政策文本计算的应用领域而言,精细化政策分析主要体现在政策预测、政策冲突分析与政策辅助决策、元政策评价与政策比较等研究领域,定量政治研究则体现为政党研究、政治立场、政治态度、政策认同、政治联盟以及选举、外交等政治活动领域。

第一,政策文本计算在精细化政策分析领域已经具有研究基础,尤其在语料库政策语言分析中形成了相对成熟的研究框架。首先,计算方法的引入提供了跨语料分析和实时语料分析的研究可能,对政策预测的时效性和精确度都将大大提升;其次,计算方法的引入将改进政策分析的精度和深度,在政策制定中不同政策源的立场识别和主题识别可以避免显性的政策条款冲突,同时对政策主题关系识别也能评判政策相似度或政策形式质量预判,辅助政策制定决策;再次,通过政策文本与政策语义的对应关联,能够挖掘政策的潜在语义和元政策要素,从政策价值、政策倾向、政策工具、意识形态等高度评价或比较不同时期、不同地域甚至不同国别的政策差异,更好地跟踪政策扩散过程,促进政策学习与创新。

第二,定量政治研究则融合了政治学、媒介理论以及政党研究的理论视角,能通过泛在的政策文本载体,识别公众的政治态度、政治立场以及不同主体之间的政治互动关系,进一步通过政治文本解析框架可以分析政治立场、政治距离和政治关系紧密度,从而发现政党合作、国际合作的潜在空间;另一方面,通过不同政治参与主体的互动机制,可以在政策认同、政党监督、政党竞争以及选情预测等领域进行有效分析。

5.2政策文本计算的应用障碍

因此,在未来的政策文本计算研究实践中,一是需要加强学科合作,推动专业化的政策语料库的建设,开发适用于政策文本分析的工具;二是政策文本计算研究具有良好的中立性与客观性,国家应该在智库建设和国际政策比较研究中更加重视政策量化和定量政治研究。

THE END
1.数据挖掘类文章属于什么类型mob64ca12e83232的技术博客数据挖掘类文章属于什么类型 数据挖掘是一种从大量数据中提取隐含的、有用信息和知识的过程。它涉及统计学、机器学习、数据库技术等多门学科,因此数据挖掘类文章通常属于数据分析、机器学习和统计学等类别。本文将介绍数据挖掘的基本概念,并结合具体的代码示例,展示如何使用Python进行简单的数据挖掘任务。https://blog.51cto.com/u_16213397/12827058
2.AI在自然语言处理中的突破:从理论到应用腾讯云开发者社区词嵌入技术通过将词语映射到一个高维向量空间中,使得计算机能够理解词语之间的关系。常见的词嵌入模型包括Word2Vec、GloVe和FastText。这些模型通过大量文本数据的训练,能够捕捉词语的语义信息。 ###2. 变压器模型(Transformer) 变压器模型是近年来NLP领域的重要突破之一。与传统的RNN和LSTM模型相比,变压器模型采用了自注意https://cloud.tencent.com/developer/article/2479408
3.数据挖掘与文本挖掘:自然语言处理数据挖掘和文本挖掘是两个独立的领域,但在实际应用中,它们之间有很强的联系和相互作用。数据挖掘主要关注从大量数据中发现隐藏的模式、规律和知识,而文本挖掘则专注于从文本数据中提取有价值的信息和知识。自然语言处理(NLP)是文本挖掘的一个重要部分,它涉及到自然语言(如英语、中文等)与计算机之间的理解、处理和生成https://blog.csdn.net/universsky2015/article/details/135810123
4.文本和数据挖掘爱思唯尔所有爱思唯尔期刊和书籍均支持文本和数据挖掘 (TDM)。立即了解更多信息。https://www.elsevier.cn/about/open-science/research-data/text-and-data-mining
5.数据挖掘课件第8章文本挖掘.ppt数据挖掘课件 第8章 文本挖掘.ppt,第8章 文本挖掘 大多数非结构化数据以文本文件形式出现,并在数据存储总量中占有较高的比例。由于文本的非结构化,检索、存取、分析和使用这些数据通常并不容易。文本挖掘以文本型信息源作为分析的对象,利用定量计算和定性分析的方法,从https://max.book118.com/html/2022/0520/7014040065004123.shtm
6.文本挖掘是属于数据挖掘的一个分支。A正确B错误文本挖掘是属于数据挖掘的一个分支。 A、正确 B、错误 点击查看答案 你可能感兴趣的试题 中心离子的氧化数越高配位数往往越() 点击查看答案 判断题正常工况下工质在喷管内的流动可视为一元绝热稳定流动。 点击查看答案 问答题 发电机电压调节器工作原理的实质就是通过电磁线圈中电流的大小变化控制磁场强弱变化,使http://www.ppkao.com/wangke/daan/3b60e3a05ced4bfdbca9a707e4d483e0
7.版权立法中文本数据挖掘侵权例外规则的构建版权资讯摘要:以计算机软件和大数据为支撑的文本数据挖掘技术已成为数字时代各行各业智能化发展的基础工具。文本数据挖掘首先需要收集、复制海量数据或作品等受著作权法保护的信息建立数据库。为学术研究目的而复制他人作品进行文本数据挖掘,在越来越多的法域被视为合理使用。我国著作权立法中应尽快确立以论文查重为代表的文本数据http://www.ccct.net.cn/html/bqzx/2023/0601/4369.html
8.数据挖掘应用(精选十篇)①数据选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据预处理:研究数据的质量,进行数据的集成、变换、归约、压缩等,为进一步的分析作准备,并确定将要进行的挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的https://www.360wenmi.com/f/cnkeymoknlxl.html
9.数据挖掘领头人韩家炜教授:如何从无结构文本到有用的知识?雷峰网雷锋网 AI 科技评论按:这几日,对于许多数据挖掘领域的研究者来说,北京是一个关注的焦点,原因无他,作为数据挖掘领域的两大顶会CIKM 2019和ICDM 2019相继在北京召开,甚至连开会地点(国家会议中心)都没有变化。 两个会议同为CCF B类,其区别在于前者是ACM举办,而后者是IEEE举办;此外CIKM覆盖范围更广,包括了数据库https://www.leiphone.com/category/academic/FwoOaU5p2gKCEGBW.html
10.什么是分析,数据分析决胜未来4.文本挖掘与文本分析 文本挖掘处理文本数据本身,文本分析涵盖范围比较广泛,通常包括应用统计分析、机器学习和其他一些高级分析技术,但通常被认为等同于文本挖掘。 5.机器学习 机器学习的核心是使用算法来建立量化分析模型,帮助计算机模型从数据中“学习”。它同以人为中心的处理过程不同,它是由计算机学习和发现隐藏在数据https://vip.kingdee.com/article/255974176719074560
11.文本数据挖掘(第2版)(豆瓣)文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。《文本数据挖掘(第2版)》主要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主https://book.douban.com/subject/36228033/
12.什么是文本挖掘?IBM什么是文本挖掘? 文本挖掘,也称文本数据挖掘,这个过程旨在将非结构化文本转换为结构化格式,以发现有意义的模式和全新洞察。 通过应用高级分析方法,例如朴素贝叶斯、支持向量机 (SVM) 和其他深度学习算法,企业能够探索和发现非结构化数据中隐藏的关系。 文本是数据库中最常见的数据类型之一。 根据数据库的不同,这些数据https://www.ibm.com/cn-zh/topics/text-mining
13.文本数据挖掘简介,目录书摘本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研https://www.jd.com/hhyx/aa5e4f8ee58814cc.html
14.如何对文本进行数据挖掘帆软数字化转型知识库对文本进行数据挖掘,可以通过以下方法:自然语言处理(NLP)、情感分析、主题建模、文本分类和聚类、命名实体识别(NER)。其中,自然语言处理(NLP)是最为基础且核心的方法。自然语言处理(NLP)是将人类语言转化为计算机可理解数据的技术。NLP包括多种技术和工具,如分词、词性标注、句法分析、实体识别等,它能够帮助我们从大量https://www.fanruan.com/blog/article/606506/
15.湖南省统计局算法和建模作为数据挖掘工具的核心技术从它诞生之日起就在得到不断完善,而在最近两年,也有一些新的技术和应用热点开始引起人们的关注,比如文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。 “文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。文本http://tjj.hunan.gov.cn/hntj/bsfw/tjkp/tjsh/201507/t20150717_3825196.html
16.大数据:变革世界的关键资源—文本资料教学设计形势与政策在云计算时代,普通人只要打开笔记本或者智能手机,就可以享受以往只有少数科学家才能拥有的超大规模的计算,云计算甚至可以让你体验每秒10万亿次的运算能力,如此强大的计算能力可以模拟核爆炸,预测气候变化和市场发展趋势,随着云计算分析能力的越来越强,人们才开始思考从海量数据中提取挖掘其隐含的大价值。大数据这一全新的https://www.gxtcmu.edu.cn/my/jysjs/xsyzcjys/jxyhygl3/xsyzc/jxsj/content_27032
17.文本挖掘与自然语言处理文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。(文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程) 文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科https://www.jianshu.com/p/794c47e439bc