开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2017.08.27
引言
政策文本计算的方法论解析
2.1政策文本计算是非介入式研究方法
2.2政策文本计算是非精确性研究方法
从分析方法看,政策文本计算的出发点是政策文本的自然语言处理,即政策的语法解析。虽然众多政策文本计算研究者试图构建语法文本与语义文本、语用文本的映射关系,或依据研究者的理解构建分析词表或抽取若干政策元素或属性,然后以“聚焦”方法跟踪研究。但早期通过这种“重构”或“再塑造”方式建构的政策文本内容分析方法,不仅耗时长、成本高,而且在方法论上形成了研究者事实上的“意识介入”,研究者本身作为研究工具存在于研究过程,其可靠性依然为学界所诟病。
2.3政策文本计算聚焦于元政策分析
究其原因:首先,元政策分析的非精确编码属性与政策计算分析的非精确性具有很好的契合度,具备了元政策计算分析的方法论基础;其次,元政策抽离了政策工具、政策区域以及政策地域的语境影响,一是形成了最大可能的频次聚焦,二是具备了跨区域政策比较的可能性;最后,元政策具有非显在性,无法通过简单观察获知,而借助计量或计算方法的元政策识别机制能为研究者所接受。
政策文本计算分析的典型方法与议题
政策文本计算既是一种政策分析研究理念和研究框架,也是完整的政策分析流程。从分析方法角度看,Wiedemann将政策文本计算,或称为计算机辅助文本分析(ComputerAssistedTextAnalysis,CATA)分为文本内容分析、文本数据处理和文本挖掘三个研究层次,并先后经历了计算化内容分析(ComputationalContentAnalysis,CCA)、计算机辅助定量数据分析(Computer-AssistedQualitativeDataAnalysis,CAQDA)以及语料计算学(LexicometricsforCorpusExploration)等不同发展阶段[16];从分析流程角度看,Grimmer和Steward[13]将政策计算分为政策文本获取(AcquireDocuments)、政策文本处理(Process)和政策文本分析三个典型阶段(见表1)。两者均认为政策文本处理和文本挖掘方法是政策文本计算分析的核心,本文则从政策文本内容分析、政策文本计量分析、政策文本数据处理和政策文本挖掘四个方面考察政策文本计算的典型方法。
3.1政策文本内容分析方法
因此,这类计算处理方法能够处理的政策文本数据有限,一般处理政策样本集(Sample,n≤200),最多通过协作方式处理政策主题集(Subsets,N≈1000)范畴的政策文本集,而对政策语料库(Corpus,N≥10000)基本上无法处理。因而,这类研究方法的研究议题也主要沿袭了政治学和诠释学中的政治话语研究和政治文本内容分析框架中的符号论和政治语词解读(政策主题识别与比较)的研究传统。
3.2政策文本计量分析方法
3.3政策文本数据处理方法
3.4政策文本数据挖掘方法
政策文本计算应用研究进展
4.1政策文本语料库建设
(1)德国柏林社会科学研究中心比较政见研究项目政见文本语料库(MRG/CMP/MARPOR)[45]。Manifesto语料库是目前政策分析领域加工最为成熟的开放政策语料,包括1945~2015年70年跨度,涉及所有欧洲国家和少数英美联邦国家(美国、加拿大、澳大利亚、南非、新西兰)总计超过50个国家的4051个政见语料集,涵盖了1979~1989年政见研究组MRG(ManifestoResearchGroup)、1989~2009年比较政见研究CMP(ComparativeManifestosProject)以及当前基于政治表达的政见研究MARPOR(ManifestoResearchonPoliticalRepresentation)持续研究的政策语料。在语料分析工具包中,既包括手工编码的政策术语编码手册(CodeBook),也包括794536个跨语种的机器识别政策术语、短语或词条;既包括软件版本的WordScore分析工具,也包括R语言的分析包ManifestoR。因此,Manifesto语料库和Word-Score分析软件是目前政见分析和政策文本计算领域引用率最广的语料库,尤其在政策立场和政策倾向研究中。
(4)卡内基梅隆大学计算机系Sailing实验室的政治博客语料库[48]。由JacobEisenstein和EricXing整理开发,主要采集了2008年6个博客平台的13246个政治博客文本记录,并且通过意识形态的分层抽样,也是政治博客研究比较重要的语料资源。类似的语料集还有美国海军学院Twitter政策语料集。
(5)香港浸会大学整理开发的政治演讲语料集(CorpusofPoliticalSpeeches-HKBULibrary)[49]。目前主要包括4个部分:美国历届总统演说语料文本集和多媒体文本(1789~2015)(约443万字)、历届香港总督或特首施政报告语料集(1984~1996,1997~2015,约43万字)、历届中国台湾地区领导人新年致辞和双十演讲语料集以及中国历届政府总理施政报告语料集,是比较完整的中文政策语料集之一。
此外,德国柏林Brandenburg科学研究院的阿德莱登·巴拉巴西提供的德国政策语料集[50]则结合了政策语料分析与可视化研究,利用这个政策语料集可进行总统演讲频率、演讲主题和演讲所涉及的政策语言的可视化分析,网站提供粗语料、分词后的语料以及标引后的语料等不同版本的语料。
4.2政策文本分析工具研制
因语境意义对政策文本分析的现实意义更大,当前政策文本计算比较注重政策词典和政策文本分析专用工具的研制。目前,主要有两类研究方法:
第二,研制政策分析专有词表和分析工具。典型如政策立场和政见研究中的WordScore算法和WordFish算法。两种方法都注重政策语词对政策内涵表达的影响权重差异,WordScore方法通过专家判定的参考文本作为政策语词权重依据,从而生成政策分析文本中政策内涵的表达效果,其实质是对词频结果进行语义加权处理,类似一种基于动态“词典”的分类算法;WordFish算法认为政策文本具有不同的政策特征向量,在某一特征中政策语词的概率分布符合泊松分布,因此可以通过一种类似非监督学习的方式对政策文本所蕴含的“政策立场”进行分类。由于WordScore算法的分类效果和可解释性优于WordFish,但分类效果受参考文本的影响大,在历时分析或跨文化环境的比较参考分析中效度不高。此外,政策文本计算因德语或北欧国家特有的构词方式而具有一定研究效度,而在英语地区却并不显著,这也是当前政策文本计算研究兴盛于德国和北欧,而英美地区进展缓慢的主要原因。
因此,政策文本分析词表、文本分析效度改进工具和跨语言政策文本分析工具都是目前政策文本分析工具研究的热点问题。
政策文本计算的应用前景与障碍
政策文本计算方法是大数据环境下政策分析科学与计算科学交叉融合的产物,目前已经形成了较为稳定的研究议题和研究队伍。随着政策文本资料的日益丰裕以及大数据分析方法日益为社会科学研究者所采纳,可以预见未来政策文本计算在精细化政策分析和定量政治研究领域具有广阔的研究前景。
5.1政策文本计算的应用前景
就政策文本计算的应用领域而言,精细化政策分析主要体现在政策预测、政策冲突分析与政策辅助决策、元政策评价与政策比较等研究领域,定量政治研究则体现为政党研究、政治立场、政治态度、政策认同、政治联盟以及选举、外交等政治活动领域。
第一,政策文本计算在精细化政策分析领域已经具有研究基础,尤其在语料库政策语言分析中形成了相对成熟的研究框架。首先,计算方法的引入提供了跨语料分析和实时语料分析的研究可能,对政策预测的时效性和精确度都将大大提升;其次,计算方法的引入将改进政策分析的精度和深度,在政策制定中不同政策源的立场识别和主题识别可以避免显性的政策条款冲突,同时对政策主题关系识别也能评判政策相似度或政策形式质量预判,辅助政策制定决策;再次,通过政策文本与政策语义的对应关联,能够挖掘政策的潜在语义和元政策要素,从政策价值、政策倾向、政策工具、意识形态等高度评价或比较不同时期、不同地域甚至不同国别的政策差异,更好地跟踪政策扩散过程,促进政策学习与创新。
第二,定量政治研究则融合了政治学、媒介理论以及政党研究的理论视角,能通过泛在的政策文本载体,识别公众的政治态度、政治立场以及不同主体之间的政治互动关系,进一步通过政治文本解析框架可以分析政治立场、政治距离和政治关系紧密度,从而发现政党合作、国际合作的潜在空间;另一方面,通过不同政治参与主体的互动机制,可以在政策认同、政党监督、政党竞争以及选情预测等领域进行有效分析。
5.2政策文本计算的应用障碍
因此,在未来的政策文本计算研究实践中,一是需要加强学科合作,推动专业化的政策语料库的建设,开发适用于政策文本分析的工具;二是政策文本计算研究具有良好的中立性与客观性,国家应该在智库建设和国际政策比较研究中更加重视政策量化和定量政治研究。