基于大数据方法的经济研究:前沿进展与研究综述

摘要:随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义。本文梳理了近年来国内外基于大数据方法研究经济的文献,根据经济研究中使用大数据的目的将其大致归纳为3类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、寻找建立经济变量间的联系。本文介绍了基于大数据方法处理海量非结构化数据并从中获取有效信息的一般方法和主要阶段特征:数据抓取和数据分析,介绍了目前经济学在大数据挖掘和分析方面的主流工具和算法,从经济预测和验证经济理论两方面阐述了目前基于大数据的经济研究的方向,提出了现阶段大数据研究面临的数据获取和数据处理困难、基于大数据的经济分析方法的某些理论基础尚不完善的问题,并在此基础上对我国基于大数据的经济研究进行了展望。本文清晰、全面地展示了目前基于大数据的经济研究的前沿进展和发展,为基于大数据研究经济夯实了基础工作,补缺了近年来国内在基于大数据方法的经济研究综述这一领域的空白。

关键词:大数据;经济研究;综述;前沿进展

基金项目:中国社会科学院登峰战略(产业经济学)优势学科项目“基于大数据的经济监测及预警研究”

李华杰,中国社会科学院工业经济研究所高级工程师、经济学博士生;

马丽梅,中国社会科学院工业经济研究所讲师。

引言

由于大数据和网络、传输、存储、计算的天然联系,起初大数据的发展和应用主要集中在计算机等自然科学领域,经济学实证研究仍然基于以传统统计理论为基础的计量经济方法和结构化统计数据。但随着技术的不断进步和成熟,大数据拥有的样本海量、实时、数据非结构化等传统统计调查数据无法比拟的特征的实现逐渐成为可能,经济学领域基于大数据方法开展的研究活跃起来,经济学家们在通过大数据分析建立新的或完善已有经济指标、利用实时数据建立现时预测模型、预警经济、分析政策影响、使用大数据验证经济理论等方面做了许多工作,如Akkitas等(2009)[1]用google搜索数据预测失业率,Bollen等(2011)[2]通过测量Twitter上文本内容蕴含的情感指标预测经济,Cavallo等(2013)[3]通过收集大型零售商网站的每日价格更新数据实时计算了阿根廷的通货膨胀率,Bok等(2017)[4]使用实时数据和动态因子模型建立了纽约联储银行现时预测模型以预测GDP增速。

可以预见,任何基于数据分析的学科与大数据的联系将越来越紧密,经济学研究也不会例外。在目前阶段,虽然大数据概念已经提出二十多年,但经济学中真正意义上使用大数据不过是近10来年的事情,基于大数据方法研究经济在某种程度上仍然是较新的、非主流的领域,国内目前关于基于大数据研究经济的文献综述很少,本文系统地梳理了国内外主流文献中近年来基于大数据方法研究经济的文献,以形成脉络清晰的文献综述,并根据主要文献中采用的经济研究中大数据的获取、处理流程,归纳总结出目前基于大数据研究经济的一般方法和研究方向,提出了目前基于大数据研究经济面临的困难,并对大数据在经济学中的应用做了展望。

一、文献回顾

二、主要研究方法介绍

由于绝大部分大数据原始状态为非结构化数据(Gandomi和Haider(2015)[34]认为95%以上的大数据都是非结构化的),如何处理海量的非结构化数据、从中获取有效信息是经济学家面临的关键问题。与传统经济研究的方法相比,基于大数据方法的特征主要体现在数据抓取和数据分析方面:

(一)数据抓取(数据挖掘)

由于来自互联网的大数据主要是记录人们行为的文本,自然语言处理算法(NaturalLanguageProcessing)得到大量应用,它是指让计算机像人类一样能读懂人类的文本,从非结构化的文本数据中提取有效信息。目前使用较广泛的NLP算法有:情感分析(SentimentAnalysis,SA)、主题模型(LatentSemanticAnalysis,LSA)、潜在狄利克雷分布(LatentDirichletAllocation,LDA)、词频-逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)、词嵌入(WordEmbeddings,WE)、数据匹配算法(DataMatching,DM)等。

表1数据挖掘工具

(二)数据分析

为检验数据建模的准确性,经济学家一般把数据分为训练集和测试集,用训练集建立模型,用测试集检验模型,当数据容量足够大时可分为三部分:训练集、验证集和测试集。鉴于大数据复杂特性,经济学家在机器学习中采用K折交叉检验(K-FoldCross-Validation),数据被划分为K个子集,模型拟合K次,每一次都用K-1个训练集、剩下1个用于预测测试,当每个子集仅有一个观测量时便退化为一次性交叉检验(Leave-one-outCrossValidation)(Blazquez等(2017)[37])。从文献上看,目前阶段经典计量经济学的拟合优度判定系数R2、Hosmer-Lemeshow(HL)拟合优度检验、马洛斯Cp检验(Mallows'Cp)、赤池信息量准则(AkaikeInformationCriterion,AIC)、贝叶斯信息量准则(BayesianInforma-tionCriterion,BIC)、偏差和对数似然检验等检验方法仍用于对基于大数据建立模型的检验。

三、主要研究和应用方向

四、当前面临的主要问题

由于大数据拥有的众多特点,其在经济学上的应用得到了较快发展,但仍面临一些问题。主要体现在:

第二,经济学家对大数据的获取和处理的能力面临困境。“大数据”本身是一个从计算机领域产生的术语,经济学家真正把眼光投向大数据也是最近十几年的事情,基于大数据的研究融合了计算机、网络、信息、数学、经济学、心理学等学科的前沿知识,是一项非常复杂的研究工作,经济学家对传统的基于统计学的经济研究很擅长,但对数据挖掘、机器学习等数据处理方法普遍比较陌生,目前很多基于大数据的研究是在计算机专家的协助下开展的,这在一定程度上限制了大数据在经济学研究上的应用,经济学家从思维上转变对大数据方法是“术”的观点、掌握大数据的获取和分析技术很紧迫。唯有如此,方能真正凸显大数据的力量。

五、总结和展望

参考文献

[1]ASKITASN,ZIMMERMANNKF,GoogleEconometricsandUnemploymentForecasting[C].DiscussionPaperofDiwBerlin,2009(,55):107-120.

[2]BOLLENJ,MAOH,ZENGX,TwitterMoodPredictstheStockMarket[J].JournalofComputationalScience,2011,2(1):1-8.

[3]CAVALLOA,OnlineandOfficialPriceIndexes:MeasuringArgentina'sInflation[J].JournalofMonetaryEconomics,2013,60(2):152-165.

[4]BRANDYNBOK,DANIELECARATELLI,DOMENICOGIANNONE,ARGIASBORDONE,ANDREATAMBALOT.MacroeconomicNowcastingandForecastingwithBigData[R].FederalReserveBankofNewYorkStaffReports,no.830,2017.

[5]VMSCHONBERGER.BigData:ARevolutionThatWillTransformHowWeLive,WorkandThink[M].London,UK:JohnMurrayPublishersLtd,2013.

[6]ACAVALLO,RRIGOBON.TheBillionPriceProject:UsingOnlinePricesforMeasurementandResearch[J].JournalofEconomicPerspective,2016,30(2):151-178.

[7]李凤岐,李光明.基于搜索行为的经济指标预测方法[J].计算机工程与应用,2017(,6):215-222.

[8]ASKITASN,ZIMMERMANNKF.NowcastingBusinessByclesBsingBollData[J].Forecast,2013,32(4):299-306.

[9]PSUTTON,DROBERTS,CELVIDGE,KBAUGH.CensusfromHeaven:AnEstimateoftheGlobalHumanPopulationUsingNight-timeSatelliteImagery[J].InternationalJournalofRemoteSensing,2001,22(16):3061-3076.

[10]PCSUTTON,CDELVIDGE,TGHOSH.EstimationofGrossDomesticProductatSub-nationalScalesUsingNight-timeSatelliteImagery[J].InternationalJournalofEcologicalEconomics&Statistics,2007,8(Suppl7):5-21.

[12]MELLANDERS,STOLARICKK,MATHESONZ,LOBOJ.Night-timelightData:AGoodProxyMeasureforEconomicActivity[J].Plosone,2015,10(10).

[13]徐康宁,陈丰龙,刘修岩.中国经济增长的真实性:基于全球夜间灯光数据的检验[J].经济研究,2015(,9):17-29.

[14]范子英,彭飞,刘冲.政治关联与经济增长——基于卫星灯光数据的研究[J].经济研究,2016(,1):114-126.

[15]丁焕峰,周艳霞.从夜间灯光看中国区域经济发展时空格局[J].宏观经济研究,2017(,3):128-136.[16]EDELMANB.UsingInternetDataforEconomicResearch[J].JournalofEconomicPerspectives,2012,26(2):189-206.

[17]AMURIDF,MARCUCCIJ.ForecastingtheUSUnemploymentRatewithaGoogleJobSearchIndex[R].SocialScienceElectronicPublishing,2010.

[18]MCLARENN,SHANBHOGUER.UsingInternetSearchDataasEconomicIndicators[J].BankEngl.Q.Bull.2011,Q2,134-140.

[19]ICENTEMR,LOPEZMENENDEZAJ,PEREZR.ForecastingUnemploymentwithInternetSearchData:DoesItHelptoImprovePredictionWhenJobDestructionisSkyrocketing[J].TechnologicalForecasting&SocialChange,2015,92(92):132-139.

[20]沈淑,张璇,田晓春.网络大数据在消费者信息指数预测中的应用——基于LASSO算法和KPLSR算法[C].2015年第四届全国大学生统计建模大赛,2015.

[21]CHAMBERLAING.GooglingthePresent[J].EconomicandLabourMarkertReview,2010,4(12).

[22]DZIELINSKIM,NewsSenstivityandtheCross-sectionofStockReturns[R].NCCRFinriskworkingpaperno.719,2011.

[23]AASTVEIT,KNUTARE,GISLEJAMESNATVIK,SERGIOSOLA,EconomicUncertaintyandtheEffectivenessofMonetaryPolicy[R].NorgesBank,2013.

[24]WUL,BRYNJOLFSSONE.TheFutureofPrediction:HowGoogleSearchedForeshadowHousingPricesandSales[C].SocialScienceElectronicPublishing,2014:89-118.

[25]CHOIH,VARIANH.PredictingInitialClaimsforUnemploymentBenefits[J].SocialScienceElectronicPublishing,2010.

[26]ARTOLASN,PINTOF,CanInternetSearchesForecastTourismInflows[J].InternationalJournalofManpower,2015,36(1).

[27]许伟.基于网络大数据的社会经济监测预警研究[M].北京:科学出版社,2016.

[28]LIUY,HUANGX,ANA,YUX.SentimentAwareModelforPredictingSalesPerformanceUsingBlogs[C].The30thAnnualInternationalAcmSigirConferenceonResearchandDevelopmentinInformationRetrieval,2007:607-614.

[29]MOATHS,CURMEC,STANLEYHE,PREIST.AnticipatingStockMarketMovementwithGoogleandWikipedia[C].NATOScienceforPeaceandSecuritySeriesC:EnvironmentalSecuritySpringerScience,2013:47-59.

[31]CHONGAYL,LIUM,LIB.PredictingConsumerProductDemandsViaBigData:TheRoleofOnlinePromotionalMarketingandOnlineReviews[J].InternationalJournalofProductionResearch,2015:1-15.

[32]SCHNEIDERMJ,GUPTAS.ForecastingSalesofNewandExistingProductsUsingConsumerReviews:ARandomProjectionsApproach[J].InternationalJournalofForecasting,2016,32(2):243-256.

[33]HUN,BOSEI,KOHNS,LIUI.ManipulationofOnlineReviews:AnAnalysisofRating,Readability,andSentiments[J].Decisionsupportsystem,2012,52(3):674-684.

[34]GANDOMIA,HAIDERM.Beyondthehype;BigDataConcepts,Methods,andAnalytics[J].InternationalJournalofInformationManagement,2015,35(2):137-144.

[35]刘涛雄,徐晓飞.大数据与宏观经济分析研究综述[J].国外理论动态,2015,(1):57-64.

[36]VARIANHR.BigData:NewTricksforEconometrics[J].JournalofEconomicPerspective,2014,28(2):3-28.

THE END
1.大数据挖掘的步骤是怎样的呢?大数据挖掘流程大数据挖掘是一个复杂而系统的过程,它利用计算机科学的方法和技术,对大量、多样化、高速增长的数据进行深入挖掘,以发现有价值的信息和知识。以下是大数据挖掘的主要步骤和方法: 一、大数据挖掘的步骤 数据收集: 从各种数据源中采集数据,包括结构化数据(如数据库中的表格)、半结构化数据(如XML、JSON等格式的数据)和非https://blog.csdn.net/weixin_54503231/article/details/141565108
2.什么是大数据挖掘方法帆软数字化转型知识库大数据挖掘方法是指通过使用各种技术和工具,从庞大的数据集中提取有价值的模式、知识和洞察的过程。大数据挖掘方法包括:数据预处理、数据清洗、数据集成、数据变换、数据挖掘、模式评估、知识表示。其中,数据预处理是大数据挖掘过程中至关重要的一步,涉及对原始数据进行清洗、转换和准备,以确保其质量和一致性。数据预处理https://www.fanruan.com/blog/article/602183/
3.数据挖掘论文精选5篇论文3.2 大数据挖掘方法 大数据时代缺的不是数据, 而是方法。大数据在旅游行业的应用前景非常广阔, 但是面对大量的数据, 不懂如何收集有用的数据、不懂如何对数据进行挖掘和利用, 那么“大数据”犹如矿山之中的废石。旅游行业所涉及的结构化与非结构化数据, 通过云计算技术, 对数据的收集、存储都较为容易, 但对数据的https://www.ruiwen.com/lunwen/1801458.html
4.《大数据挖掘:系统方法与实例分析》(周英卓金武卞月青)简介MATLAB官方(MathWorks)资深大数据挖掘专家撰写,MathWorks官方及多位专家鼎力推荐。从技术、方法、案例、*实践4个维度循序渐进地讲解了大数据挖掘技的流程、方法和原理。 作者:周英 卓金武 卞月青出版社:机械工业出版社出版时间:2016年05月 手机专享价 ¥ 当当价 降价通知 ¥57.00 定价 ¥79.00 配送http://product.dangdang.com/23955674.html
5.北京大学—化柏林:大数据分析与挖掘技术主讲人介绍:化柏林,博士,北京大学信息管理系助理教授、研究员、硕士生导师。主要从事大数据情报分析与知识抽取研究。主持国家自然科学基金项目、国家社科基金等课题5项,出版著作2部,发表论文50余篇。 (通讯员 李玉媛)2018年11月23日15:30,我院邀请北京大学化柏林教授来我院918会议室开展题为《大数据分析与挖掘方法》https://sim.ccnu.edu.cn/info/1047/6862.htm
6.大数据金融第二章大数据相关技术数据挖掘的任务:关联分析、聚类分析、分类、回归、预测、序列和偏差分析。 五 数据解释 数据解释是一个面向用户的过程,它是指将大数据挖掘及分析结果在显示终端以友好、形象、易于理解的形式呈现给用户。 (一) 数据可视化 数据可视化技术主要是通过图形化方法进行清晰、有效的数据传递。 https://www.jianshu.com/p/d68251554c66
7.大数据的数据挖掘方案有哪些?大数据的数据挖掘方案有:1、神经网络方法;2、遗传算法;3、决策树方法;4、粗糙集方法;5、覆盖正例排斥反例方法;6、统计分析方法;7、模糊集方法。关于数据挖掘,你必须知道的几个主要方法数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的https://www.linkflowtech.com/news/1986
8.什么是工业大数据常用的五种大数据分析方法星云联动大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法才能深入数据内部,挖掘出公认的价值。 语义引擎 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,https://www.istarscloud.com/electricity/3403.html
9.数据挖掘技术方法(精选十篇)大数据是下一个社会阶段的金矿和石油[3]。这对于审计人员既是挑战又是机遇。作为审计的核心方法———数据分析,能否有效地从各种超大规模的数据集中提取、挖掘有价值的信息,这将直接关乎审计效率。 1.3.2 全数据模式可以增加审计数据分析工作的精准性 在传统审计工作中,由于数据的繁杂,一般采用数据抽样分析。而大数据https://www.360wenmi.com/f/cnkeyg31vygx.html
10.数据挖掘与分析的六种经典方法论最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。 1、CRISP-DM 模型 CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字母缩写。CRISP-DM是由一家欧洲财团(时称SIG组织)在20世纪90年代中后期提出来的,是一套用于开放的数据挖掘项目的标准化方法,也是业内公认https://www.niaogebiji.com/article-30475-1.html
11.空间数据挖掘常用的17种方法腾讯云开发者社区PPV课大数据学习社区如果你对大数据感兴趣;如果你想转行做大数据;如果你想了解大数据是怎么改变我们生活,请点标题下蓝字关注PPV课大数据 问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用. 答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊https://cloud.tencent.com/developer/article/1101337
12.华为认证大数据方向(HCIE通过HCIE-Big Data认证,将证明您系统理解并掌握大型并行处理数据仓库平台的架构原理、分布式关系型数据库的设计和优化及应用开发;掌握大数据挖掘的基本原理,常用算法、常用挖掘方法、对华为大数据挖掘解决方案FusionInsight Miner和华为云机器学习服务MLS的熟练使用,胜任数据仓库开发、大数据分析、大数据数据挖掘和人工智能的相关http://m.edufly.cn/huawei/hcie/549.html
13.胡焕庸线存在性的大数据分析——中国人口分布特征的生态学及新由此可见, 这个数据体系由于其数据量和和数据源的多样性, 构成了一个大数据集合, 构成使用大数据挖掘方法分析的科学基础。由于缺少我国台湾地区的数据,所以在图中采用虚线表示我国台湾地区的疆域。 1.2 胡焕庸线的计算 根据胡焕庸线的表述, 胡焕庸线是从爱辉(今黑龙江黑河)到云南腾冲的一条直线, 在图1中绘制了https://www.ecologica.cn/stxb/ch/html/2019/14/stxb201812212776.htm