摘要:随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义。本文梳理了近年来国内外基于大数据方法研究经济的文献,根据经济研究中使用大数据的目的将其大致归纳为3类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、寻找建立经济变量间的联系。本文介绍了基于大数据方法处理海量非结构化数据并从中获取有效信息的一般方法和主要阶段特征:数据抓取和数据分析,介绍了目前经济学在大数据挖掘和分析方面的主流工具和算法,从经济预测和验证经济理论两方面阐述了目前基于大数据的经济研究的方向,提出了现阶段大数据研究面临的数据获取和数据处理困难、基于大数据的经济分析方法的某些理论基础尚不完善的问题,并在此基础上对我国基于大数据的经济研究进行了展望。本文清晰、全面地展示了目前基于大数据的经济研究的前沿进展和发展,为基于大数据研究经济夯实了基础工作,补缺了近年来国内在基于大数据方法的经济研究综述这一领域的空白。
关键词:大数据;经济研究;综述;前沿进展
基金项目:中国社会科学院登峰战略(产业经济学)优势学科项目“基于大数据的经济监测及预警研究”
李华杰,中国社会科学院工业经济研究所高级工程师、经济学博士生;
马丽梅,中国社会科学院工业经济研究所讲师。
引言
由于大数据和网络、传输、存储、计算的天然联系,起初大数据的发展和应用主要集中在计算机等自然科学领域,经济学实证研究仍然基于以传统统计理论为基础的计量经济方法和结构化统计数据。但随着技术的不断进步和成熟,大数据拥有的样本海量、实时、数据非结构化等传统统计调查数据无法比拟的特征的实现逐渐成为可能,经济学领域基于大数据方法开展的研究活跃起来,经济学家们在通过大数据分析建立新的或完善已有经济指标、利用实时数据建立现时预测模型、预警经济、分析政策影响、使用大数据验证经济理论等方面做了许多工作,如Akkitas等(2009)[1]用google搜索数据预测失业率,Bollen等(2011)[2]通过测量Twitter上文本内容蕴含的情感指标预测经济,Cavallo等(2013)[3]通过收集大型零售商网站的每日价格更新数据实时计算了阿根廷的通货膨胀率,Bok等(2017)[4]使用实时数据和动态因子模型建立了纽约联储银行现时预测模型以预测GDP增速。
可以预见,任何基于数据分析的学科与大数据的联系将越来越紧密,经济学研究也不会例外。在目前阶段,虽然大数据概念已经提出二十多年,但经济学中真正意义上使用大数据不过是近10来年的事情,基于大数据方法研究经济在某种程度上仍然是较新的、非主流的领域,国内目前关于基于大数据研究经济的文献综述很少,本文系统地梳理了国内外主流文献中近年来基于大数据方法研究经济的文献,以形成脉络清晰的文献综述,并根据主要文献中采用的经济研究中大数据的获取、处理流程,归纳总结出目前基于大数据研究经济的一般方法和研究方向,提出了目前基于大数据研究经济面临的困难,并对大数据在经济学中的应用做了展望。
一、文献回顾
二、主要研究方法介绍
由于绝大部分大数据原始状态为非结构化数据(Gandomi和Haider(2015)[34]认为95%以上的大数据都是非结构化的),如何处理海量的非结构化数据、从中获取有效信息是经济学家面临的关键问题。与传统经济研究的方法相比,基于大数据方法的特征主要体现在数据抓取和数据分析方面:
(一)数据抓取(数据挖掘)
由于来自互联网的大数据主要是记录人们行为的文本,自然语言处理算法(NaturalLanguageProcessing)得到大量应用,它是指让计算机像人类一样能读懂人类的文本,从非结构化的文本数据中提取有效信息。目前使用较广泛的NLP算法有:情感分析(SentimentAnalysis,SA)、主题模型(LatentSemanticAnalysis,LSA)、潜在狄利克雷分布(LatentDirichletAllocation,LDA)、词频-逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)、词嵌入(WordEmbeddings,WE)、数据匹配算法(DataMatching,DM)等。
表1数据挖掘工具
(二)数据分析
为检验数据建模的准确性,经济学家一般把数据分为训练集和测试集,用训练集建立模型,用测试集检验模型,当数据容量足够大时可分为三部分:训练集、验证集和测试集。鉴于大数据复杂特性,经济学家在机器学习中采用K折交叉检验(K-FoldCross-Validation),数据被划分为K个子集,模型拟合K次,每一次都用K-1个训练集、剩下1个用于预测测试,当每个子集仅有一个观测量时便退化为一次性交叉检验(Leave-one-outCrossValidation)(Blazquez等(2017)[37])。从文献上看,目前阶段经典计量经济学的拟合优度判定系数R2、Hosmer-Lemeshow(HL)拟合优度检验、马洛斯Cp检验(Mallows'Cp)、赤池信息量准则(AkaikeInformationCriterion,AIC)、贝叶斯信息量准则(BayesianInforma-tionCriterion,BIC)、偏差和对数似然检验等检验方法仍用于对基于大数据建立模型的检验。
三、主要研究和应用方向
四、当前面临的主要问题
由于大数据拥有的众多特点,其在经济学上的应用得到了较快发展,但仍面临一些问题。主要体现在:
第二,经济学家对大数据的获取和处理的能力面临困境。“大数据”本身是一个从计算机领域产生的术语,经济学家真正把眼光投向大数据也是最近十几年的事情,基于大数据的研究融合了计算机、网络、信息、数学、经济学、心理学等学科的前沿知识,是一项非常复杂的研究工作,经济学家对传统的基于统计学的经济研究很擅长,但对数据挖掘、机器学习等数据处理方法普遍比较陌生,目前很多基于大数据的研究是在计算机专家的协助下开展的,这在一定程度上限制了大数据在经济学研究上的应用,经济学家从思维上转变对大数据方法是“术”的观点、掌握大数据的获取和分析技术很紧迫。唯有如此,方能真正凸显大数据的力量。
五、总结和展望
参考文献
[1]ASKITASN,ZIMMERMANNKF,GoogleEconometricsandUnemploymentForecasting[C].DiscussionPaperofDiwBerlin,2009(,55):107-120.
[2]BOLLENJ,MAOH,ZENGX,TwitterMoodPredictstheStockMarket[J].JournalofComputationalScience,2011,2(1):1-8.
[3]CAVALLOA,OnlineandOfficialPriceIndexes:MeasuringArgentina'sInflation[J].JournalofMonetaryEconomics,2013,60(2):152-165.
[4]BRANDYNBOK,DANIELECARATELLI,DOMENICOGIANNONE,ARGIASBORDONE,ANDREATAMBALOT.MacroeconomicNowcastingandForecastingwithBigData[R].FederalReserveBankofNewYorkStaffReports,no.830,2017.
[5]VMSCHONBERGER.BigData:ARevolutionThatWillTransformHowWeLive,WorkandThink[M].London,UK:JohnMurrayPublishersLtd,2013.
[6]ACAVALLO,RRIGOBON.TheBillionPriceProject:UsingOnlinePricesforMeasurementandResearch[J].JournalofEconomicPerspective,2016,30(2):151-178.
[7]李凤岐,李光明.基于搜索行为的经济指标预测方法[J].计算机工程与应用,2017(,6):215-222.
[8]ASKITASN,ZIMMERMANNKF.NowcastingBusinessByclesBsingBollData[J].Forecast,2013,32(4):299-306.
[9]PSUTTON,DROBERTS,CELVIDGE,KBAUGH.CensusfromHeaven:AnEstimateoftheGlobalHumanPopulationUsingNight-timeSatelliteImagery[J].InternationalJournalofRemoteSensing,2001,22(16):3061-3076.
[10]PCSUTTON,CDELVIDGE,TGHOSH.EstimationofGrossDomesticProductatSub-nationalScalesUsingNight-timeSatelliteImagery[J].InternationalJournalofEcologicalEconomics&Statistics,2007,8(Suppl7):5-21.
[12]MELLANDERS,STOLARICKK,MATHESONZ,LOBOJ.Night-timelightData:AGoodProxyMeasureforEconomicActivity[J].Plosone,2015,10(10).
[13]徐康宁,陈丰龙,刘修岩.中国经济增长的真实性:基于全球夜间灯光数据的检验[J].经济研究,2015(,9):17-29.
[14]范子英,彭飞,刘冲.政治关联与经济增长——基于卫星灯光数据的研究[J].经济研究,2016(,1):114-126.
[15]丁焕峰,周艳霞.从夜间灯光看中国区域经济发展时空格局[J].宏观经济研究,2017(,3):128-136.[16]EDELMANB.UsingInternetDataforEconomicResearch[J].JournalofEconomicPerspectives,2012,26(2):189-206.
[17]AMURIDF,MARCUCCIJ.ForecastingtheUSUnemploymentRatewithaGoogleJobSearchIndex[R].SocialScienceElectronicPublishing,2010.
[18]MCLARENN,SHANBHOGUER.UsingInternetSearchDataasEconomicIndicators[J].BankEngl.Q.Bull.2011,Q2,134-140.
[19]ICENTEMR,LOPEZMENENDEZAJ,PEREZR.ForecastingUnemploymentwithInternetSearchData:DoesItHelptoImprovePredictionWhenJobDestructionisSkyrocketing[J].TechnologicalForecasting&SocialChange,2015,92(92):132-139.
[20]沈淑,张璇,田晓春.网络大数据在消费者信息指数预测中的应用——基于LASSO算法和KPLSR算法[C].2015年第四届全国大学生统计建模大赛,2015.
[21]CHAMBERLAING.GooglingthePresent[J].EconomicandLabourMarkertReview,2010,4(12).
[22]DZIELINSKIM,NewsSenstivityandtheCross-sectionofStockReturns[R].NCCRFinriskworkingpaperno.719,2011.
[23]AASTVEIT,KNUTARE,GISLEJAMESNATVIK,SERGIOSOLA,EconomicUncertaintyandtheEffectivenessofMonetaryPolicy[R].NorgesBank,2013.
[24]WUL,BRYNJOLFSSONE.TheFutureofPrediction:HowGoogleSearchedForeshadowHousingPricesandSales[C].SocialScienceElectronicPublishing,2014:89-118.
[25]CHOIH,VARIANH.PredictingInitialClaimsforUnemploymentBenefits[J].SocialScienceElectronicPublishing,2010.
[26]ARTOLASN,PINTOF,CanInternetSearchesForecastTourismInflows[J].InternationalJournalofManpower,2015,36(1).
[27]许伟.基于网络大数据的社会经济监测预警研究[M].北京:科学出版社,2016.
[28]LIUY,HUANGX,ANA,YUX.SentimentAwareModelforPredictingSalesPerformanceUsingBlogs[C].The30thAnnualInternationalAcmSigirConferenceonResearchandDevelopmentinInformationRetrieval,2007:607-614.
[29]MOATHS,CURMEC,STANLEYHE,PREIST.AnticipatingStockMarketMovementwithGoogleandWikipedia[C].NATOScienceforPeaceandSecuritySeriesC:EnvironmentalSecuritySpringerScience,2013:47-59.
[31]CHONGAYL,LIUM,LIB.PredictingConsumerProductDemandsViaBigData:TheRoleofOnlinePromotionalMarketingandOnlineReviews[J].InternationalJournalofProductionResearch,2015:1-15.
[32]SCHNEIDERMJ,GUPTAS.ForecastingSalesofNewandExistingProductsUsingConsumerReviews:ARandomProjectionsApproach[J].InternationalJournalofForecasting,2016,32(2):243-256.
[33]HUN,BOSEI,KOHNS,LIUI.ManipulationofOnlineReviews:AnAnalysisofRating,Readability,andSentiments[J].Decisionsupportsystem,2012,52(3):674-684.
[34]GANDOMIA,HAIDERM.Beyondthehype;BigDataConcepts,Methods,andAnalytics[J].InternationalJournalofInformationManagement,2015,35(2):137-144.
[35]刘涛雄,徐晓飞.大数据与宏观经济分析研究综述[J].国外理论动态,2015,(1):57-64.
[36]VARIANHR.BigData:NewTricksforEconometrics[J].JournalofEconomicPerspective,2014,28(2):3-28.