基于大数据方法的经济研究:前沿进展与研究综述

摘要:随着数据挖掘和分析技术的不断提高,基于大数据方法对经济的研究日益增多,大数据对经济研究和应用具有重要的现实意义。本文梳理了近年来国内外基于大数据方法研究经济的文献,根据经济研究中使用大数据的目的将其大致归纳为3类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、寻找建立经济变量间的联系。本文介绍了基于大数据方法处理海量非结构化数据并从中获取有效信息的一般方法和主要阶段特征:数据抓取和数据分析,介绍了目前经济学在大数据挖掘和分析方面的主流工具和算法,从经济预测和验证经济理论两方面阐述了目前基于大数据的经济研究的方向,提出了现阶段大数据研究面临的数据获取和数据处理困难、基于大数据的经济分析方法的某些理论基础尚不完善的问题,并在此基础上对我国基于大数据的经济研究进行了展望。本文清晰、全面地展示了目前基于大数据的经济研究的前沿进展和发展,为基于大数据研究经济夯实了基础工作,补缺了近年来国内在基于大数据方法的经济研究综述这一领域的空白。

关键词:大数据;经济研究;综述;前沿进展

基金项目:中国社会科学院登峰战略(产业经济学)优势学科项目“基于大数据的经济监测及预警研究”

李华杰,中国社会科学院工业经济研究所高级工程师、经济学博士生;

马丽梅,中国社会科学院工业经济研究所讲师。

引言

由于大数据和网络、传输、存储、计算的天然联系,起初大数据的发展和应用主要集中在计算机等自然科学领域,经济学实证研究仍然基于以传统统计理论为基础的计量经济方法和结构化统计数据。但随着技术的不断进步和成熟,大数据拥有的样本海量、实时、数据非结构化等传统统计调查数据无法比拟的特征的实现逐渐成为可能,经济学领域基于大数据方法开展的研究活跃起来,经济学家们在通过大数据分析建立新的或完善已有经济指标、利用实时数据建立现时预测模型、预警经济、分析政策影响、使用大数据验证经济理论等方面做了许多工作,如Akkitas等(2009)[1]用google搜索数据预测失业率,Bollen等(2011)[2]通过测量Twitter上文本内容蕴含的情感指标预测经济,Cavallo等(2013)[3]通过收集大型零售商网站的每日价格更新数据实时计算了阿根廷的通货膨胀率,Bok等(2017)[4]使用实时数据和动态因子模型建立了纽约联储银行现时预测模型以预测GDP增速。

可以预见,任何基于数据分析的学科与大数据的联系将越来越紧密,经济学研究也不会例外。在目前阶段,虽然大数据概念已经提出二十多年,但经济学中真正意义上使用大数据不过是近10来年的事情,基于大数据方法研究经济在某种程度上仍然是较新的、非主流的领域,国内目前关于基于大数据研究经济的文献综述很少,本文系统地梳理了国内外主流文献中近年来基于大数据方法研究经济的文献,以形成脉络清晰的文献综述,并根据主要文献中采用的经济研究中大数据的获取、处理流程,归纳总结出目前基于大数据研究经济的一般方法和研究方向,提出了目前基于大数据研究经济面临的困难,并对大数据在经济学中的应用做了展望。

一、文献回顾

二、主要研究方法介绍

由于绝大部分大数据原始状态为非结构化数据(Gandomi和Haider(2015)[34]认为95%以上的大数据都是非结构化的),如何处理海量的非结构化数据、从中获取有效信息是经济学家面临的关键问题。与传统经济研究的方法相比,基于大数据方法的特征主要体现在数据抓取和数据分析方面:

(一)数据抓取(数据挖掘)

由于来自互联网的大数据主要是记录人们行为的文本,自然语言处理算法(NaturalLanguageProcessing)得到大量应用,它是指让计算机像人类一样能读懂人类的文本,从非结构化的文本数据中提取有效信息。目前使用较广泛的NLP算法有:情感分析(SentimentAnalysis,SA)、主题模型(LatentSemanticAnalysis,LSA)、潜在狄利克雷分布(LatentDirichletAllocation,LDA)、词频-逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)、词嵌入(WordEmbeddings,WE)、数据匹配算法(DataMatching,DM)等。

表1数据挖掘工具

(二)数据分析

为检验数据建模的准确性,经济学家一般把数据分为训练集和测试集,用训练集建立模型,用测试集检验模型,当数据容量足够大时可分为三部分:训练集、验证集和测试集。鉴于大数据复杂特性,经济学家在机器学习中采用K折交叉检验(K-FoldCross-Validation),数据被划分为K个子集,模型拟合K次,每一次都用K-1个训练集、剩下1个用于预测测试,当每个子集仅有一个观测量时便退化为一次性交叉检验(Leave-one-outCrossValidation)(Blazquez等(2017)[37])。从文献上看,目前阶段经典计量经济学的拟合优度判定系数R2、Hosmer-Lemeshow(HL)拟合优度检验、马洛斯Cp检验(Mallows'Cp)、赤池信息量准则(AkaikeInformationCriterion,AIC)、贝叶斯信息量准则(BayesianInforma-tionCriterion,BIC)、偏差和对数似然检验等检验方法仍用于对基于大数据建立模型的检验。

三、主要研究和应用方向

四、当前面临的主要问题

由于大数据拥有的众多特点,其在经济学上的应用得到了较快发展,但仍面临一些问题。主要体现在:

第二,经济学家对大数据的获取和处理的能力面临困境。“大数据”本身是一个从计算机领域产生的术语,经济学家真正把眼光投向大数据也是最近十几年的事情,基于大数据的研究融合了计算机、网络、信息、数学、经济学、心理学等学科的前沿知识,是一项非常复杂的研究工作,经济学家对传统的基于统计学的经济研究很擅长,但对数据挖掘、机器学习等数据处理方法普遍比较陌生,目前很多基于大数据的研究是在计算机专家的协助下开展的,这在一定程度上限制了大数据在经济学研究上的应用,经济学家从思维上转变对大数据方法是“术”的观点、掌握大数据的获取和分析技术很紧迫。唯有如此,方能真正凸显大数据的力量。

五、总结和展望

参考文献

[1]ASKITASN,ZIMMERMANNKF,GoogleEconometricsandUnemploymentForecasting[C].DiscussionPaperofDiwBerlin,2009(,55):107-120.

[2]BOLLENJ,MAOH,ZENGX,TwitterMoodPredictstheStockMarket[J].JournalofComputationalScience,2011,2(1):1-8.

[3]CAVALLOA,OnlineandOfficialPriceIndexes:MeasuringArgentina'sInflation[J].JournalofMonetaryEconomics,2013,60(2):152-165.

[4]BRANDYNBOK,DANIELECARATELLI,DOMENICOGIANNONE,ARGIASBORDONE,ANDREATAMBALOT.MacroeconomicNowcastingandForecastingwithBigData[R].FederalReserveBankofNewYorkStaffReports,no.830,2017.

[5]VMSCHONBERGER.BigData:ARevolutionThatWillTransformHowWeLive,WorkandThink[M].London,UK:JohnMurrayPublishersLtd,2013.

[6]ACAVALLO,RRIGOBON.TheBillionPriceProject:UsingOnlinePricesforMeasurementandResearch[J].JournalofEconomicPerspective,2016,30(2):151-178.

[7]李凤岐,李光明.基于搜索行为的经济指标预测方法[J].计算机工程与应用,2017(,6):215-222.

[8]ASKITASN,ZIMMERMANNKF.NowcastingBusinessByclesBsingBollData[J].Forecast,2013,32(4):299-306.

[9]PSUTTON,DROBERTS,CELVIDGE,KBAUGH.CensusfromHeaven:AnEstimateoftheGlobalHumanPopulationUsingNight-timeSatelliteImagery[J].InternationalJournalofRemoteSensing,2001,22(16):3061-3076.

[10]PCSUTTON,CDELVIDGE,TGHOSH.EstimationofGrossDomesticProductatSub-nationalScalesUsingNight-timeSatelliteImagery[J].InternationalJournalofEcologicalEconomics&Statistics,2007,8(Suppl7):5-21.

[12]MELLANDERS,STOLARICKK,MATHESONZ,LOBOJ.Night-timelightData:AGoodProxyMeasureforEconomicActivity[J].Plosone,2015,10(10).

[13]徐康宁,陈丰龙,刘修岩.中国经济增长的真实性:基于全球夜间灯光数据的检验[J].经济研究,2015(,9):17-29.

[14]范子英,彭飞,刘冲.政治关联与经济增长——基于卫星灯光数据的研究[J].经济研究,2016(,1):114-126.

[15]丁焕峰,周艳霞.从夜间灯光看中国区域经济发展时空格局[J].宏观经济研究,2017(,3):128-136.[16]EDELMANB.UsingInternetDataforEconomicResearch[J].JournalofEconomicPerspectives,2012,26(2):189-206.

[17]AMURIDF,MARCUCCIJ.ForecastingtheUSUnemploymentRatewithaGoogleJobSearchIndex[R].SocialScienceElectronicPublishing,2010.

[18]MCLARENN,SHANBHOGUER.UsingInternetSearchDataasEconomicIndicators[J].BankEngl.Q.Bull.2011,Q2,134-140.

[19]ICENTEMR,LOPEZMENENDEZAJ,PEREZR.ForecastingUnemploymentwithInternetSearchData:DoesItHelptoImprovePredictionWhenJobDestructionisSkyrocketing[J].TechnologicalForecasting&SocialChange,2015,92(92):132-139.

[20]沈淑,张璇,田晓春.网络大数据在消费者信息指数预测中的应用——基于LASSO算法和KPLSR算法[C].2015年第四届全国大学生统计建模大赛,2015.

[21]CHAMBERLAING.GooglingthePresent[J].EconomicandLabourMarkertReview,2010,4(12).

[22]DZIELINSKIM,NewsSenstivityandtheCross-sectionofStockReturns[R].NCCRFinriskworkingpaperno.719,2011.

[23]AASTVEIT,KNUTARE,GISLEJAMESNATVIK,SERGIOSOLA,EconomicUncertaintyandtheEffectivenessofMonetaryPolicy[R].NorgesBank,2013.

[24]WUL,BRYNJOLFSSONE.TheFutureofPrediction:HowGoogleSearchedForeshadowHousingPricesandSales[C].SocialScienceElectronicPublishing,2014:89-118.

[25]CHOIH,VARIANH.PredictingInitialClaimsforUnemploymentBenefits[J].SocialScienceElectronicPublishing,2010.

[26]ARTOLASN,PINTOF,CanInternetSearchesForecastTourismInflows[J].InternationalJournalofManpower,2015,36(1).

[27]许伟.基于网络大数据的社会经济监测预警研究[M].北京:科学出版社,2016.

[28]LIUY,HUANGX,ANA,YUX.SentimentAwareModelforPredictingSalesPerformanceUsingBlogs[C].The30thAnnualInternationalAcmSigirConferenceonResearchandDevelopmentinInformationRetrieval,2007:607-614.

[29]MOATHS,CURMEC,STANLEYHE,PREIST.AnticipatingStockMarketMovementwithGoogleandWikipedia[C].NATOScienceforPeaceandSecuritySeriesC:EnvironmentalSecuritySpringerScience,2013:47-59.

[31]CHONGAYL,LIUM,LIB.PredictingConsumerProductDemandsViaBigData:TheRoleofOnlinePromotionalMarketingandOnlineReviews[J].InternationalJournalofProductionResearch,2015:1-15.

[32]SCHNEIDERMJ,GUPTAS.ForecastingSalesofNewandExistingProductsUsingConsumerReviews:ARandomProjectionsApproach[J].InternationalJournalofForecasting,2016,32(2):243-256.

[33]HUN,BOSEI,KOHNS,LIUI.ManipulationofOnlineReviews:AnAnalysisofRating,Readability,andSentiments[J].Decisionsupportsystem,2012,52(3):674-684.

[34]GANDOMIA,HAIDERM.Beyondthehype;BigDataConcepts,Methods,andAnalytics[J].InternationalJournalofInformationManagement,2015,35(2):137-144.

[35]刘涛雄,徐晓飞.大数据与宏观经济分析研究综述[J].国外理论动态,2015,(1):57-64.

[36]VARIANHR.BigData:NewTricksforEconometrics[J].JournalofEconomicPerspective,2014,28(2):3-28.

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
2.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn应用算法 为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
3.数据挖掘的主要技术和应用数据挖掘(Data Mining)是一种利用统计学、机器学习、数据库、算法等方法从大量数据中发现隐藏的模式、规律和知识的科学。数据挖掘技术广泛应用于商业、金融、医疗、科学等领域,为决策提供有价值的信息和洞察,提高了企业的竞争力和效率。 在本文中,我们将从以下几个方面进行阐述: https://blog.csdn.net/universsky2015/article/details/137300243
4.常见的数据挖掘方法有哪些帆软数字化转型知识库通过掌握这些数据挖掘方法,企业和组织能够从海量数据中提取出有价值的洞察,帮助决策和优化业务流程。 数据挖掘方法的应用场景有哪些? 数据挖掘技术的应用场景非常广泛,涵盖了各个行业和领域。以下是一些主要的应用场景: 市场营销:企业可以利用数据挖掘技术分析消费者行为,识别目标市场,制定个性化的营销策略。通过聚类分析,企https://www.fanruan.com/blog/article/615481/
5.数据挖掘七种常用的方法汇总腾讯云开发者社区数据挖掘七种常用的方法汇总 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可https://cloud.tencent.com/developer/article/1892597
6.数据挖掘及入门应用方法!数据科学是一个跨学科领域,使用科学的方法、过程、算法和系统从许多结构化和非结构化数据中提取知识和见解。数据科学与数据挖掘、深度学习和大数据有关。 数据科学和数据挖掘之间最大的区别可能在于它们的术语。数据科学是一个广泛的领域,包括捕获数据、分析数据并从中获得洞察力的过https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247625992&idx=1&sn=1f7ed90e0d767ac5a531f6395fe4f29a&chksm=e9efe483de986d9572277da431decb42365598d623cf41e053669f0850410a34339ee5e4639a&scene=27
7.如何进行数据挖掘(数据挖掘方法与应用)数据挖掘是从大量数据中通过算法和统计模型提取模式与知识的过程,它广泛应用于商业智能、金融分析、市场分析、医疗诊断等领域,以下是进行数据挖掘的步骤和方法: (图片来源网络,侵删) 1. 确定问题和目标 在任何数据挖掘项目开始之前,必须明确你希望通过数据挖掘解决的问题以及你的目标是什么,这将指导后续的数据收集和分https://www.kdun.com/ask/490583.html
8.数据挖掘方法与应用数据挖掘方法与应用 主讲教师:徐雪琪 副教授 /浙江工商大学 第5期第3期 起止日期:2024-02-26至2024-06-30 预报名进行中已结束 学时:48学时http://manage.xueyinonline.com/detail/241102772
9.数据挖掘:方法与应用数据挖掘:方法与应用_12178975.pdf 252页大小:61.42 MB 字数:约小于1千字 发布时间:2017-10-01发布于河南 浏览人气:51 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)数据挖掘:方法与应用_12178975.pdf 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 https://max.book118.com/html/2017/0930/135272984.shtm
10.数据挖掘:方法与应用(第2版)(豆瓣)我来说两句 短评 ··· 热门 / 最新 / 好友 还没人写过短评呢 我要写书评 数据挖掘:方法与应用(第2版)的书评 ··· ( 全部0 条 ) 论坛 ··· 在这本书的论坛里发言 当前版本有售 ··· 当当网 33.20元 购买纸质书 + 加入购书https://book.douban.com/isbn/978-7-302-60144-9/
11.清华大学出版社图书详情本书主要根据作者近几年在清华大学面向研究生和本科生开设的“数据挖掘:方法与应用”课程的教学实践与积累,参考近几年国外著名大学相关课程的教学体系编写而成。本书系统地介绍数据挖掘的基本概念和基本原理方法;结合一些典型的应用实例展示用数据挖掘的思维方法求解问题的一般性模式与思路。本书可作为有一定数据结构、http://www.tup.tsinghua.edu.cn/booksCenter/book_09444801.html
12.《数据挖掘:方法与应用(第2版)》(徐华)简介书评当当网图书频道在线销售正版《数据挖掘:方法与应用(第2版)》,作者:徐华,出版社:清华大学出版社。最新《数据挖掘:方法与应用(第2版)》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《数据挖掘:方法与应用(第2版)》,就上当当网。http://product.dangdang.com/29391892.html
13.数据挖掘:方法与应用数据挖掘方法与应用 作者:徐雪琪 ISBN:9787302550624 出版社:清华大学出版社 出版年:2020 数据挖掘 :方法与应用 作者:徐华 ISBN:9787302369011 出版社:清华大学出版社 出版年:2014 化学数据挖掘方法与应用 作者:陆文聪 ISBN:9787122127082 出版社:化学工业出版社 出版年:2012 Clementine数据挖掘方法及应用 作者:薛微https://www.las.ac.cn/front/book/detail?id=ff2780104f7944caad3eaea53534ec3b
14.数据挖掘:方法与应用中图分类号查询中国图书馆分类法数据挖掘 : 方法与应用 — 徐华编著 序号相关图书著者出版年 1机器学习导论(土)埃塞姆·阿培丁(Ethem Alpaydin)著2016 2数据挖掘技术与应用陈燕编著2016 3数据科学朝乐门编著2016 4MATLAB R2015a数字图像处理丁伟雄编著2016 5机器学习与R语言(美) Brett Lantz著2015 https://www.clcindex.com/book/view/96E48EFAEF5CEA1DC9AA066DFD7C956E/
15.NMath应用教程:医学与数据挖掘方法详解控件新闻SIGA是世界领先的传染病预防与药物研发公司。使用NMath的曲线拟合功能,SIGA科学家们成功创建了一个“剂量—反应”的逻辑曲线模型。像这种X-Y型的曲线拟合模型在医学相关领域,还有很多类似的应用。 数据挖掘应用——层次聚类 层次聚类是统计分析中的一个常用算法,其算法简单、快速而且能有效地处理大数据集,所以在数据挖https://www.evget.com/article/2012/12/6/18226.html
16.基于数据挖掘的高校学生行为分析方法与应用研究【摘要】:随着大数据与人工智能等新技术的发展,将大数据挖掘技术与教育行业相结合以提高学校智慧管理水平的方法日益受到关注与重视。目前,各大高校校园建设已经从数字化校园建设时代步入智慧校园建设时代。高校开始逐步地对已建设的校园一卡通系统、教务系统等校园应用系统进行整合,并对所采集的各大应用系统的历史数据进行挖https://cdmd.cnki.com.cn/Article/CDMD-10590-1020660088.htm
17.R语言数据挖掘方法及应用(薛薇著)完整pdf扫描版[188MB]电子书下R语言数据挖掘方法及应用下载 投诉报错 书籍大小:188MB 书籍语言:简体中文 书籍类型:国产软件 书籍授权:免费软件 书籍类别:编程其它 应用平台:PDF 更新时间:2018-08-08 购买链接:京东异步社区 网友评分: 360通过腾讯通过金山通过 188MB 详情介绍 大数据不仅意味着数据的积累、存储与管理,更意味着大数据的分析。数据挖https://www.jb51.net/books/630445.html
18.数据挖掘及其在金融中的应用主要是采用人工智能相关方法作出预测,它能够实现统计回归预测和统计时间序列预测的功能,并且假设条件要比统计预测要宽松得多,甚至有些没有什么假设条件,精度上也与他们相当甚至比它们要好。 数据挖掘的类型,可能还不止这些,以上仅是一般的界定,正因为我们对数据挖掘的类型作出了界定,不同的类型也有对应的挖掘模型与算法https://www.jianshu.com/p/474504df2bdd
19.数据挖掘论文二、数据挖掘的现代最新方法介绍 常用的数据挖掘方法主要有决策树(Decision Tree)、遗传算法(Genetic Algorithms)、关联分析(Association Analysis).聚类分析(C~smr Analysis)、序列模式分析(Sequential Pattern)以及神经网络(Neural Networks)等。 三、数据挖掘的实际应用 https://www.unjs.com/lunwen/f/20220924130749_5650839.html
20.数据挖掘与分析的六种经典方法论AOSP-SM是ApplicationOriented StandardProcess for Smart Mining 的首字母缩写,翻译成中文是“应用为导向的敏捷挖掘标准流程”,它是思迈特公司(SMARTBI)基于跨行业数据挖掘过程标准(CRISP-DM)和SAS的数据挖掘方法(SEMMA)两种方法论总结而来的一种面向应用的用于指导数据挖掘工作的方法。 https://www.niaogebiji.com/article-30475-1.html