适用于社会经济统计的大数据技术方法

本文围绕大数据概念剖析、大数据收集清洗转换等准备工作以及大数据技术的基本理论和方法,对社会经济统计常用的大数据技术方法以及软件使用进行说明,并提出了统计学理论及应用研究未来发展趋势,以期为大数据和统计业务的结合应用提供一个通用技术简明手册,供业务人员借鉴使用。

一、大数据概念剖析

二、数据处理

数据准备是模型开发过程中最重要的步骤之一。本节将较为系统地介绍网页数据获取和去噪、缺失值填充、不平衡数据处理和数据变换等内容。

(一)定向资料收集——网络爬虫

(二)数据去噪

数据去噪是数据分析的重要前提,能否有效消除数据噪声直接影响到算法有效性。常见方法主要有:聚类方法将相似或相邻近的数据聚合到一起形成各个聚类集合,落在聚类集合之外的值被认为是孤立点,作为噪声删除;样条方法通过一组给定数据点的曲线拟合数据,可通过调整曲线光滑度去除噪声;Bin方法通过利用数据点周围的值对数据进行平滑,排序后数据被分配到“桶”或箱中。

(三)缺失值处理

(四)不平衡数据处理

数据集的类别分布表现出失衡时,称为不平衡数据。处理方法有以下两种:

1.数据层面的采样处理。当数据由于随机欠采样造成信息丢失时,可采用EasyEnsemble、BalanceCascade等改进的采样算法;当随机过采样发生模型过拟合问题时,可采用基于数据合成的过采样方法SMOTE,通过KNN技术模拟生成少数类别的新样本并添加到数据集中;采用基于聚类的采样方法,先分别对正负例样本进行聚类,再进行过采样或欠采样方法,解决类间和类别内部不平衡问题。

(五)数据变换

1.数据标准化。由于数据量纲不同,常用最小-最大标准化、标准差标准化等方法进行数据标准化。

2.消减数据维数。一是主成分分析,把原来的指标重新组合为一组新的互相无关的几个综合指标来代替原有指标,同时根据实际需要从中选取几个影响较大的综合指标来表示原有指标的信息;二是小波分析法,通过小波变换把一个数据向量转换为另一个数据向量,且这两个向量的长度相同。实际应用中一般使用通用层次算法(HierarchicalPyramidAlgorithm)在每次循环时把数据一分为二处理,以获得更高的运算效率。

三、社会经济统计大数据技术方法

本节主要介绍常见的适用于社会经济统计的大数据方法及实现软件简介。

(一)网络分析

社会网络(SocialNetwork)是由社会关系构成的网络结构。其中,网络节点表示社会行动者,通常指个体或组织,如个人、公司、城市、国家等,网络连边表示行动者之间的关系,通常指节点间的各种社会互动关系,如朋友关系、竞争关系、贸易关系等,整合而成的网络结构将社会行动者通过其社会关系连接串联起来,形成社会网络。相比传统统计方法常用于“属性数据”的分析,社会网络适用于“关系数据”的分析,通过数学分析、图论等定量分析方法研究网络关系,有助于把个体间关系、“微观”网络与大规模的社会系统的“宏观”结构结合起来。

R语言程序包igraph可用于社会网络的可视化、网络特征分析等研究。

(二)粗糙集

粗糙集理论(RoughSet)是一种用于处理不确定性和不精确性知识的数学工具。其基本思想是在保持分类能力不变的前提下,通过知识约简提取分类或决策规则。它以不完全信息处理不分明现象,或依据观察、度量到的某些不精确结果进行数据分类。

1.数据降维。属性约简或知识约简是粗糙集理论的核心内容之一。属性约简在保持信息系统分类能力不变的情况下,删除冗余变量。随着大数据的快速发展,数据集的规模变得越来越大,粗糙集可通过无监督学习实现对高维数据的降维目的。

2.事务项压缩。粗糙集的属性约简针对的是高维数据降维,大数据的事务项压缩则是通过数据库压缩解决这一问题,将一些无关或多余的信息丢掉而不影响其原有的功能。使用信息熵作为信息源统计量度,压缩后提供的信息量可以反映原有信息系统。R语言Roughsets包可用于实现粗糙集方法。

(三)文本挖掘

文本数据挖掘是从自然语言文本中挖掘用户所感兴趣的模式和知识的技术,其难点在于对非结构化自然语言文本内容的分析和理解。通常利用智能算法抽取或标记关键字词、字词间的关系,并按照内容对文本进行分类或聚类,获取有用的模式和知识。

1.文本数据预处理。首先对非结构化数据进行初步清洗,如去重、缺失值处理、无效字符过滤等;然后对文本分词,主要方法有基于词表的分词方法(如正向最大匹配法)、基于统计模型的分词方法(如N-gram语言模型)、基于序列标注的分词方法(如隐马尔科夫模型)。常用分词工具有中科院的ICTCLAS、jieba等,ICTCLAS算法支持用户自定义词典,对新词、人名、地名等的发现具有良好效果,对应R包为jiebaR;jieba分词工具词性标注方便,具有更快的分词速度,对应R包为Rwordseg。

2.文本表示。文本表示是用文本的特征集合来代表原始文本的过程。

(1)离散式文本表示。一是One-Hot编码,将词表示成一个向量,向量中当前词的位置的值为1,其余的位置为0,得到高维稀疏矩阵;二是词袋模型,利用词频来建立向量;三是TF-IDF模型,可区分常用词和专有名词对文本的重要性。

(2)分布式文本表示。常用Word2vec模型训练词向量,包括两种方法,一是CBOW(continuousbag-of-wordsmodel)利用上下文的词预测中心目标词,二是Skip-gram模型利用中心目标词预测上下文的词。

3.主要应用。

(1)文本分类。根据一个已经被标注的训练文本集合找到文本特征和文本类别之间的关系模型,并利用此模型对新文本进行类别判断。常用的文本分类算法包括:朴素贝叶斯、Logistic回归、最大熵模型、K-最近邻、支持向量机、随机森林以及以卷积神经网络和循环神经网络为代表的深度神经网络技术等。

(2)文本聚类。将给定文本集按照某种特征划分为不同类别,可提供大规模文档集内容的总括,识别隐藏的文档间的相似度等。具体算法包括:K-均值聚类、单遍聚类、层次聚类、密度聚类、基于网格的聚类、基于子空间的聚类、基于神经网络的聚类、图聚类、谱聚类和后缀树聚类等。

(3)主题模型。将文本向量从高维词项空间映射到一个低维语义空间,挖掘隐含在词汇背后的主题和概念。常用模型包括:潜在语义分析、概率潜在语义分析和潜在狄克雷分布等。

(4)情感分析与观点挖掘。对带有情感色彩的主观性文本进行提取、分析、处理、归纳和推理,根据文本所表达的观点和态度等主观信息进行分类。

(四)深度神经网络

深度学习经常应用于各种监督模型的识别问题,包含输入层、输出层以及多个隐藏层。传统的多层感知神经网络训练的反向传播(BP)算法为核心算法。

1.自编码机(AE)与限制性玻尔兹曼机(RBM)。其基本原理是基于非监督学习找到数据内在规律的特征表示,然后用于监督学习的深层神经网络模型中。自编码机的网络结构有编码器和解码器两部分,将输入信息作为学习目标进行特征学习及降维。限制性玻尔兹曼机是通过建立概率分布和能量函数间的关系,求解出能量函数,并且刻画出数据内在的规律。方法实现主要采用python语言,多层自编码器是首先导入tensorflow和Dense模块,通过Dense构造编码层和解码层,然后通过Model搭建编码模型,最后训练自编码器;限制性玻尔兹曼机可以通过sklearn.neural_network导入。

2.卷积神经网络(CNN)。CNN一般包含降采样层、卷积层、全连接层以及输出,进行特征提取是卷积层的作用。采用CNN方法把一句话转化成二维矩阵,卷积核的宽度选用词向量维数,对矩阵进行卷积操作,从而从句子中提取关键词语、词组特征。通过R软件加载keras、caret库,导入数据集,定义和拟合模型,可以实现卷积神经网络。

3.递归神经网络(RNN)。RNN是对序列型数据进行建模,需要保留序列上下文的信息,所以它的隐节点中存在反馈环,即当前时刻的隐含节点值不仅和当前节点的输入有关系,还与前一时刻的隐含节点值有关系。可利用长短时记忆模型(LSTM)来改进RNN梯度消散现象。使用R软件安装并运行包rnn、包digest,并设置网络参数,即可实现RNN。

4.生成对抗网络(GAN)。GAN不依赖任何分布假设,以简单的方式从潜在空间生成真实的样本。可使用python语言实现,在tensorflow框架下导入keras,使用keras.Sequential搭建生成器模型和辨别器模型,通过定义批次训练函数实现参数训练。

(五)集成算法

集成学习(ensemblelearning)是用于训练多个学习器并组合输出的过程。其基本思想是认识到现实世界中每个模型都有其局限性,并且可能会出错,集成学习的目的是管理它们的优势和劣势,最终做出最佳决策。

主要方法有:一是提升法(Boosting),建立在其它分类的基础上为每个训练样本集分配一个权重,最终合并到模型中。其中,XGBoost算法在分类效果、业务解释性、建模效率等方面获得了业界广泛的认可;二是套袋法(Bagging),对所有基学习器一致对待,在大部分情况下,经过bagging得到的结果方差更小;三是堆叠法(Stacking),核心思想是通过增加基学习器的异质性和使用元学习组合基学习器预测的结果来减少泛化误差。

集成算法的实现代码可查询R语言mlr包和mlbench包。

(六)正则化模型

正则化可以进行系数压缩估计,是一种常用的大数据技术方法。社会经济统计中常常遇到高维小样本数据,此类数据的特点是自变量维度远远大于样本量,数据包含许多与因变量无关的冗余变量,影响模型的解释力度和估计精度,且样本量小容易导致过拟合问题,降低模型的泛化能力和稳定性。正则化是结构风险最小化策略的实现,该方法基于全部解释变量建模,在经验风险上加正则化项(惩罚项),通过对系数加惩罚约束将系数估计值往零的方向压缩。常用的正则化方法有岭回归、Lasso以及基于VAR(p)的Lasso方法。

(七)贝叶斯方法与深度学习

贝叶斯深度学习是结合深度学习和贝叶斯模型的概率框架,通过对文本或图像、音频等的感知提升更高层次推理的能力,实现双向反馈和推断。

1.贝叶斯网络。作为一种不确定性的因果推断模型,贝叶斯网络的拓扑结构是一个有向无环图(DAG),每个节点代表一个随机变量,节点之间的边代表随机变量间的概率依赖关系。将有因果关系的变量用箭头来连接,若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另一个是“果”,两节点就会产生一个条件概率值。在概率图中,用贝叶斯网络或马尔科夫随机场转换为因子图变量,再结合Sum-product等算法高效地求解各变量的边缘分布。

3.非参数贝叶斯模型。非参数贝叶斯模型中参数的先验分布具有非参数的特点,参数个数会随着数据的变化自适应地调整,有更强的描述数据能力,这种特性对于解决大数据背景下的复杂问题尤为重要。贝叶斯非参数模型包括未知成分的混合模型、隐式特征模型、刻画连续函数的高斯过程等。

(八)函数型数据分析

函数型数据分析在处理曲线和图像数据中具有较大优势。函数型数据本质上是无限维的,对函数型数据进行建模和统计推断的关键是对函数变量进行降维。降维技术主要有:一是函数型主成分,把具有无限维特征的函数型数据转换为有限维的得分向量,起到降维作用;二是函数型数据聚类,函数型数据具有无穷维特征,首先对函数型数据之间的相异性程度进行度量,然后使用已有的聚类算法进行聚类,其中常见的相异性程度度量方法有距离、基于模型的相异性度量、基于主成分的相异性度量和基于函数曲线极值点的相异性度量。

四、大数据背景下的统计学理论及应用研究展望

本节从以下六个方面展示大数据背景下统计学研究的重要领域及方向,为统计工作者的研究方向提供参考。

(一)处理社会经济复杂适应系统的统计学理论与方法研究

社会经济动态随机系统是一个以人为核心,涉及人类活动的各个方面和生存环境的诸多复杂因素的巨系统,它是一类重要的、典型的复杂适应系统(CAS)。社会经济复杂适应系统具有若干特殊的情况与性质,使得它更难于认识、描述和控制。类似的例子还经常在环境、生态问题中遇到,如地球气候状况、温室效应问题、环境污染状况、大范围变化问题等。传统的统计学方法的适用性受到限制,需要全新的统计理论方法进行处理,这将是今后相当长时期内统计学发展的重要趋势之一。

(二)数据要素的开发与应用研究

(三)数字经济测度研究

数字经济的发展给传统经济统计带来挑战,其研究可从以下几个方向开展:数据经济运行机制模拟及运行状况评价研究;数字经济核算的系统理论框架与方法体系研究;数字经济环境下的宏观经济的统计监测及预警研究;数字经济与经济增长和其他产业的联动效应研究等。

(四)大数据质量提升研究

(五)遥感信息与空间统计学的理论和应用研究

自然灾害的预测、传染病聚集性的发现、交通行为预测等;遥感大数据内在的结构特征和存在形式的建模问题,针对研究学习机制或途径,研究如何有效利用数据和信息,数据降维、特征选择、模式分类和知识表达等方面都面临着新的问题。

(六)社会经济大数据计算研究(计算社会经济学)

通过卫星遥感、移动通讯、社交媒体、物联网等产生的新型数据对以统计分析为主要工具的传统社会科学研究者提出了挑战。这些数据规模更大、实时性更强、精度更高,通过分析可以更好地把握社会经济态势,启发和孕育新理论,发现可能的异常,预测未来的趋势等。应用领域可延伸到利用物联网数据进行决策科学化的应用、利用通讯定位数据进行风险风控方面的应用,以及统计学方法和计算机结合在社会科学研究中的应用等。

感谢国家统计局统计科学研究所汤志华,根据项目报告在整理和撰写过程中做了大量的工作。

项目:2020年国家统计局重大专项“适用于社会经济统计的大数据技术方法体系研究”(2020ZX20)

项目负责人:朱建平

项目组成员:陈宇晟、冯冲、符羽彤、梁振杰、苏萌、孙俊歌、唐鑫寅、王玮玮、王玉莹、翁福添、吴淇、吴小龙、谢邦昌、叶玲珑、于洋、郑陈璐、朱建平、庄穆妮(按姓氏拼音先后为序)

项目单位:厦门大学管理学院、厦门大学健康医疗大数据国家研究院、厦门大学数据挖掘研究中心

THE END
1.深入探讨如何有效分析大数据的实用方法与技巧数据源描述性数据分析是大数据处理的核心部分。通过各种分析技术,可以从数据中提取出有价值的信息和洞见。 1. 描述性分析 (Descriptive Analytics) 描述性分析旨在总结和描述数据的特征。常用的方法包括统计分析、数据可视化和数据汇总。通过描述性分析,可以了解数据的基本趋势和模式。 https://www.163.com/dy/article/JGI01EC60556A727.html
2.统计分析方法有哪几种统计分析方法包括:描述统计、假设检验、信度分析、列联表分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析、生存分析、典型相关分析、roc分析和其他分析方法。 统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题做出一定结论的方法。统计方法是一种从微观结https://xue.baidu.com/okam/pages/strategy-tp/index?strategyId=115397028131397&source=natural
3.大数据常用统计方法有哪些大数据常用统计方法有哪些 参考链接:https://blog.csdn.net/lmseo5hy/article/details/79542571大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略https://blog.51cto.com/topic/dashujuchangyongtongjifangfayouneixie.html
4.大数据面试题Mortion然后使用Trie树活着Hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有top K中求出最终的top K。 eg:有1亿个浮点数,如果找出期中最大的10000个? 最容易想到的方法是将数据全部排序,然后在排序后的集合中进行查找,最快的排序算法的时间复杂度一般为O(nlogn),https://www.cnblogs.com/mortion/p/9519149.html
5.大数据的数据挖掘方案有哪些?大数据的数据挖掘方案有:1、神经网络方法;2、遗传算法;3、决策树方法;4、粗糙集方法;5、覆盖正例排斥反例方法;6、统计分析方法;7、模糊集方法。关于数据挖掘,你必须知道的几个主要方法数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的https://www.linkflowtech.com/news/1986
6.如何准确计算和分析数据?这些数据的计算方法有何实际应用?在分析数据时,统计学方法是不可或缺的工具。方差分析可以比较不同组数据之间的差异,相关性分析能揭示变量之间的关联程度。例如,研究广告投入与销售额之间的关系,通过相关性分析可以判断两者是否存在显著的正相关或负相关。 此外,数据可视化也是帮助理解和分析数据的重要手段。通过制作图表,如柱状图、折线图、饼图等,可以https://stock.hexun.com/2024-12-14/216182968.html
7.统计常用调查方法,你知道几种?统计调查是根据调查的目的与要求,运用科学的调查方法,有计划、有组织地搜集统计资料的统计工作过程。《中华人民共和国统计法》规定:搜集、整理统计资料,应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料。那么,政府https://mp.weixin.qq.com/s?__biz=MzIzMjk0MjI5Nw==&mid=2247518666&idx=4&sn=f9755943e0b012583ef720b01390356a&chksm=e88ff67cdff87f6a17b4b92fe5b7da2f6fb94b2bde4428d82f151b76f3709f4e0d0b279d36de&scene=27
8.大数据预处理的方法有哪些?初级会计职称大数据预处理的方法有哪些? 摘要:本文介绍了大数据预处理的常用方法,包括数据清洗、数据转换、特征选择、数据集成、数据降维、数据采样、数据平滑和数据聚合。这些方法可以帮助数据分析人员消除误差和偏差,得到更准确的分析结果。 本文资料:【2024年初级会计实务小册子-知识点+考法】【2024年初级会计经济法基础小册子-https://www.educity.cn/cjkj/5263163.html
9.Web日志安全分析浅谈4.无恶意webshell访问记录,刚才我们采用的方法是通过“webshell”这个文件名从日志中找到恶意行为,如果分析过程中我们没有找到这么一个恶意webshell访问,又该从何入手寻找攻击者的攻击路径呢? 5.分析过程中我们还使用恶意行为关键字来对日志进行匹配,假设攻击者避开了我们的关键字进行攻击?比如使用了各种编码,16进制、Bashttps://xz.aliyun.com/t/1121
10.数据统计方法范文12篇(全文)大数据的统计分析方法 第2篇 一、指标对比分析法指标对比分析法 统计分析的八种方法 一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法,有比较才能鉴别。 指标分析对比分析方法可分为静态比较和动态比较分析。静态比较是同一时间条件https://www.99xueshu.com/w/ikeytljljdto.html
11.数据分析预测的方法有哪些7、离中趋势分析。 1、因子分析方法 所谓的因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。 数据分析预测的方法有哪些 企服解答 数据分析预测的方法有:1、因子分析方法;2、回归分析方法;3、平均分析法;4、交叉分析法;5、综合评价分析法;6、集中趋https://36kr.com/p/1491385367556226
12.生物大数据统计方法在生物信息学“精细定位”(fine第二,已经做过严格的quality control。 第三,大样本,确保提供足够的power。 满足必备前提之后,我们进行fine-mapping,分成两部分,statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping,简单介绍一下统计方法在fine-mapping中的应用。 https://cloud.tencent.com/developer/article/1085394
13.大数据的统计分析方法.doc百度文库统计分析方法有哪几种?下面天互数据将详细阐述, 并介绍一些常用的统计分析软件。一、指标对比分析法指标对比分析法统计分析的八种方法一、 指标对比分析法指标对比分析法, 又称比较分析法,是统计分析中最常用的方法。 是通过有关的指标对比来反映事物数量上差异和变化的方法 , 有比较才能鉴别。指标分析对比https://m.renrendoc.com/paper/142526487.html
14.大数据的统计分析方法(5页)统计分析方法有哪几种?下面天互数据将详细阐述,并介绍一些常用的统计分析软件。 一、指标对比分析法指标对比分析法 统计分析的八种方法一、指标对比分析法指标对比分析法,又称比较分析法,是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法,有比较才能鉴别。 指标分析对比分析方法可分https://mip.book118.com/html/2019/1015/7005103115002063.shtm
15.大数据学试题及答案(精选8篇)1、当前大数据技术的基础是由( C)首先提出的。 (单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。 (单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是( C)。 (单选https://www.hrrsj.com/jiaoxue/shitishijuan/777117.html
16.周翔:作为法学研究方法的大数据技术第二,“左文”中提到“需要将小数据社科研究中已普遍运用和相对成熟的数据分析方法……运用到大数据分析中”。7社会科学中开展定量研究,是以统计学原理为根基的,这和大数据技术联系密切的机器学习方法之间有何差异?法学研究又能够吸取大数据技术中的哪些优势?第三,左文中还提到“一些大数据法律研究缺乏必要的问题意识,https://www.legal-theory.org/?mod=info&act=view&id=26229