适用于社会经济统计的大数据技术方法

本文围绕大数据概念剖析、大数据收集清洗转换等准备工作以及大数据技术的基本理论和方法,对社会经济统计常用的大数据技术方法以及软件使用进行说明,并提出了统计学理论及应用研究未来发展趋势,以期为大数据和统计业务的结合应用提供一个通用技术简明手册,供业务人员借鉴使用。

一、大数据概念剖析

二、数据处理

数据准备是模型开发过程中最重要的步骤之一。本节将较为系统地介绍网页数据获取和去噪、缺失值填充、不平衡数据处理和数据变换等内容。

(一)定向资料收集——网络爬虫

(二)数据去噪

数据去噪是数据分析的重要前提,能否有效消除数据噪声直接影响到算法有效性。常见方法主要有:聚类方法将相似或相邻近的数据聚合到一起形成各个聚类集合,落在聚类集合之外的值被认为是孤立点,作为噪声删除;样条方法通过一组给定数据点的曲线拟合数据,可通过调整曲线光滑度去除噪声;Bin方法通过利用数据点周围的值对数据进行平滑,排序后数据被分配到“桶”或箱中。

(三)缺失值处理

(四)不平衡数据处理

数据集的类别分布表现出失衡时,称为不平衡数据。处理方法有以下两种:

1.数据层面的采样处理。当数据由于随机欠采样造成信息丢失时,可采用EasyEnsemble、BalanceCascade等改进的采样算法;当随机过采样发生模型过拟合问题时,可采用基于数据合成的过采样方法SMOTE,通过KNN技术模拟生成少数类别的新样本并添加到数据集中;采用基于聚类的采样方法,先分别对正负例样本进行聚类,再进行过采样或欠采样方法,解决类间和类别内部不平衡问题。

(五)数据变换

1.数据标准化。由于数据量纲不同,常用最小-最大标准化、标准差标准化等方法进行数据标准化。

2.消减数据维数。一是主成分分析,把原来的指标重新组合为一组新的互相无关的几个综合指标来代替原有指标,同时根据实际需要从中选取几个影响较大的综合指标来表示原有指标的信息;二是小波分析法,通过小波变换把一个数据向量转换为另一个数据向量,且这两个向量的长度相同。实际应用中一般使用通用层次算法(HierarchicalPyramidAlgorithm)在每次循环时把数据一分为二处理,以获得更高的运算效率。

三、社会经济统计大数据技术方法

本节主要介绍常见的适用于社会经济统计的大数据方法及实现软件简介。

(一)网络分析

社会网络(SocialNetwork)是由社会关系构成的网络结构。其中,网络节点表示社会行动者,通常指个体或组织,如个人、公司、城市、国家等,网络连边表示行动者之间的关系,通常指节点间的各种社会互动关系,如朋友关系、竞争关系、贸易关系等,整合而成的网络结构将社会行动者通过其社会关系连接串联起来,形成社会网络。相比传统统计方法常用于“属性数据”的分析,社会网络适用于“关系数据”的分析,通过数学分析、图论等定量分析方法研究网络关系,有助于把个体间关系、“微观”网络与大规模的社会系统的“宏观”结构结合起来。

R语言程序包igraph可用于社会网络的可视化、网络特征分析等研究。

(二)粗糙集

粗糙集理论(RoughSet)是一种用于处理不确定性和不精确性知识的数学工具。其基本思想是在保持分类能力不变的前提下,通过知识约简提取分类或决策规则。它以不完全信息处理不分明现象,或依据观察、度量到的某些不精确结果进行数据分类。

1.数据降维。属性约简或知识约简是粗糙集理论的核心内容之一。属性约简在保持信息系统分类能力不变的情况下,删除冗余变量。随着大数据的快速发展,数据集的规模变得越来越大,粗糙集可通过无监督学习实现对高维数据的降维目的。

2.事务项压缩。粗糙集的属性约简针对的是高维数据降维,大数据的事务项压缩则是通过数据库压缩解决这一问题,将一些无关或多余的信息丢掉而不影响其原有的功能。使用信息熵作为信息源统计量度,压缩后提供的信息量可以反映原有信息系统。R语言Roughsets包可用于实现粗糙集方法。

(三)文本挖掘

文本数据挖掘是从自然语言文本中挖掘用户所感兴趣的模式和知识的技术,其难点在于对非结构化自然语言文本内容的分析和理解。通常利用智能算法抽取或标记关键字词、字词间的关系,并按照内容对文本进行分类或聚类,获取有用的模式和知识。

1.文本数据预处理。首先对非结构化数据进行初步清洗,如去重、缺失值处理、无效字符过滤等;然后对文本分词,主要方法有基于词表的分词方法(如正向最大匹配法)、基于统计模型的分词方法(如N-gram语言模型)、基于序列标注的分词方法(如隐马尔科夫模型)。常用分词工具有中科院的ICTCLAS、jieba等,ICTCLAS算法支持用户自定义词典,对新词、人名、地名等的发现具有良好效果,对应R包为jiebaR;jieba分词工具词性标注方便,具有更快的分词速度,对应R包为Rwordseg。

2.文本表示。文本表示是用文本的特征集合来代表原始文本的过程。

(1)离散式文本表示。一是One-Hot编码,将词表示成一个向量,向量中当前词的位置的值为1,其余的位置为0,得到高维稀疏矩阵;二是词袋模型,利用词频来建立向量;三是TF-IDF模型,可区分常用词和专有名词对文本的重要性。

(2)分布式文本表示。常用Word2vec模型训练词向量,包括两种方法,一是CBOW(continuousbag-of-wordsmodel)利用上下文的词预测中心目标词,二是Skip-gram模型利用中心目标词预测上下文的词。

3.主要应用。

(1)文本分类。根据一个已经被标注的训练文本集合找到文本特征和文本类别之间的关系模型,并利用此模型对新文本进行类别判断。常用的文本分类算法包括:朴素贝叶斯、Logistic回归、最大熵模型、K-最近邻、支持向量机、随机森林以及以卷积神经网络和循环神经网络为代表的深度神经网络技术等。

(2)文本聚类。将给定文本集按照某种特征划分为不同类别,可提供大规模文档集内容的总括,识别隐藏的文档间的相似度等。具体算法包括:K-均值聚类、单遍聚类、层次聚类、密度聚类、基于网格的聚类、基于子空间的聚类、基于神经网络的聚类、图聚类、谱聚类和后缀树聚类等。

(3)主题模型。将文本向量从高维词项空间映射到一个低维语义空间,挖掘隐含在词汇背后的主题和概念。常用模型包括:潜在语义分析、概率潜在语义分析和潜在狄克雷分布等。

(4)情感分析与观点挖掘。对带有情感色彩的主观性文本进行提取、分析、处理、归纳和推理,根据文本所表达的观点和态度等主观信息进行分类。

(四)深度神经网络

深度学习经常应用于各种监督模型的识别问题,包含输入层、输出层以及多个隐藏层。传统的多层感知神经网络训练的反向传播(BP)算法为核心算法。

1.自编码机(AE)与限制性玻尔兹曼机(RBM)。其基本原理是基于非监督学习找到数据内在规律的特征表示,然后用于监督学习的深层神经网络模型中。自编码机的网络结构有编码器和解码器两部分,将输入信息作为学习目标进行特征学习及降维。限制性玻尔兹曼机是通过建立概率分布和能量函数间的关系,求解出能量函数,并且刻画出数据内在的规律。方法实现主要采用python语言,多层自编码器是首先导入tensorflow和Dense模块,通过Dense构造编码层和解码层,然后通过Model搭建编码模型,最后训练自编码器;限制性玻尔兹曼机可以通过sklearn.neural_network导入。

2.卷积神经网络(CNN)。CNN一般包含降采样层、卷积层、全连接层以及输出,进行特征提取是卷积层的作用。采用CNN方法把一句话转化成二维矩阵,卷积核的宽度选用词向量维数,对矩阵进行卷积操作,从而从句子中提取关键词语、词组特征。通过R软件加载keras、caret库,导入数据集,定义和拟合模型,可以实现卷积神经网络。

3.递归神经网络(RNN)。RNN是对序列型数据进行建模,需要保留序列上下文的信息,所以它的隐节点中存在反馈环,即当前时刻的隐含节点值不仅和当前节点的输入有关系,还与前一时刻的隐含节点值有关系。可利用长短时记忆模型(LSTM)来改进RNN梯度消散现象。使用R软件安装并运行包rnn、包digest,并设置网络参数,即可实现RNN。

4.生成对抗网络(GAN)。GAN不依赖任何分布假设,以简单的方式从潜在空间生成真实的样本。可使用python语言实现,在tensorflow框架下导入keras,使用keras.Sequential搭建生成器模型和辨别器模型,通过定义批次训练函数实现参数训练。

(五)集成算法

集成学习(ensemblelearning)是用于训练多个学习器并组合输出的过程。其基本思想是认识到现实世界中每个模型都有其局限性,并且可能会出错,集成学习的目的是管理它们的优势和劣势,最终做出最佳决策。

主要方法有:一是提升法(Boosting),建立在其它分类的基础上为每个训练样本集分配一个权重,最终合并到模型中。其中,XGBoost算法在分类效果、业务解释性、建模效率等方面获得了业界广泛的认可;二是套袋法(Bagging),对所有基学习器一致对待,在大部分情况下,经过bagging得到的结果方差更小;三是堆叠法(Stacking),核心思想是通过增加基学习器的异质性和使用元学习组合基学习器预测的结果来减少泛化误差。

集成算法的实现代码可查询R语言mlr包和mlbench包。

(六)正则化模型

正则化可以进行系数压缩估计,是一种常用的大数据技术方法。社会经济统计中常常遇到高维小样本数据,此类数据的特点是自变量维度远远大于样本量,数据包含许多与因变量无关的冗余变量,影响模型的解释力度和估计精度,且样本量小容易导致过拟合问题,降低模型的泛化能力和稳定性。正则化是结构风险最小化策略的实现,该方法基于全部解释变量建模,在经验风险上加正则化项(惩罚项),通过对系数加惩罚约束将系数估计值往零的方向压缩。常用的正则化方法有岭回归、Lasso以及基于VAR(p)的Lasso方法。

(七)贝叶斯方法与深度学习

贝叶斯深度学习是结合深度学习和贝叶斯模型的概率框架,通过对文本或图像、音频等的感知提升更高层次推理的能力,实现双向反馈和推断。

1.贝叶斯网络。作为一种不确定性的因果推断模型,贝叶斯网络的拓扑结构是一个有向无环图(DAG),每个节点代表一个随机变量,节点之间的边代表随机变量间的概率依赖关系。将有因果关系的变量用箭头来连接,若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另一个是“果”,两节点就会产生一个条件概率值。在概率图中,用贝叶斯网络或马尔科夫随机场转换为因子图变量,再结合Sum-product等算法高效地求解各变量的边缘分布。

3.非参数贝叶斯模型。非参数贝叶斯模型中参数的先验分布具有非参数的特点,参数个数会随着数据的变化自适应地调整,有更强的描述数据能力,这种特性对于解决大数据背景下的复杂问题尤为重要。贝叶斯非参数模型包括未知成分的混合模型、隐式特征模型、刻画连续函数的高斯过程等。

(八)函数型数据分析

函数型数据分析在处理曲线和图像数据中具有较大优势。函数型数据本质上是无限维的,对函数型数据进行建模和统计推断的关键是对函数变量进行降维。降维技术主要有:一是函数型主成分,把具有无限维特征的函数型数据转换为有限维的得分向量,起到降维作用;二是函数型数据聚类,函数型数据具有无穷维特征,首先对函数型数据之间的相异性程度进行度量,然后使用已有的聚类算法进行聚类,其中常见的相异性程度度量方法有距离、基于模型的相异性度量、基于主成分的相异性度量和基于函数曲线极值点的相异性度量。

四、大数据背景下的统计学理论及应用研究展望

本节从以下六个方面展示大数据背景下统计学研究的重要领域及方向,为统计工作者的研究方向提供参考。

(一)处理社会经济复杂适应系统的统计学理论与方法研究

社会经济动态随机系统是一个以人为核心,涉及人类活动的各个方面和生存环境的诸多复杂因素的巨系统,它是一类重要的、典型的复杂适应系统(CAS)。社会经济复杂适应系统具有若干特殊的情况与性质,使得它更难于认识、描述和控制。类似的例子还经常在环境、生态问题中遇到,如地球气候状况、温室效应问题、环境污染状况、大范围变化问题等。传统的统计学方法的适用性受到限制,需要全新的统计理论方法进行处理,这将是今后相当长时期内统计学发展的重要趋势之一。

(二)数据要素的开发与应用研究

(三)数字经济测度研究

数字经济的发展给传统经济统计带来挑战,其研究可从以下几个方向开展:数据经济运行机制模拟及运行状况评价研究;数字经济核算的系统理论框架与方法体系研究;数字经济环境下的宏观经济的统计监测及预警研究;数字经济与经济增长和其他产业的联动效应研究等。

(四)大数据质量提升研究

(五)遥感信息与空间统计学的理论和应用研究

自然灾害的预测、传染病聚集性的发现、交通行为预测等;遥感大数据内在的结构特征和存在形式的建模问题,针对研究学习机制或途径,研究如何有效利用数据和信息,数据降维、特征选择、模式分类和知识表达等方面都面临着新的问题。

(六)社会经济大数据计算研究(计算社会经济学)

通过卫星遥感、移动通讯、社交媒体、物联网等产生的新型数据对以统计分析为主要工具的传统社会科学研究者提出了挑战。这些数据规模更大、实时性更强、精度更高,通过分析可以更好地把握社会经济态势,启发和孕育新理论,发现可能的异常,预测未来的趋势等。应用领域可延伸到利用物联网数据进行决策科学化的应用、利用通讯定位数据进行风险风控方面的应用,以及统计学方法和计算机结合在社会科学研究中的应用等。

感谢国家统计局统计科学研究所汤志华,根据项目报告在整理和撰写过程中做了大量的工作。

项目:2020年国家统计局重大专项“适用于社会经济统计的大数据技术方法体系研究”(2020ZX20)

项目负责人:朱建平

项目组成员:陈宇晟、冯冲、符羽彤、梁振杰、苏萌、孙俊歌、唐鑫寅、王玮玮、王玉莹、翁福添、吴淇、吴小龙、谢邦昌、叶玲珑、于洋、郑陈璐、朱建平、庄穆妮(按姓氏拼音先后为序)

项目单位:厦门大学管理学院、厦门大学健康医疗大数据国家研究院、厦门大学数据挖掘研究中心

THE END
1.如何确定计算方式?计算在哪些领域有应用?股票频道教育领域也逐渐引入计算技术,个性化学习方案的制定、在线教育平台的优化等都需要计算的支持。 总之,计算已经渗透到我们生活和工作的方方面面,正确确定计算方式以及充分利用计算在各个领域的应用,对于提高效率、解决问题和推动创新都具有重要意义。 看全文https://stock.hexun.com/2024-12-16/216196359.html
2.大数据机器学习算法概论腾讯云开发者社区大数据 机器学习 算法概论_大数据_02 可以看出手机购物时,当我们搜索某家商店的某件商品时。系统会根据我们的搜索历史和购买历史进行相似物品的推荐。 分类算法(医学上的肿瘤判断) 如何判断细胞是否属于肿瘤细胞呢?肿瘤细胞和普通细胞,有差别。但是,需要非常有经验的医生,通过病理切片才能判断。如果通过机器学习的方式,https://cloud.tencent.com/developer/article/2479107
3.大数据的数据来源和类型有哪些列举大数据的数据来源和类型有哪些? 大数据的数据来源主要有以下几种: 1. 传统商业数据:来自于企业ERP系统、各种POS终端及网上电商支付系统。 2. 互联网数据:特点是大量化、多样化、快速化。 3. 物联网数据:通过射频识别装置,传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与https://www.hq66.cn/a/xpyqlx743.html
4.www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c5知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c53328be6244e40b_8EC2B931E96309B121FA411C24B82731
5.大数据和云计算:它们如何融合及其优势数字经济观察网增强数据分析能力:云平台提供了强大的数据分析工具,如机器学习、人工智能和大数据处理框架,这些工具帮助企业从海量数据中提取有价值的洞察,推动业务创新和优化。 总结 大数据与云计算的融合代表着企业信息管理和数据使用方式的一场革命。这种技术的结合不仅降低了企业的IT成本,还提升了灵活性、可扩展性和决策效率。随着这https://www.szw.org.cn/20241219/68496.html
6.证券消息不会做大数据计算?10年数据分析师整理,一文给出解决方案据报道|不会做大数据计算?10年数据分析师整理,一文给出解决方案2024-12-18 10:30:59 来源: 金羊网 作者: 谷沙洋 金羊网记者 谷沙洋 报道 另wai,近xie年受jing济下xing、大gui模减shui降费、楼市tu地市chang低迷deng影响,地方cai政收ru受到yi定冲ji,而gang性支chu有增wu减。zai财政shou支矛dun不断jia大http://www.lieren2000.com/wap/colormethod_view.asp?/www/linux/11249220_20241217.shtml
7.Spark简介以及与Hadoop对比分析云计算技术计算中间结果的存储 在内存中维护,存取速度比磁盘高几个数量级 落到磁盘,IO及序列化、反序列化代价大 Task维护方式 线程 进程 时间 对于小数据集读取能够达到亚秒级的延迟 需要数秒时间才能启动任务 2. Spark 生态系统 2.1 大数据处理的三种类型 1. 复杂的批量数据处理 时间跨度在数十分钟到数小时 Haoop MapRehttps://www.jb51.net/article/221228.htm
8.大数据计算引擎之二:数据处理三种类型大数据处理的三个类型【大数据】计算引擎之二:数据处理三种类型 在深入介绍不同实现的指标和结论之前,首先需要对不同处理类型的概念进行一个简单的介绍。 1.批处理系统 批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。 批处理模式中使用的数据集通常符合下列特征https://blog.csdn.net/pearl8899/article/details/102989401
9.数据中台计算方式有哪些帆软数字化转型知识库数据中台计算方式包括:批处理计算、流处理计算、交互式查询、内存计算、大数据计算、实时计算、分布式计算、图计算。批处理计算是数据中台的一种基础计算方式,通常用于处理大规模历史数据,具有高吞吐量和高延迟的特点。它通过预设的调度策略,将数据划分为多个批次进行处理,适用于数据量大但实时性要求不高的场景。例如,日https://www.fanruan.com/blog/article/638752/
10.[原创]云边智能:电力系统运行控制的边缘计算方法及其应用现状与同样地, 边边协同也有三种模式: 1)边边计算协同. 云端的超算中心对模型和算法进行训练, 根据边缘节点的情况将已训练好的模型进行下发, 每个边缘计算服务器只执行一部分算法, 最终通过协同的方式完成应用任务; 2)边边分布式训练协同. 边缘计算服务器有完整的模型和算法, 并利用边缘端数据承担模型和算法的训练任务,https://wangfeiyue.blogchina.com/972904091.html
11.首页广东省大数据计算基础理论与方法重点实验室?东省?数据计算基础理论与?法重点实验室于 2021 年经?东省科技厅批注立项建设,依托香港中学(深圳)。本重点实验室以“大数据计算基础理论与方法”为主题,面向数据科学与大数据技术中核心的理论与计算方法,深入探索大数据理论与计算方法中的核心难题,并将大数据的方法以创新的方式应用到社会运行核心行业https://gklbdc.cuhk.edu.cn/
12.科普物联网和大数据云计算之间的关系摘要:在此文中,我们将讨论物联网,大数据和云计算这三种技术之间的相互关系。其背后的原因是大量的物联网数据生成将为大数据系统提供数据。因此,对于上述两点,我们明确认为需要为物联网和大数据采用基于云的系统。 我们现在的社会正在步入物联网、大数据和云计算时代。这些技术中的每一个都会有瓶颈,例如可伸缩性差安全https://www.ucloud.cn/yun/126053.html
13.大数据的矩阵计算基础培训炼数成金课程现开始接受报名,报名方式 网上报名 请点击:大数据的矩阵计算基础 咨询Email :edu01@dataguru.cn,edu02@dataguru.cn 课程入门讨论咨询群:303917420(群内有培训公开课视频供大家免费观看) 咨询QQ: 2222010006 (上班时间在线) 技术热点、行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想http://www.dataguru.cn/article-4621-1.html
14.深入浅出学大数据(一)大数据发展历程及大数据的简单介绍根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。在2010年前后爆发的第三次信息化浪潮期间,由于信息逐渐增加,为了解决信息爆炸问题,物联网、云计算和大数据相继兴起了起来。下图为三次信息化浪潮发生时间、标志、解决问题以及代表企业。 https://blog.51cto.com/14683590/4909933
15.云计算的三种模式IaaS/PaaS/SaaS/BaaS对比:SaaS架构设计分析所以在云计算的三种模式 IaaS/PaaS/SaaS,SaaS 面对的用户最多,如同 C 端,应用程序的任何更新或者修复漏洞操作都是由软件提供商负责实施和处理的,由于租户是通过互联网获取软件服务,所以租户端无需下载任何的升级包或者修复补丁,是一种开箱即获取最新软件产品的服务方式。 https://xie.infoq.cn/article/14235db9f2e88cc58cde08228