带你读《增强型分析:AI驱动的数据分析业务决策与案例实践》之二:大数据探索及预处理

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

现在几乎人人都在谈论大数据和人工智能,然而应用大数据和人工智能技术的基本前提是数据。不论数据的拥有方还是数据分析解决方案及工具的提供方,其终极目标都是“通过数据分析,从数据中找出洞见并应用于实际场景中带来价值”。数据探索、数据预处理等工作是进行数据分析的首要工作。不论是采用大数据的工具还是采用相对较小的数据集上的数据挖掘的工具,模型的构建都需要经过对数据不断地探索、选择和加工合适的字段、采用合适的算法并训练模型等过程。数据探索的目的是了解数据的状态,数据预处理则是为了将数据加工为更有价值的形态。数据分析者应当具有很好的意识,能够感知数据的价值,具备数据加工能力。

大多数情况下,数据分析的过程必须包括数据探索的过程。数据探索可以有两个层面的理解:一是仅利用一些工具,对数据的特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对别的字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。字段的选取既需要技术手段的支撑,也需要数据分析者的经验和对解决问题的深入理解。

表2-1均值、中位数、众数的例子

表2-2四分位的例子

图2-1箱形图及IQR

图2-2Skewness的含义

图2-3众数、均值及中位数在不同分布下的比较

表2-3通过中位数和均值的差异来判断分布的偏斜情况

图2-4峰态的例子

表2-4连续型变量数据探索示例代码的运行结果

表2-5分类型变量数据探索示例代码的运行结果

表2-6BankMarketingDataSet的字段说明

图2-5折线图的示例

图2-6箱形图的示例

图2-7柱状图示例

图2-8双变量关系探索的示例(X轴是age变量,Y轴是balance变量)

数据的重要性在大多数情况下都超过了算法的重要性。数据预处理是数据分析过程中的一个重要步骤。多年以来,人们在数据质量上的持续投入大幅减少了越界、缺失、不一致等问题。但是,数据质量问题仍然存在。数据分析者应当对数据质量时刻保持警惕,因为质量很差的数据是很难得到有用的分析结果的。既然数据质量问题不可避免,那么处理它们是数据预处理的工作之一。数据预处理的完整工作应当包括数据清洗、数据集成、数据变换和数据归约处理。

图2-10数据空白值填充的示例

图2-11分别执行数据预处理的3个条件,查看触发条件

对于连续型变量,如果该变量的取值的个数小于设定阈值(默认是5),那么将该变量转化为有序型分类变量。对于有序型分类变量(数值类型),如果该变量的类型的个数大于设定阈值(默认是10),那么将该变量转化为连续型变量。1.连续型变量的变换对于连续型变量,为了保证数据中不同的字段保持同样的尺度(这样既可以防止某些字段在建模过程中发生溢出,又可以保证每一个字段在模型中的权重相同),我们需要进行一些尺度变换的操作。分箱(binning,又称离散化)是将连续型数据转换为分类型变量,转换的目的是提高变量的解释性。(1)尺度变化为了使数据尺度一致,可以对原始数据进行中心化、标准化、归一化、Z-score变换、最小-最大值变换等。在表2-7中我们列举了典型的数据转换方法。(2)分箱变换对于一些连续型变量,从业务和数据特点上考虑,需要将连续型数据变为分类型数据,可以进行binning操作,常用的分箱变换方法如表2-8所示。分箱技术的方法有很多种,比较常用的有下面的3种方式:

表2-7典型的数据转化方法

表2-8分箱变换方法

图2-12采用中位数对连续型变量进行划分

图2-13很多情况下,低价值的客户总是占多数

图2-14按照80%-20%的划分能够将高价值的客户显著区分出来

表2-93种分箱策略的结果示例

图2-15源数据分布及3种分箱策略的结果示例

表2-10分类型变量的变换

表2-11分类型变量的变换为dummy字段

表2-12员工个人信息的示例

图2-16模型的残差分布

图2-17由一个衍生字段代表原来10列数据的信息

图2-18因变量的分布

图2-19因变量做对数转变后的分布

图2-20数据采样的一般过程

图2-21典型的采样类型

概率抽样适用的场景是采用样本数据来体现整体的特征,包括以下几种:

非概率抽样都是按照抽样者的意愿来进行的,典型的方式有以下几种:

图2-22两个样本、总体的关键指标的分布

在探索了数据的基本统计信息后,我们掌握了数据的分布特征等信息;接着又对数据做了预处理,过滤了缺失值和离群值,转变和处理了数据类型,提高了数据的质量。本节进一步对数据从字段上进行加工,从尺度、分布上进行变换,满足不同的业务和建模需要,变换后的字段更能满足模型需要,由此引出了本节的衍生指标的加工。

图2-23一个SAS决策树算法生成的模型结果

从实际业务指导的角度来看,分类型变量的易用性远远大于数值型变量。从模型算法的角度来看,采用数值型的指标会显著提高模型的性能。针对“富裕客户”这样的指标值,在建模时为模型性能考虑,最好是将其代表的数值直接使用而摈弃分类型变量。

THE END
1.大数据驱动营销:实战技巧解析与效果提升策略我爱制作网三、社交媒体营销策略 社交媒体是大数据的重要来源之一。企业可以通过分析社交媒体上的海量数据,了解用户的关注点、互动行为等,制定有针对性的营销策略。例如,企业可以借助大数据分析,在用户感兴趣的话题、热门事件中巧妙植入品牌信息,提高广告效果。 四、个性化推荐 https://www.024zz.cn/html/yidong/tx/2024-12-24/392614.html
2.2025这样使用大数据做营销一定会事半功倍利用大数据技术,品牌可以分析不同渠道的受众特征、传播效果,优化媒介组合策略,在复杂的传播环境中形成合力。创新内容生产机制,利用算法驱动,实现内容的自动化生成和个性化推荐。基于对热点话题、用户喜好的实时跟踪,快速制作和分发贴合用户口味的内容,提高传播的精准度和转化率。同时要探索沉浸式体验营销,利用AR、VR等技术https://www.cnr.cn/yggg/hyzx/20241220/t20241220_527015439.shtml
3.传统营销模式案例精品(七篇)一种是量子恒道网站统计,另一种是量子恒道店铺统计,网站统计主要是统计客户和第三方的一些数据和内容,比如网站访问量,全面监控数据变化,同时通过分析收集的互联网数据,归纳总结客户的网络使用规律,根据分析结果制定相关的网络营销策略,量子恒道店铺统计通常是实时统计淘宝店铺在运营中产生的数据,利用这些数据对店铺作出https://www.haotougao.com/haowen/39292.html
4.大数据在零售业中的应用:客户行为分析和市场营销优化大数据在零售业中的应用主要包括以下几个方面: 客户行为分析:通过分析客户的购物行为、购物历史、浏览记录等数据,了解客户的需求和喜好,提高销售转化率。 市场营销优化:通过分析市场数据、消费者数据、竞争对手数据等,优化营销策略,提高营销效果。 库存管理:通过分析销售数据、库存数据、供应链数据等,优化库存管理,降低成https://blog.csdn.net/universsky2015/article/details/137312359
5.社交网络分析1:起源发展不同领域的应用核心概念应用:战略决策支持、服务改进、市场策略优化。 品牌营销策略制定 根据客户的兴趣和社交行为制定营销策略。 应用:精准广告投放、提高营销效果和转化率。 客户群体划分 分析客户社交行为和购买行为,划分不同客户群体。 应用:定制营销策略,区分高价值客户和低价值客户。 https://blog.51cto.com/u_16651779/10457485
6.营销策略论文(15篇)5.管理创新电力营销涉及诸多方面,在当前新形势下,需不断注入活力。往往会引进新技术新设备、创新制度,以达到降低成本的目的。 二、实例分析电力市场营销现状 1.实例 某大型电力企业建于1986年,在职职工共有1072人,企业主要负责周围8个县区的供电工作,覆盖面积达6840Km2。至20xx年底,该企业共建有35KV以上的变电站12https://www.ruiwen.com/lunwen/7005509.html
7.悄悄学习Doris,偷偷惊艳所有人ApacheDoris四万字小总结DorisDB 重新定义了 MPP 分布式架构,集群可扩展至数百节点,支持 PB 级数据规模,是当前唯一可以在大数据规模下进行在线弹性扩展的企业级分析型数据库。 DorisDB 还打造了全新的向量化执行引擎,单节点每秒可处理多达 100 亿行数据,查询速度比其他产品快 10-100 倍! https://xie.infoq.cn/article/b2250c2d887f69d8519a3f50b
8.社交媒体大数据分析——理解并影响消费者行为本书适合数据挖掘技术人员、数据分析师以及市场营销领域的人士参考阅读。 对本书的赞誉 大数据很快就将成为众多公司最宝贵的资源,大数据的运用将成为很多业务模型的必备之物。但此时此刻大多数的公司仅仅只是坐拥成堆的数据,却没有使用它们的明确策略,也不知道如何从这些数据之中提取出它们所蕴含的信息。在这本书之中https://www.epubit.com/bookDetails?id=N2474
9.大数据营销创新研究论文(精选8篇)本文在现有文献对大数据分析的基础上,进一步探析大数据在烟草行业的实际应用,指出大数据源或大数据集是烟草商业企业推进基于大数据的营销策略创新工作需要解决的首要问题。烟草商业企业需要构建区域信息平台(以省为单位),成为烟草产业链中的数据聚合商。通过精炼海量数据,确定不同的营销策略关注点与不同消费者集合的对应关系https://www.360wenmi.com/f/filecvzx82bp.html
10.大数据分析背景下电子商务平台精准营销策略分析——以京东为例而大数据时代的到来,必然会为各大电商平台创造机遇。如今,众多电商平台已经将大数据技术广泛运用于精准营销当中。在这种趋势下,本文主要从它的优势特点,影响因素着手,最后得出具体的策略分析,最后以京东作为具体的案例分析,旨在为其他电商平台做出一些参考。 关键词:大数据 电商平台 精准营销 策略分析 京东http://www.baixinglunwen.com/Paper_View.asp?ID=2787&SortID=33
11.市场营销策略分析市场营销策略分析 为了确保事情或工作安全顺利进行,就不得不需要事先制定方案,方案属于计划类文书的一种。方案的格式和要求是什么样的呢?以下是小编精心整理的市场营销4p策略分析,仅供参考,欢迎大家阅读。 市场营销4p策略分析 篇1 一、茅台简介 茅台是我国的国酒,产于中国的贵州省仁怀市茅台镇,是与苏格兰威士忌、法国https://www.oh100.com/a/201702/479155.html
12.优衣库大数据精准营销案例分析论文怎么写帆软数字化转型知识库用户行为分析是优衣库大数据精准营销的重要组成部分。通过对用户在网站和APP上的浏览行为、点击行为、购买行为等数据进行分析,优衣库能够深入了解用户的购物习惯和偏好。这些数据帮助优衣库优化商品布局、调整营销策略、开发新产品。例如,通过分析用户的搜索记录和购买历史,优衣库能够识别出哪些商品最受欢迎,从而增加这些商品的https://www.fanruan.com/blog/article/89575/