从实战案例中提升数据分析能力,发现问题,提出假设,得出结论

我们在学习数据分析的过程中,案例实战是最重要的一个环节,无论我们怎么听课,怎么看书,不自己反复操作试炼,我们学到的知识只会随着“周公”在梦中离去。因此,今天我们来一起用案例数据来试着把学到的知识贯穿在一起,训练数据分析的基本功。

一、数据背景

通过阿里巴巴的天池平台,我手上得到两份关于淘宝天猫用户购买婴儿产品的数据表,表1为购买商品,表2为婴儿信息。接下来我将结合现有的数据信息,对这份电商数据进行分析。

二、理解数据

拿到表格后,首先我们来对数据字段进行基础的理解。

三、提出问题

通过这份数据,我们可以发现店铺商品的销售情况,从而层层剖析,在经营上哪里出了问题,出问题的原因是什么?而后用以为后续的经营提出建议。

通过逻辑树和多维度拆解分析方法,我们将将要提出发现的问题分为产品维度、用户维度两个维度。

1.产品维度

(1)商品每月成交量的情况

(2)商品每年每月的变化情况

(3)每笔订单购买量的情况

(4)每类产品的销售情况

2.用户维度

(1)男女性别对产品的需求情况

(2)不同年龄对产品的需求情况

在后面的分析中,除了解决以上问题得出结论,更会在分析过程中发现更多的问题,例如有异常值的情况,需要进一步分析找到结论。

四、数据清洗

1.选择子集:

由于每类商品都有不同的参数且对于我们此次分析没有太多关联性,为方便数据分析,我将商品属性(Property)一列进行隐藏。

而商品的购买数据分析我们可以通过商品类目来分类,因此商品编号也可以隐藏掉。

2.列名重命名:

为方便我的阅读习惯,我将字段列名全名改为中文。

3.删除重复值:

在购买信息表中,我们可以通过用户ID、商品编号、商品属性、购买数量、购买日期来查找重复项,发现并未存在重复值。

在婴儿信息表中,我们通过用户ID识别,也并未发现重复值。

4.缺失值处理:

通过剩余列的数据信息量计数得出,购买信息表均为29972行信息(含列名),婴儿信息表均为954行信息(含列名),因此无缺失值。

5.一致化处理:

为方便识别信息,我将购买日期与生日日期通过EXCEL中的分列功能统一转换为2020/04/04这样的日期格式。

并在婴儿信息表里性别一列的信息统一修改,把“0”改为“女性”,把“1”改为“男性”,把“2”改为“未知”。

6.数据排序:

7.异常值处理:

由于此次的分析,我们需要根据数据的情况发现经营问题,因此在没有空值、重复值、错误信息数据的情况下,我们先暂时不对数据本身的异常进行处理。

而在婴儿信息方面,我们可以通过计算婴儿在购买日期时的岁数来查看婴儿信息是否有异常。

我的函数格式:=DATEDIF(C2,B2,"Y")&"年"&DATEDIF(C2,B2,"YM")&"月"&DATEDIF(C2,B2,"MD")&"天"

输出后发现,有的岁数显示“#NUM!”错误,对照出生日期和购买日期,发现是因为这类错误的商品都是因为婴儿还没出生就进行购买的。

由于这类错误数据可假设为是用户不想透露婴儿信息而填写的,但是并不影响性别的分析。因此我们可以把表格复制一份,备注为婴儿性别分析表,并把未知性别的异常数据进行删除。

而后我们在另一个表格备注为年龄分析表,将“#NUM!”错误的异常数据进行删除。

五、数据分析

(1)商品每月成交量情况

首先,我们通过清洗后的购买商品表创建数据透视表,把购买日期字段拉到“行”区域,把购买数量字段拉到“值”区域,然后生成折线图。

图1:商品每月成交量情况

从图1我们可以看出,每年的销售额都有上涨的趋势,而2014年11份的时候成交量有一个大爆发的情况出现,我们先将此情况记下来,然后再看看其他图表的情况。

我们透视数据表中购买日期中的年份拉到“列”区域,然后再生成折线图,对每年的数据进行对比。

图2:商品每年每月的变化情况

我们发现,每月的同比基本上都有所增加,说明店家的销售业绩每年都有所增长。而店铺商品的销量主要集中在下半年,每年5月、9月、11月会迎来销量的高峰期,而2013年的7月和12月也呈现出高峰期的状态,每年1-2月份是销量低谷的状态,2015年2月出现销量急剧下跌的状态。

我们通过购买数量的数据在EXCEL数据分析功能里进行描述性分析。

看到出来的结果我们会发现,订单平均购买商品的数量为2.5个,中位数和众数都为1,代表大部分用户都是下单购买一件商品,但是发现购买数量的最大值是10000,找到该笔订单出现在2014年11月13日,这个数据可能出了问题。

(4)每类产品的销量情况

我们透视数据表中的一级类目拉到“行”区域,然后再生成条形图,对每类产品的总销量进行比较。

通过图形我们可以发现,“28”类产品的销量是最好的,而销量最好的3类产品在销售情况上也比其他类的产品要高出很多。

(5)初步问题总结

①每年5月、9月、11月迎来销售高峰。

②2013年7月、12月迎来销售增长。

③2014年11月高峰异常。

④2015年2月销量急剧下跌。

⑤发现2014年11月单笔销量最大值为10000件。

(6)分析内容

以上发现的几个问题都是跟销量有关,我根据手头上已有的数据信息,进行三个方向的推断假设:

·假设1:用户问题——消费用户变化

通过消费用户数量的变化发现规律,对应以上5个初步问题总结的假设结论如下:

①假设成立,消费用户数有所增长。

②假设不成立,2013年的7月和12月消费用户数无增长变化。

③假设成立,消费用户数有所增长。

④假设成立,消费用户数有所下跌。

⑤假设不成立,单笔订单与消费用户数变化无关。

·假设2:产品问题——数据异常

通过每年各月份销量的方差计算发现变异情况,对应5个初步问题总结的假设结论如下:

①假设成立,2014年9月和11月销量变异。

②假设成立,2013年7月和12月销量变异。

③假设成立,2014年11月销量变异。

④假设不成立,2015年2月销量无变异。

⑤假设成立,2014年11月销量变异。

·假设3:外部问题——节假日活动

·2月:2015年的春节在2月份,店家、物流停工。

·5月:国际家庭日、青年节、母亲节、520网络情人节

·7月:银色情人节

·9月:教师节、示爱节

·11月:双11,感恩节

·12月:双12,圣诞节

(7)分析总结

消费用户有所增长,但是2014年9月和11月销售量数据有变异情况。

消费用户无增长情况,且销售量数据有变异情况。

消费用户有所增长,但是销售量数据有变异情况。

消费用户数有所下跌,销售量数据无变异情况。

销售量数据有变异情况。

(8)继续深入分析

①2014年9月和11月销售量数据有变异情况。

③2014年11月销售量数据有变异情况。

⑤发现2014年11月单笔销量有变异情况。

我下面通过分别计算2014年9月和11月份的四分位数情况来找出异常值问题。在数据表格内单独筛选9月和11月份的数据,并用QUARTILE(表格区域,返回的四分位值)函数进行计算。

·2014年9月份四分位数:

通过计算发现,2014年9月份每个订单的销售数量并无异常。

·得出结论

结合之前的分析可得出销量的增长是由于节假日营销活动的成功,带动了消费用户的增长。

·2014年11月份四分位数:

通过计算发现,2014年11月份订单的销售数量出现异常,有一个最大值10000,通过销量发现还有一个2748的销量与7个百位的销量,通过四分位数的计算无法进行异常识别。

然后我通过输出2013年11月份的正常数据,用对比分析法进行分析。

通过2013年的正常数据发现,有几位头部的销量订单出现过百的情况,以此判别2014年11月份7个百位的销量属于正常情况,且超过1000的购买数量都属于数据异常。

通过分析得出结论,2014年11月30日用户ID为“1933327218”购买数量为“10000”的商品,以及用户ID为“866770736”购买数量为“2748”的商品订单皆为异常数据。需要进一步与运营部门同事沟通,核查数据是由于统计异常出的问题,还是由于用户的特殊购买行为而导致的。

②2013年7月、12月销售量数据有变异情况。

同样的,我通过QUARTILE函数分别对2013年7月和12月的销量情况进行四分位数的计算。

·2013年7月份四分位数:

通过计算发现,2013年7月份订单的销售数量出现异常,有一个最大值1000。

通过分析得出结论,2013年7月31日用户ID为“58115753”购买数量为“1000”的商品为异常数据。需要进一步与运营部门同事沟通,核查数据是由于统计异常出的问题,还是由于用户的特殊购买行为而导致的。

④2015年2月消费用户数急剧下跌。

我先把2015年2月份的数据筛选出来,进行基础的观察,发现购买日期不全,然后通过MAX和MIN函数找出2月订单统计的开始日期和截止日期。

通过计算发现,订单的日期仅统计2015年2月1日-5日的数据。

2015年2月的消费用户数急剧下跌导致的销量下跌,是由于统计数据不全导致的,实际数据并无异常情况。

在清洗数据后的婴儿信息表中,通过VLOOKUP函数多表关联查询对应用户ID的购买数量和商品类目,而后插入数据透视表,生成图表。

通过饼图对比分析发现,本商店的商品对于女性婴儿的购买需求会更强一些。

通过堆积柱状图发现,“50022520”类商品的男性婴儿需求力会强一些,其余类目商品的总体需求量还是女性婴儿比较大。而“50008168”类商品的总体需求量是最大的。

我使用针对年龄进行数据进行后的分析表进行分析。

通过条形图可以看出0-3岁的婴儿购买需求是最大的。

对于0-3岁的婴儿来说,“50008168”、“50014815”、“28”这三类商品的需求量最大。

通过用户维度的性别与年龄的情况分析得出,本店主打0-3岁女性婴儿需求产品,“50008168”、“50014815”、“28”这三类商品为热销产品。

六、总结与建议

通过以上产品维度与用户维度的分析,可以得出以下总结与建议:

1.销售数据中有购买异常值,需要跟店铺运营人员进一步核实情况,分析具体原因是由用户行为导致的,还是系统统计数据出错。

2.“50008168”、“50014815”、“28”这三类产品为店铺的爆款,应该加大宣传力度,而其余三类产品需根据实际经营成本与销售情况作进一步调整。

3.本店消费用户对节假日活动是比较敏感的,建议店家每逢活动期间加大营销力度,进一步提升销售效果。

4.本店女性婴儿的购买需求达到7成,店家可以在店铺定位方面更加偏向女性一点,并优化店铺产品的性别倾向,从而达到提高客单价的效果。

5.本店0-3岁的婴儿需求最大,店家可在店铺的定位和营销方向中专供迎合低龄儿童的需求。

THE END
1.五个Pandas实战案例带你分析操作数据python五个Pandas 实战案例带你分析操作数据 pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效操作大型数据集的工具。pandas提供大量快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python强大而高效的数据分析环境的重要因素之一https://m.jb51.net/article/235878.htm
2.分享一个不错的数据分析实战案例全程附图EXCEL那么接下来我们可以按照这两种数据提出几个问题: 1、用户的个人信息是否对结果有着明显的影响(哪些属性影响大)? 2、营销人员的行为是否对结果有着明显的影响(哪些属性影响大)? 4 分析过程 4.1 年龄 此时我们探究年龄与结果是否有明显的影响。 首先我们可以查看以下数据集中的年龄统计分布情况: https://blog.csdn.net/2401_84247423/article/details/138245613
3.10个超有趣的经典数据分析案例!让你轻松了解数据分析!——九数云BI随着互联网和移动互联网的不断发展,数据量呈爆发式增长态势,大数据有着Volume(大量)、velocity(高速)、variety(多样)、value(价值)的4V特性。数据作为和土地、资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过程中,地位愈发凸显。下面我们带来了几个经典数据分析案例,帮助大家理解。 https://www.jiushuyun.com/other/14643.html
4.excel数据分析案例excel数据分析实战怎么用excel数据分析经典的Excel数据分析实战案例,新手必看 今天给大家实操的案例是泰坦尼克号生存率的分析,这个案例已经有很多人写过,算是个比较经典的案例,通过船上乘客的信息分析和建模,预测哪些乘客得以生还,对数据分析新手来说很有学习价值,本篇就带大家用这个数据集进行一次完整的数据分析https://www.fanruan.com/bw/jdcbj
5.统计学知识案例实践—数据分析实战案例案例1案例2【统计学知识案例实践】—数据分析实战案例案例1案例2 阅读之前看这里 :博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。 博客地址:天阑之蓝的博客https://www.cnblogs.com/nigulasiximegn/p/14972191.html
6.数据分析案例实战数据分析成功案例jojo的技术博客数据分析案例实战 数据分析成功案例 我最近发现很多人都走进了这样一个误区:觉得业务数据分析是专业的数据分析岗位的人才需要做的事情,业务人员只需要给他们提需求就可以了。 但实际上业务人员一点数据分析都不会就是只会打仗,不会算账,缺乏了统筹决策的必备能力。因此一个优秀的业务人员是需要一定的数据分析的能力的,https://blog.51cto.com/u_12195/7070511
7.实战案例分享如何用数据分析解决问题哈喽,大家好,我是可乐,今天是精读《数据分析思维:分析方法和业务知识》的第三篇文章,对应这本书的第345章,主要讲用数据分析解决问题的流程以及两个实战案例:国内和跨境电商行业的业务知识、指标和案例。 01 用数据分析解决问题 这一章的内容实际上是告诉我们要将前一章单独的分析方法结合起来运用。 https://www.niuxuan.cn/redian/75387.html
8.如何用数据思维做设计?来看这个实战案例!优设网如何用数据思维做设计?来看这个实战案例! 在我们进入日常体验设计过程中,大部分标准流程下会进行用户访谈、竞品分析以及可用性测试等,而且这个还是比较规范的团队才会,目前也是我所在团队常常进行的流程环节,在此之前,更多的是直觉经验判断进行设计。但是即便如此,也无法直接确定“哪个方案更好?”。这就使得设计方案的https://www.uisdc.com/design-with-date
9.SPSS数据分析与挖掘实战案例精粹第五章1、第五章 modeler操作入门第五章 modeler操作入门5.1 modeler概述5.2 modeler相关操作5.3 modeler功能5.4 案例分析5.5 进一步学习5.1Modeler概述Modeler界面架构与产品5.1.1Modeler界面简介:一般认为数据挖掘是持续性的项目过程,在这个过程中,数据挖掘的各种算法是数据挖掘过程的核心步骤,但并不是整个项目的全部决定性因素https://www.renrendoc.com/paper/175256315.html
10.spss数据分析与挖掘实战案例精粹及案例数据包spss数据分析与挖掘实战案例精粹及案例数据包,提供给有需要的同学,自己也赚取一点论坛币,方便交流学习其他同学的东西~希望大家互相学习交流~~ 「经管之家」APP:经管人学习、答疑、交友,就上经管之家! 免流量费下载资料---在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。 涵盖https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_6116326_1.html
11.数据分析可视化神器3.实战案例 1.抓取拉勾网招聘岗位数据,并分析展示 注意,运行前需要从网站拿到最新的cookie 完整代码: import pandas as pdimport streamlit as stimport pandas as ptimport requestsfrom pyecharts.charts import Linefrom pyecharts import options as optsfrom streamlit_echarts import st_pyechartsfrom pyecharthttps://developer.aliyun.com/article/1497241
12.数据资产运营实战:典型案例分析与成功经验分享袋鼠社区数据资产运营实战:典型案例分析与成功经验分享 - 随着大数据时代的到来,数据资产已经成为企业重要的战略资源。如何有效地管理和运营数据资产,释放其潜在价值,是每个企业都面临的挑战。在实战中,一些企业通过成功的数据资产运营实践,积累了宝贵的经验。本文将分享几个https://www.dtstack.com/bbs/article/17462
13.Python数据分析基础与案例实战全本书评在线阅读全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编图书《神经网络实用教程》、《数据挖掘:实用案例分析》、《MATLAB数据分析与挖掘实战》等9本热销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop发工程师证书,http://e.dangdang.com/products/1901336145.html
14.Python数据分析与可视化案例教程(微课版)图书本书针对Python零基础的读者,重点讲解利用Python进行数据分析的基础知识,并通过大量的实战案例,使读者掌握数据处理、分析与可视化的方法。全书分为4个部分,共13章,主要内容包括:Python语法基础、网络爬虫、NumPy、pandas、正则表达式与格式化输出、数据处理与数据分析、Matplotlib、pyecharts、Altair动态可视化、NetworkX、航班https://www.ryjiaoyu.com/book/details/45228
15.数据分析——实战如何将统计学模型(线性回归)运用到实际案例我在原文基础上增加了大量知识点的说明及解释,以达到学习线性回归的效果。最后的预测结果因为数据集的局限,结果仅供参考,主要目的还是通过一个实际的案例,了解使用线性回归建模的过程,测试、分析。 一、项目背景 《世界幸福指数报告》是对全球幸福状况的一次具有里程碑意义的调查。 https://www.jianshu.com/p/cec3ffa78d12
16.《绝了!Excel可以这样用:数据分析经典案例实战图表书》(高宏)摘要京东JD.COM图书频道为您提供《绝了!Excel可以这样用:数据分析经典案例实战图表书》在线选购,本书作者:,出版社:清华大学出版社。买图书,到京东。网购图书,享受最低优惠折扣!https://item.jd.com/11868402.html
17.网络资源:数据挖掘实战5(家用电器用户行为分析与事件识别数据挖掘实战5-家用电器用户行为分析与事件识别 转载自:https://wltongxue.github.io 本次学习我们将沿用前面的数据挖掘过程,仍然处理一个分类问题,并着重学习一些新的数据处理手段。 问题背景:如果你是一个家电公司的,你要卖热水器,但是不同的地区气候、不同区域、用户的差别都会导致使用不同,你为了能因地制宜,https://nonlinear.wtu.edu.cn/info/1117/1662.htm
18.2024商务数据分析与应用实战训练.pptx目录第1章商务数据分析与应用实战训练简介第2章数据分析基础第3章商务数据分析应用案例解析第4章实战训练与演练第5章第17章训练成果回顾第6章第18章存在问题与改进方向第7章第19章数据分析在商务领域的未来趋势第8章第20章结束语 01第1章商务数据分析与应用实战训练简介 训练背景与意义数据分析已成为企业竞争力提升https://m.book118.com/html/2024/0331/8021047116006052.shtm