【数据分析】从实战案例中提升数据分析能力,发现问题,提出假设,得出结论

我们在学习数据分析的过程中,案例实战是最重要的一个环节,无论我们怎么听课,怎么看书,不自己反复操作试炼,我们学到的知识只会随着“周公”在梦中离去。因此,今天我们来一起用案例数据来试着把学到的知识贯穿在一起,训练数据分析的基本功。

一、数据背景

通过阿里巴巴的天池平台,我手上得到两份关于淘宝天猫用户购买婴儿产品的数据表,表1为购买商品,表2为婴儿信息。接下来我将结合现有的数据信息,对这份电商数据进行分析。

二、理解数据

1

拿到表格后,首先我们来对数据字段进行基础的理解。

表名 字段 含义
表一

购买商品

User_id 用户ID
Aucion_id 商品编号
Cat_id 商品二级类目
Cat1 商品一级类目
Property 商品属性
Buy_mount 购买数量
Day 购买日期
表二

婴儿信息

User_id 用户ID
Birthday 出生日期
Gender 性别(0女性;1男性;2未知)

为了方便后面提出分析问题,我通过MAX和MIN函数找出这份数据的统计时间,日期信息再D列,因此结束时间=MAX(G:G),开始时间=MIN(G:G),这份表的内容是关于2012年7月2日至2015年2月5日的数据。

三、提出问题

通过这份数据,我们可以发现店铺商品的销售情况,从而层层剖析,在经营上哪里出了问题,出问题的原因是什么?而后用以为后续的经营提出建议。

通过逻辑树和多维度拆解分析方法,我们将将要提出发现的问题分为产品维度、用户维度两个维度。

1.产品维度

(1)商品每月成交量的情况

(2)商品每年每月的变化情况

(3)每笔订单购买量的情况

(4)每类产品的销售情况

2.用户维度

(1)男女性别对产品的需求情况

(2)不同年龄对产品的需求情况

在后面的分析中,除了解决以上问题得出结论,更会在分析过程中发现更多的问题,例如有异常值的情况,需要进一步分析找到结论。

四、数据清洗

1.选择子集:

由于每类商品都有不同的参数且对于我们此次分析没有太多关联性,为方便数据分析,我将商品属性(Property)一列进行隐藏。

而商品的购买数据分析我们可以通过商品类目来分类,因此商品编号也可以隐藏掉。

2.列名重命名:

为方便我的阅读习惯,我将字段列名全名改为中文。

3.删除重复值:

在购买信息表中,我们可以通过用户ID、商品编号、商品属性、购买数量、购买日期来查找重复项,发现并未存在重复值。

在婴儿信息表中,我们通过用户ID识别,也并未发现重复值。

4.缺失值处理:

通过剩余列的数据信息量计数得出,购买信息表均为29972行信息(含列名),婴儿信息表均为954行信息(含列名),因此无缺失值。

5.一致化处理:

为方便识别信息,我将购买日期与生日日期通过EXCEL中的分列功能统一转换为2020/04/04这样的日期格式。

并在婴儿信息表里性别一列的信息统一修改,把“0”改为“女性”,把“1”改为“男性”,把“2”改为“未知”。

6.数据排序:

我们将购买数据按照时间顺序进行排序。

7.异常值处理:

由于此次的分析,我们需要根据数据的情况发现经营问题,因此在没有空值、重复值、错误信息数据的情况下,我们先暂时不对数据本身的异常进行处理。

而在婴儿信息方面,我们可以通过计算婴儿在购买日期时的岁数来查看婴儿信息是否有异常。

首先我们通过VLOOKUP(查的值,查的表,第几列,精确/近似查找)多表关联查询,匹配用户ID的购买日期。然后我们用DTAEDIF(出生日期,购买日期,计算时间格式)函数对婴儿年龄进行计算。(计算时间格式大家可以网上查找,我就不列举了)

我的函数格式:=DATEDIF(C2,B2,”Y”)&”年”&DATEDIF(C2,B2,”YM”)&”月”&DATEDIF(C2,B2,”MD”)&”天”

3

输出后发现,有的岁数显示“#NUM!”错误,对照出生日期和购买日期,发现是因为这类错误的商品都是因为婴儿还没出生就进行购买的。

由于这类错误数据可假设为是用户不想透露婴儿信息而填写的,但是并不影响性别的分析。因此我们可以把表格复制一份,备注为婴儿性别分析表,并把未知性别的异常数据进行删除。

而后我们在另一个表格备注为年龄分析表,将“#NUM!”错误的异常数据进行删除。

五、数据分析

1.产品维度

(1)商品每月成交量情况

首先,我们通过清洗后的购买商品表创建数据透视表,把购买日期字段拉到“行”区域,把购买数量字段拉到“值”区域,然后生成折线图。

图1:商品每月成交量情况

4

从图1我们可以看出,每年的销售额都有上涨的趋势,而2014年11份的时候成交量有一个大爆发的情况出现,我们先将此情况记下来,然后再看看其他图表的情况。

(2)商品每年每月的变化情况

我们透视数据表中购买日期中的年份拉到“列”区域,然后再生成折线图,对每年的数据进行对比。

图2:商品每年每月的变化情况

5

我们发现,每月的同比基本上都有所增加,说明店家的销售业绩每年都有所增长。而店铺商品的销量主要集中在下半年,每年5月、9月、11月会迎来销量的高峰期,而2013年的7月和12月也呈现出高峰期的状态,每年1-2月份是销量低谷的状态,2015年2月出现销量急剧下跌的状态。

(3)每笔订单购买量的情况

我们通过购买数量的数据在EXCEL数据分析功能里进行描述性分析。

6

看到出来的结果我们会发现,订单平均购买商品的数量为2.5个,中位数和众数都为1,代表大部分用户都是下单购买一件商品,但是发现购买数量的最大值是10000,找到该笔订单出现在2014年11月13日,这个数据可能出了问题。

(4)每类产品的销量情况

我们透视数据表中的一级类目拉到“行”区域,然后再生成条形图,对每类产品的总销量进行比较。

7

通过图形我们可以发现,“28”类产品的销量是最好的,而销量最好的3类产品在销售情况上也比其他类的产品要高出很多。

(5)初步问题总结

①每年5月、9月、11月迎来销售高峰。

②2013年7月、12月迎来销售增长。

③2014年11月高峰异常。

④2015年2月销量急剧下跌。

⑤发现2014年11月单笔销量最大值为10000件。

(6)分析内容

以上发现的几个问题都是跟销量有关,我根据手头上已有的数据信息,进行三个方向的推断假设:

  • 假设1:用户问题——消费用户变化

8

通过消费用户数量的变化发现规律,对应以上5个初步问题总结的假设结论如下:

①假设成立,消费用户数有所增长。

②假设不成立,2013年的7月和12月消费用户数无增长变化。

③假设成立,消费用户数有所增长。

④假设成立,消费用户数有所下跌。

⑤假设不成立,单笔订单与消费用户数变化无关。

  • 假设2:产品问题——数据异常

9

通过每年各月份销量的方差计算发现变异情况,对应5个初步问题总结的假设结论如下:

①假设成立,2014年9月和11月销量变异。

②假设成立,2013年7月和12月销量变异。

③假设成立,2014年11月销量变异。

④假设不成立,2015年2月销量无变异。

⑤假设成立,2014年11月销量变异。

  • 假设3:外部问题——节假日活动

根据问题,我们通过调研看看2月、5月、7月、9月、11月、12月是否有相关节假日活动。

  • 2月:2015年的春节在2月份,店家、物流停工。
  • 5月:国际家庭日、青年节、母亲节、520网络情人节
  • 7月:银色情人节
  • 9月:教师节、示爱节
  • 11月:双11,感恩节
  • 12月:双12,圣诞节

因此,对应5个初步问题总结的假设结论皆成立,有相关营销活动对销售额影响的可能。

(7)分析总结

①每年5月、9月、11月迎来销售高峰。

消费用户有所增长,但是2014年9月和11月销售量数据有变异情况。

②2013年7月、12月迎来销售增长。

消费用户无增长情况,且销售量数据有变异情况。

③2014年11月高峰异常。

消费用户有所增长,但是销售量数据有变异情况。

④2015年2月销量急剧下跌。

消费用户数有所下跌,销售量数据无变异情况。

⑤发现2014年11月单笔销量最大值为10000件。

销售量数据有变异情况。

(8)继续深入分析

①2014年9月和11月销售量数据有变异情况。

③2014年11月销售量数据有变异情况。

⑤发现2014年11月单笔销量有变异情况。

我下面通过分别计算2014年9月和11月份的四分位数情况来找出异常值问题。在数据表格内单独筛选9月和11月份的数据,并用QUARTILE(表格区域,返回的四分位值)函数进行计算。

  • 2014年9月份四分位数:

10

通过计算发现,2014年9月份每个订单的销售数量并无异常。

  • 得出结论

结合之前的分析可得出销量的增长是由于节假日营销活动的成功,带动了消费用户的增长。

  • 2014年11月份四分位数:

11

通过计算发现,2014年11月份订单的销售数量出现异常,有一个最大值10000,通过销量发现还有一个2748的销量与7个百位的销量,通过四分位数的计算无法进行异常识别。

然后我通过输出2013年11月份的正常数据,用对比分析法进行分析。

12

通过2013年的正常数据发现,有几位头部的销量订单出现过百的情况,以此判别2014年11月份7个百位的销量属于正常情况,且超过1000的购买数量都属于数据异常。

  • 得出结论

通过分析得出结论,2014年11月30日用户ID为“1933327218”购买数量为“10000”的商品,以及用户ID为“866770736”购买数量为“2748”的商品订单皆为异常数据。需要进一步与运营部门同事沟通,核查数据是由于统计异常出的问题,还是由于用户的特殊购买行为而导致的。

②2013年7月、12月销售量数据有变异情况。

同样的,我通过QUARTILE函数分别对2013年7月和12月的销量情况进行四分位数的计算。

  • 2013年7月份四分位数:

13

通过计算发现,2013年7月份订单的销售数量出现异常,有一个最大值1000。

  • 得出结论

通过分析得出结论,2013年7月31日用户ID为“58115753”购买数量为“1000”的商品为异常数据。需要进一步与运营部门同事沟通,核查数据是由于统计异常出的问题,还是由于用户的特殊购买行为而导致的。

④2015年2月消费用户数急剧下跌。

我先把2015年2月份的数据筛选出来,进行基础的观察,发现购买日期不全,然后通过MAX和MIN函数找出2月订单统计的开始日期和截止日期。

14

通过计算发现,订单的日期仅统计2015年2月1日-5日的数据。

  • 得出结论

2015年2月的消费用户数急剧下跌导致的销量下跌,是由于统计数据不全导致的,实际数据并无异常情况。

2.用户维度

(1)男女性别对产品的需求情况

在清洗数据后的婴儿信息表中,通过VLOOKUP函数多表关联查询对应用户ID的购买数量和商品类目,而后插入数据透视表,生成图表。

15

通过饼图对比分析发现,本商店的商品对于女性婴儿的购买需求会更强一些。

16

通过堆积柱状图发现,“50022520”类商品的男性婴儿需求力会强一些,其余类目商品的总体需求量还是女性婴儿比较大。而“50008168”类商品的总体需求量是最大的。

(2)不同年龄对产品的需求情况

我使用针对年龄进行数据进行后的分析表进行分析。

17

通过条形图可以看出0-3岁的婴儿购买需求是最大的。

18

对于0-3岁的婴儿来说,“50008168”、“50014815”、“28”这三类商品的需求量最大。

  • 得出结论

通过用户维度的性别与年龄的情况分析得出,本店主打0-3岁女性婴儿需求产品,“50008168”、“50014815”、“28”这三类商品为热销产品。

六、总结与建议

通过以上产品维度与用户维度的分析,可以得出以下总结与建议:

1.销售数据中有购买异常值,需要跟店铺运营人员进一步核实情况,分析具体原因是由用户行为导致的,还是系统统计数据出错。

2.“50008168”、“50014815”、“28”这三类产品为店铺的爆款,应该加大宣传力度,而其余三类产品需根据实际经营成本与销售情况作进一步调整。

3.本店消费用户对节假日活动是比较敏感的,建议店家每逢活动期间加大营销力度,进一步提升销售效果。

4.本店女性婴儿的购买需求达到7成,店家可以在店铺定位方面更加偏向女性一点,并优化店铺产品的性别倾向,从而达到提高客单价的效果。

5.本店0-3岁的婴儿需求最大,店家可在店铺的定位和营销方向中专供迎合低龄儿童的需求。

 

标签

发表评论