【数据分析】描述性统计分析,掌握常用指标,进入数据分析大门

在数据分析的工作中,统计学可谓是灵魂角色,正是通过统计,让我们获得海量的数据,也正是通过统计学的各种分析策略,让数据变得有意义。

通过统计分析,可以让国家知道国民的健康水平,并为国家作出策略性引导;也可以分析出哪个地区,甚至细致到哪个街区的某个位置点的犯罪率如何,一方面可为警力的调配作参考,另一方面还可以提醒市民出行注意安全……

随着社会发展越来越快,我们已经身在各种数据统计的角色中了,通过统计分析发现规律,也成为了我们生活中不可或缺的一部分。

那么,我们又该如何对统计到的数据进行统计分析呢?今天,我将跟大家分享一下既基础又重要的统计分析策略——描述性统计分析。

什么是描述性统计分析?

我们在做了相关的数据统计之后,将会收集到一系列复杂的数据信息,在这种情况下,仅仅单靠“看”数据,会让人一脸茫然。那想要了解数据的大致情况怎么办?

在这时,使用描述性统计分析,利用图形和简单的计算,就能让我们了解到数据信息的整体情况,还能让我们观察到数据的特征和异常问题,十分便捷。

常用的描述性统计分析有4个指标,分别是:

  • 平均值
  • 四分位数
  • 标准差
  • 标准分

通过这4个指标的计算和图形视觉化展示,让我们发现“噢!原来这些数据是这样的情况!”。

1.平均值

平均值顾名思义就是计算数据的平均数是多少,可以让我们了解到数据的平均水平是多少。

公式:平均值μ=(数值X1+X2+X3……)/n(多少项,数值的数量)

优点:计算简单,可让人了解到平均水平如何。

缺点:当数据值差距很大的时候,呈现的平均水平结果就可能会出现不客观的现象,出现平均数陷阱,让人误解。例如,我们总觉得自己的收入水平拉低了城市人均工资的水平线。

  • 举个例子:

我们列几个数据来计算人均年收入。

情况1:4个人,工资分别是10万、11万、12万、13万。

平均收入=总收入(10万+11万+12万+13万)/人数(4人)=11.5万

这种情况下,工资收入的差距不是特别大,平均收入水平是能正常体现出平均水平的。

情况2:5个人,工资分别是10万、11万、12万、13万、10亿

平均收入=总收入(10万+11万+12万+13万+10亿)/人数(5人)=2亿9.2万

这种情况下,这几个人的收入突然加上了一个马爸爸的收入水平,让平均收入的金额拉得异常大,计算出来的平均收入是不具备参考性的,因为无法正常反映出这5个人收入的大致情况。

2.四分位数

四分位数是指在把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值,分割后我们会通过5个数值来描述数据的整体分布情况。

  • 下界:最小值,即第0%位置的数值;
  • 下四分位数:Q1,即第25%位置的数值;
  • 中位数:Q2,即第50%位置的数值;
  • 上四分位数:Q3,即第75%位置的数值;
  • 上界:最大值,即第100%位置的数值。

优点:可以用来对比不同类别数据的整体情况,还可以识别出可能的异常值。

缺点:无法反映数据的波动大小

(1)中位数Q2的计算方式

①排序:首先我们要将所有数值以从小到大,从左到右的顺序进行排序。

②计算中位数Q2的位置

假设有n个数

如果n是奇数,中位数就是位于中间位置的数值。

如果n是偶数,中位数则是中间两个数的平均值。

公式:Q2的位置=(n+1)x0.5

  • 举个例子:

我们同样列几个人的年收入来计算中位数。

情况1:4个人,工资分别是12万、10万、13万、11万。

首先,我们将数据进行排序:

位置 1 2 3 4
收入 10万 11万 12万 13万

接着我们对中位数位置进行计算:

中位数Q2的位置=(4+1)x0.5=2.5

2.5即表示Q2的位置在第2个数值和第3个数值之间,因此我们求出第2第3项数值的平均值,就计算出中位数是多少。

中位数Q2=(11万+12万)/2=11.5万

情况2:5个人,工资分别是10亿、10万、13万、12万、11万。

我们将数据进行排序:

位置 1 2 3 4 5
收入 10万 11万 12万 13万 10亿

接着我们对中位数位置进行计算:

中位数Q2的位置=(5+1)x0.5=3

3即表示Q2的位置就是在第3项数值的位置,而Q2的数值也等于第3项数据的数值,即是12万。

中位数Q2=12万

(2)四分位数的计算方式

①先根据上一条的方法求出中位数Q2:

中位数

②求出下四分位数和上四分位数:

四分位数

公式:

下四分位数Q1的位置=(n+1)x0.25

上四分位数Q1的位置=(n+1)x0.75

  • 举个例子:

我们根据下面的数据,分析一下就餐人员距离的问题。

就餐人员距离

以上图标已经将数据进行排列,总共有18个数据,接下来我们套用公式计算分别计算出下四分位数Q1、中位数Q2、上四分位数Q3的位置和数值:

中位数Q2:

Q2位置=(18+1)x0.5=9.5

即中位数为第9和第10项的均值,

Q2=(4+6)/2=5

下四分位数Q1:

Q1位置=(18+1)x0.25=4.75

即下四分位数为第4和第5项的均值,

Q1=(2+2)/2=2

上四分位数Q3:

Q3位置=(18+1)x0.75=14.25

即上四分位数为第14和第15项的均值,

Q3=(11+14)/2=12.5

(3)箱线图

在算出四分位数之后,可能有一些理科思维不太顺畅的人会看懵了,会疑问到这是表示什么呀?这时,就需要用到数据可视化了,用更加直观的形式去展示和分析数据的情况。

而箱线图正是四分位数的专用可视化图形工具,箱线图于1977年由美国著名统计学家约翰·图基(John Tukey)发明,它能显示出一组数据的最大值(上界)、最小值(下界)、中位数、及上下四分位数。

箱线图

根据就餐人员距离的数据计算得出四分位数后,以箱线图呈现,我们发现中位数离下四分位数较近,这代表大部分数值集中在箱线图下端,集中在下四分位数和中位数之间。

(4)四分位数应用1:比较数据

四分位数在具体应用中,不仅可以分析单一的数据组的整体情况,还可以用来对比不同类别的数据集的整体情况。

  • 举个例子:

箱线图对比

通过某个岗位在不同城市的薪酬数据,我们会发现这个岗位在哪个城市的收入水平比较好,然后还可以根据不同经验年限的薪酬数据发现这个岗位的发展潜力如何?

(5)四分位数应用2:识别出可能的异常值

异常值

异常值的意思是跟其他数值对比起来,非常大或者是非常小的数值。通过技术手段,我们可以找到哪些数值可能是异常值,接着我们需要找出异常值的准确性,并进一步检查,看看之后该如何处理这些异常值。

  • 异常值的3点处理办法:

①若异常值是被标记的错误异常数据,那么我们可以在数据分析前就需要进一步核对,并把异常值进行修正。比如出生的婴儿男女性别登记错了,这种情就需要核对修正。

②异常值有可能是被错误包含在数据集中的值,这种情况下就要把异常值删除。比如出生的婴儿登记,把狗的信息登记上去了,这种情况下就应该把数据信息删除。

③异常值可能是反常的数据值,被正确记录在数据集里,这种情况下异常值应该被保留。比如在病毒传播后,访问量突然剧增,这种情况下的异常值,是有效的真实数据,需要保留。

(6)四分位数自动识别可能的异常值:Tukey’s test

Tukey’s test是用于计算出数据集中最大估计值和最小估计值的方法,当一个数值超过最大最小估计值的时候,就可能是异常值。

公式:

最小估计值=下四分位数Q1-k(上四分位数Q3-Q1)

最大估计值=Q3+k(Q3-Q1)

可以根据不同数据的分析目的,对这个k进行取值,例如在一般情况下,

k=1.5 代表中度异常

k=3 代表极度异常

  • 举个例子:

假设我们统计了12个温度数值,分别是

69、69、70、70、70、70、71、71、71、72、73、300

那么我们如何找出异常值呢?首先我们先找出下上四分位数的位置并计算出其数值。

下四分位数Q1位置=(12+1)*0.25=3.25(位于第3第4个数值)

即Q1=(70+70)/2=70

上四分位数Q3位置=(12+1)*0.75=9.75(位于第9第10个数值)

即Q3=(71+72)/2=71.5

求出Q1和Q3的数值之后,我们就可以开始计算最小、最大异常值了。

我们把设定k=1.5

最小异常值=Q1-1.5(Q3-Q1)

=70-1.5(71.5-70)=67.75

最大异常值=Q3+1.5(Q3-Q1)

=71.5+1.5(71.5-70)=73.75

在这个数据集中,只有300这个数值是超过最小最大异常值的,那么我们接下来就可以根据实际情况把这个数值进行进一步处理。

3.标准差:衡量数据的波动大小

在统计学中,我们会用“离散程度”(即是变异性、波动大小)来衡量数据的稳定性。而“标准差”就是统计学当中用来在海量杂乱无章的数据中衡量数据相对于平均值的大小。

优势:衡量波动大小

缺点:如果两个数据差别比较大,那么就无法比较。

那么我们如何来计算标准差呢?

公式:

假设有一个数据集X1、X2、X3

平均值=μ

方差=((X1-μ)2+(X2-μ)2+(X3-μ)2)/n

标准差σ=√ ̄方差

  • 举个例子:哪个球员发挥更稳定?

球员1:

得分 7 9 10 11 13

频数

1 2 4 2

1

数据数量n=10

平均值μ=(7×1)+(9×2)+(10×4)+(11×2)+(13×1)/10=10

方差=((7-10)2x1+(9-10)2x2+(10-10)2x4+(11-10)2x2+(13-10)2x1)/10=2.2

标准差σ=√ ̄2.2≈1.48

球员2:

得分 3 6 7 10 11 13 30

频数

2 1 2 3 1 1

1

数据数量n=11

平均值μ=10

方差≈49.27

标准差σ≈7.02

球员3:

得分 7 8 9 10 11 12 13

频数

1 1 2 2 2 1

1

数据数量n=10

平均值μ=10

方差=3

标准差σ≈1.73

通过标准差比较后发现:

波动大小:球员1<球员3<球员2

标准差:1.48<1.73<7.02

在我们熟知的NBA中,为了保证球员的质量,都会用标准差的方式去计算球员发挥的稳定情况。

在标准差的计算中,标准差的单位是与熟知的单位一样的,例如上述例子中,数值的单位是(分),那么标准差的单位也是(分)。

  • 那么标准差的数值是大一点好还是小一点好?

标准差的数值大小的好坏,其实主要是看我们用来分析什么东西。

例如:

①分析工厂制造:标准差小,就证明生产质量稳定,不会出现过多检验不合格的产品。

②分析公司工资:标准差小,就证明该公司的工资是有上升空间的,只要你通过努力奋斗上升职业,你的工资收入是有很大的提升空间的。

标准差虽然能表示数据整体的波动,但是它有个缺点:如果两个数据差别比较大的情况下那么就无法进行比较。

例如:

店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都约是20万。如果说两个店铺的“波动幅度相同”,这是不对的。

因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。

  • 如何避免标准差的缺点?

如果能用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。

公式:

变异系数=标准差σ/平均值μ

所以,我们通常用变异系数来比较不同数据集的波动大小。

4.标准分:对数据进行归一化处理

标准分主要是用来计算出某个数值在数据中的相对位置的,标准分又叫Z分数或是标准化值。

公式:

假设有一个数据集X1、X2、X3

平均值=μ

标准差=σ

例如我们想计算出X2的标准分

标准分Z2=(X2-μ)/σ

标准分=某个数值距离平均值多少个标准差,通过标准分我们就可以知道这个数值与平均值的相对接近程度。

标准分=0,数值=平均值

标准分>0,数值>平均值

标准分<0,数值<平均值

5.熟悉数据集

学习好分析策略,我们才能知道该如何对数据进行分析,但是前提是要对数据集的数据信息的字段含义熟悉了解。

根据昨天对来源于天池平台的母婴用品电商数据查看,表1表2有以下字段信息:

表1购买商品数据:用户ID 、商品编号、商品种类(一级和二级)、商品属性、购买数量、购买时间

表2婴儿信息:用户ID 、出生日期、性别

  • 你想从该数据集中分析哪些业务问题?

从标准含有的数据信息中,我们可以尝试分析每个季度哪些婴儿商品卖得最好的有哪些。

  • 你觉得哪些字段有助于解决这些问题?

商品编号、商品种类、购买数量、购买时间这4大字段可以解决以上问题。

  • 你想从该数据集中得到哪些描述统计信息?

从该数据集中,我想通过平均值算出产品的平均价格,通过四分位数算出不同类别产品的销量整体情况,通过标准差计算出某一年时间里不同类别产品各总销量的稳定性,通过标准分计算出每个产品销量与整体平均销量的的差距。

 

标签

发表评论