【数据分析】自学数据分析的第一天,数据分析有什么价值?有哪些步骤?

大家好,这是我自学数据的第一天,接下来,我会把我每天学习到的东西进行总结和分享。

数据分析的价值

近几年,大数据技术的发展可谓越来越快,而且在我们日常生活中的运用也是愈发重要。人们对数据的价值也同样的越来越重视,就如同这次的疫情事件,各大平台都联合了各城市的公安系统、医疗系统开发了新冠肺炎疫情动态。数据每天都是实时的状态,我们成为了这个数据中的数据库本身,也是数据结果的使用者,慢慢的,我们的生活已经离不开数据分析了。

1

数据分析和数据挖掘技术在国内得到了广泛的应用和普及,利用数据分析技术从宛如大海般的数据中提取具有极高的价值,可以这么说,数据本身是死物,而数据分析能让数据变“活”。

在我们职场中,数据分析的运用随处可见。好比我们做方案之前,都需要做市场调研,发现市场机会;我们也需要做用户分析,基于数据做用户画像,洞察用户;我们还需要对综合数据进行分析,提前预测风险,调整战略规划……

数据分析师除了需要掌握数据分析的策略、方法和分析工具的熟练使用之外,还需要对行业状况、公司业务、产品/服务的运营都要有一定程度的了解。毕竟数据分析只有根据实际情况进行结合分析才能输出有用的结论,才能真正落地并实现价值。

什么是数据分析

数据分析简单来说,就是运用适当合理的统计分析方法(不同的情况方法不尽相同)对收集到的海量数据进行分析。

因为一般情况下我们收集到的数据都是杂乱无章的,我们要搞清楚我们需要分析什么,然后筛选提炼有用的数据进行加工分析并找到规律,最后把数据信息提炼分析成能让人看懂的知识,比如建议、解决方案、相关预测等。

2

数据分析的步骤

数据分析一般分为5个步骤,数据分析工作人员也需要跟着步骤节奏工作,才能保障工作效率和严谨性。

3

1.明确目的

数据分析的第一步,跟我们做什么事情的第一步都一样,就是需要明确分析目的,设定好目标方向,然后再去执行。好比我们运营公众号,最近突然发现取关率很高,我们要对其进行数据分析的目的就是找出大量分析取关的原因。

2.数据收集

在我们进行数据分析之前,需要拥有数据,才能进行分析,数据是不能捏造的,用没有真实性的数据进行分析没有意义。数据的收集,我们可以根据不同的收集方式和收集渠道去进行收集,大致可分为线上线下、内部外部渠道。

4

  • 线上收集

线上收集的情况比较常见,互联网企业使用居多,例如我们熟知的通过爬虫技术获取网页数据信息,或者是利用第三方工具获取到的线上数据。

  • 线下收集

线下收集最常见的就是市场调查问卷了,如手工录入数据、出版物权威数据收集、别人提供的电子表格都算是线下收集方式。线下收集方式工作量比较繁琐,效率较低。

  • 内部收集

内部收集顾名思义就是数据来源于企业内部,例如财务数据、销售数据、客户数据等。这种收集方式是比较方便的,只要公司授权,而后协调内部同事提供即可。

  • 外部收集

一切不属于企业内部的数据,都属于外部数据,收集外部收据需要用到各种线上线下方式进行海量收集,而后从这些碎片化、粗糙的数据中进行数据清洗和整合,最后才能进行分析。

3.数据处理

一般我们收集到的数据,都是通过多种渠道方式收集到的,而这也就导致这些原始的数据会非常的杂乱无章、粗糙无序。在这个时候,我们就需要用到Excel、Python、R、SAS、SPSS等数据处理软件对数据进行加工处理,快速清洗,降低数据的复杂程度。

5

数据处理包括前期的脏数据清洗、缺失值填充、数据分组转换、数据排序筛选等,后期的业务指标计算、报表模板填充等。

4.数据分析与数据挖掘

有了清洗处理好的数据,我们才能清晰的对数据进行分析和挖掘,结合实际运营情况得出相关结论,以便提供给公司相关同事进行决策和策略指导。掌握好数据分析和数据挖掘的方法,才能在后期更高效的输出数据报告。

  • 数据分析

数据分析之前,我们需要熟悉公司业务,而后我们才能用一些数据分析方法和策略进行有效的分析。

数据分析常用策略包括:描述性统计分析、探索性统计分析、推断性统计分析。

数据分析常用方法包括:对比分析法、分组分析法、预测分析法、漏斗分析法、A/B测试分析法。

通过这些方法分析数据,可以挖掘出数据的隐藏价值用以优化企业运营,例如商超可以从数据分析中找到无效成本从而降低企业运营成本,并可以增加有效成本的运用,提高企业营业利润。

  • 数据挖掘

数据挖掘对于入门小白来说会深奥一点,学习数据挖掘需要学习模型和算法,更是要有扎实的数学基础和熟练的编码能力,这就涉及到深入一点的技术活了。

而也正是因为其复杂、多样且带有动态性,因此在数据挖掘的过程中,每一步都需要想清楚然而再做,弄清楚需要做什么,且达到什么样的效果,出现问题的时候就要进行策略性的调整,从而保证数据挖掘的顺利执行。

数据挖掘的规范步骤可采用SIG组织在2000年时推出的CRISP-DM模型。

  • 数据挖掘项目生命周期的六个阶段:

商业理解(Busines Understanding)

数据理解(Data Understanding)

数据准备(Data Preparation)

建立模型(Modeling)

模型评估(Evaluation)

结果部署(Deployment)

6

我们在实际运用的时候可以根据实际业务情况进行调整,不一定要按照这个顺序执行,只有通过不断地测试和验证,才能做好一个完整的数据挖掘项目。而且数据挖掘都是需要循环执行的,并不是部署完了就算完了,还需要通过不断的迭代优化,才能获得最优的结果。

5.制作数据报告

数据分析得出的最终结果,一般是以PPT形式输出一份数据报告,并且报告中的内容需要目的明确、结构清晰、有据有理。

7

报告的制作需要逻辑性很强,一般都用总分总的形式表达。前部分的目录,要做到简洁明了、结构清晰、有逻辑性。而前言则是要用精练的语句将分析报告的目的、背景、思路、方法、结论等内容概括性表述,以便接着引出正文的分析内容。而正文的分析论证则需做到思路清晰有条理,并且是有理有据,而不是凭空猜想和捏造。最后的结尾部分要根据数据分析结论提出自己的见解、建议或是解决方案,因为数据报告的最终目的还是用来为决策作引导的。

  • 与我们息息相关的数据分析

2016年以来,国家政策持续推动大数据产业发展,十三五规划中明确提出要实施大数据战略,把大数据作为基础性的战略资源,全面实施促进大数据发展行动,随着政策的逐步落地,大数据产业的发展速度也越来也快。

8

在我们日常生活中,人们的衣食住行都离不开数据的支撑,大数据分析技术的发展正在融入我们的生活,也正在改变我们的生活方式。电商能根据我们的需要给我们提供喜欢的商品、短视频能根据我们的喜好向我们推送视频、外卖能根据我们的饮食习惯向我们好吃的餐饮、交通灯能根据实时交通数据进行调整来优化交通的调度、天气预报可以更加精准、农牧业的发展效率得到大大的提高、人民银行的征信报告成为了我们的信用评分标准……

  • 写在最后

第一天的学习都是概念性的东西,往后一边学习一边分享。

 

标签

发表评论