行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 数据挖掘 正文

数据分析的7个步骤

正如马云所说,数据时代已经来临。现阶段,无论是个体、组织还是公司,无时无刻不产生各种数据,处于这样一个环境下,如何对数据进行分析显得尤为重要,那么数据分析该如何进行呢???
 



大致可分为如下七个步骤:

第一步:确定问题

在进行真正的数据分析操作之前,要首先分析你的需要,你为什么要进行数据分析,数据分析是为了什么。一是确定解决或者弄明白为什么的问题,二是确定涉及到的变量或者数据的问题,由此两点,再去基于接下来科学的数据分析去提出策略解决问题。举个case,一堆人站在你面前,你发现他们的身高有低有高,体型有胖有瘦,这个时候你想知道这是什么原因造成的,此时你就确定了要弄明白的问题,接下来你又会想,是哪些因素造成的这种差异性呢?基因、饮食、性别、地域或者别的一些因素,这个时候你就是要确定哪些变量的问题。

第二步:数据采集

所谓的数据采集是收集被确定为数据需求的目标变量信息的过程。在数据的采集过程中,要遵循一些原则:准确性,代表性,广泛性等,原则的遵循重点是为了保证后续相关决策的有效性。数据的收集可能会从现实中去调查,也有可能直接从相关的数据库中调取。接着说例子,在上一步骤中,你确定了变量,这个时候你就要开始去收集采取变量数据了。

第三步:数据处理

数据处理也可以说是数据的规范化,需要把收集到的数据进行组织,包括根据相关分析工具的要求构建数据。例如,你用Excel进行处理时,必须先把他们录入到表格的行和列中;你用spss进行分析时,不仅需要数据视图的录入,还需要变量视图的录入。你需要根据你和工具需要来处理数据。

第四步:数据清洗

数据清洗也成数据清理,有些人是把这一步骤和数据处理步骤放在一起了,你也可以这样做,只是要记得这是两个不同的先后继承性的步骤,小编认为,在数据进行规范化处理之后,在进行清洗时会一目了然地发现问题解决问题,假设你把数据录入到Excel表格中后,你会叫容易的发现那些变量存在空值异常值,此时你就需要对他们进行清洗处理,或者利用一些大家公认的方法(填充、删除)进行处理。还接着那个例子说,在录入数据后,你发现有几个个体的身高是空值,这个时候你可以把他们直接删掉,或者采用平均值进行填充;你也可能会发现一些异常值,比如某人身高特别高或特别低,这个时候也要进行清洗。不过,总的来说目的只有一个,就是从而保证数据的真实性与有效性。

第五步:数据分析

也称为数据建模,完成以上步骤后,此时你就要来完成数据分析过程中的重头戏了,结合统计学,计量经济学等学科做定量分析,同时也要结合业务现实做定性分析、对数据进行描述性分析、探索性分析及信度效度的测量,尽可能建立科学准确的模型(如相关性、回归分析),来识别数据变量之间的关系等。不可否认的是:在这一建模分析过程中,需要大量反复的迭代工作来反复验证模型结果与假设的合理性。

第六步:数据可视化

按照上帝(顾客)或者boss的要求,将你数据分析的结果进行报告输出,所谓的可视化简单来说就是以图表的方式展示出来,这样会让用户更直观的接受理解你的分析结果。

第七步:提供解决方案

以上几步的完成,勉强说完成了整个业务分析的一半。你可能要问为什么做了那么多业务却没有多大的价值,别问为什么,哪有那么多为什么。不要忘了你的上帝是要你做什么的,是要你为他们解决问题,解决问题,解决问题。你需要想出合理的方案idea来解决上帝的问题。还记得我的前半生中的情节吗:贺函离开比安提,直接空降到辰星做总监,关键是还把之前的客户带走了,为什么,因为贺函有想法idea,能为客户解决问题,而所谓的前几个步骤,但凡是一个上了规模的咨询公司,都能够做到。按剧情开始时的情节来看,比安提之所以是比安提,辰星之所以是辰星,现在想想也不无道理。

作者:刘郎浅读 来源:信息化和软件服务网

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部