基于CRISP的数据挖掘有哪些坑?双手奉上破解妙招

编辑时间: 2018-01-16 23:52:46    关键字:

 本文作者为Decision Management Solutions的CEO James Taylor,是基于数据分析的决策管理系统构建领域的领先专家,他为各种规模的公司提供战略咨询,与客户的各个部门合作,让他们可以使用决策模型,数据分析和其他决策技术。

决策管理系统可以帮助公司改进决策过程,开发数据驱动的敏捷业务系统。 Taylor 在 Kdnuggets上介绍了CRISP数据挖掘流程中常见问题和解决方案。本文由雷锋网编译。

CRISP-DM (cross-industry standard process for data mining),即跨行业数据挖掘标准流程,描述了数据挖掘的生命周期,是迄今为止最流行的数据挖掘流程,更多CRISP-DM的应用示例请看《CRISP-DM, still the top methodology for analytics, data mining, or data science projects》这篇文章。

之所以许多数据分析人员使用CRISP-DM,因为他们需要的是一种可重复使用的分析方法。然而,如何在日常工作中使用CRISP-DM方法时,仍存在一些问题。排名前四的4个问题分别是对业务需求缺乏认知,盲目的返工,盲目的部署和无法形成迭代。决策建模和决策管理可以解决这些问题,使CRISP-DM流程的价值最大化,并确保模型分析的有效性。

完整的CRISP-DM数据挖掘流程的各个阶段如图1所示。下面介绍每个阶段所要完成的任务。

基于CRISP的数据挖掘有哪些坑?双手奉上破解妙招-数据分析网

图1 基于CRISP-DM的完整数据挖掘流程图

1. 业务理解阶段(Business Understanding):集中在理解项目目标和从业务的角度理解需求,定义数据挖掘问题和完成目标的初步计划;

2. 数据理解阶段(Data Understanding):从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设;

3. 数据准备阶段(Data Preparation):数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据将是建模阶段的输入值,任务包括属性的选择、数据表、记录的抽取,以及将数据转换为模型工具所需的格式和清洗数据;

4. 建模阶段(Modeling):可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。有些技术在数据格式上有特殊要求,因此需要经常跳回到数据准备阶段;

5. 评估阶段(Evaluation):经过建模阶段后,已建立了一个高质量的决策模型,但在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑,评估模型是否有达到最初设定的目标;

6. 部署阶段(Deploying):根据用户需求,实现一个重复的、复杂的数据挖掘过程。

最外面这一圈表示数据挖掘自身的循环本质,每一个解决方案部署之后代表另一个数据挖掘的过程也已经开始了,需要在运行过程中不断迭代、更新模型。

CRISP-DM是一个伟大的框架,它可以让项目组聚焦于挖掘真正的商业价值上。CRISP-DM路程已经存在有很长时间了,许多使用CRISP-DM流程的项目常常会走捷径,这些捷径中的有一些是有意义的,但捷径往往会导致项目使用不完整的流程,如图2所示。

基于CRISP的数据挖掘有哪些坑?双手奉上破解妙招-数据分析网

图2 典型的不完整CRISP-DM

这种不完整的CRISP-DM流程存在四个问题,具体包括:

1. 业务目标不清晰:

不能一开始就陷入细节,应该真正去了解业务问题以及明确一个模型可以发挥什么作用,确定项目团队的业务目标和提出衡量项目成功的指标。“理解”了业务目标,团队想把工作负担最小化,就跳入项目的最有趣的部分--分析数据,但这样做只产出有趣的模型,而不能满足真正的商业需要。

2.  盲目地返工:

一些分析团队只用分析术语来评估他们的模型,认为如果模型只要做到可预测,那么它就是一个好的模型。大多数人通常可以意识到模型是有问题的,就会尝试检查他们的模型是否符合业务目标。但如果缺乏对商业问题的充分认识,这样的检查往往是非常困难的。如果他们开发的模型不符合业务需求,此时团队几乎没得选择,此时大多数人是在尝试找到新数据或新的建模技术,而不是与他们的业务合作伙伴一起重新评估业务问题。

3. 盲目地部署:

一些分析团队根本不考虑他们模型的部署和操作的易用性。做得好些的团队可以认识到他们构建的模型必将处理实时数据,数据通常存储在数据库中,或嵌在式操作系统中。即使是这样的团队通常也没有参与到部署工作中,不清楚模型是如何部署的,并不把部署当做分析工作的一部分,结果就是模型直接丢给IT团队去部署,模型是否容易部署、以及在生产环境是否可用都是别人的问题。这增加了模型部署的时间和成本,并产生了大量从未对业务产生影响模型。

4. 无法形成迭代:

分析专家了解模型的生命周期,为了保证模型的可用性,需要对模型保持更新。他们知道随着商业环境变化,模型的价值会改变,驱动模型的数据模式可能会改变。但他们认为这是另一个时间点的问题。由于他们缺少对业务问题的足够认识,往往难以确定如何评估模型的表现,相比模型建立阶段,他们在模型迭代、修改上的投入更少。毕竟解决另一个新问题更有趣。这使得老的模型不受监控和保护,从而破坏了模型的长期价值。

以上任一问题都可能使构建出来的模型毫无商业价值,真正需要利用分析的组织,特别是数据挖掘、预测和机器学习等更高级的分析,必须避免这些问题。

解决这些问题需要明确、清晰地关注决策,围绕着决策展开,包括需要改善的决策方法,改善意味着什么,做能实际改善决策的分析模型,设计可以辅助决策的系统,还需要明确在怎样的外部环境下需要重新评估模型。雷锋网将关注Taylo后续关于数据挖掘的文章,敬请期待。

推荐热图

合作推荐

2010-2018 可思数据版权所有 About SYKV | ICP备案:京ICP备14056871号