文档章节

CRISP-DM——数据挖掘项目标准流程

皮皮兔
 皮皮兔
发布于 2013/07/22 21:49
字数 694
阅读 1.8K
收藏 3

「深度学习福利」大神带你进阶工程师,立即查看>>>

CRISP-DM过程描述

  CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述。一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。 这依赖每个阶段或是阶段中特定任务的产出物是否是下一个阶段必须的输入。

   业务理解(Business Understanding)

    最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

 

    数据理解(Data Understanding)

    数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。

 

    数据准备(Data Preparation)

    数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

 

    建模(Modeling)

    在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

 

    评估(Evaluation)

    到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保 模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。

 

    部署(Deployment)

    通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报 告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。

皮皮兔
粉丝 0
博文 6
码字总数 1026
作品 0
朝阳
程序员
私信 提问
加载中
请先登录后再评论。
Netty那点事(三)Channel与Pipeline

Channel是理解和使用Netty的核心。Channel的涉及内容较多,这里我使用由浅入深的介绍方法。在这篇文章中,我们主要介绍Channel部分中Pipeline实现机制。为了避免枯燥,借用一下《盗梦空间》的...

黄亿华
2013/11/24
2W
22
beego API开发以及自动化文档

beego API开发以及自动化文档 beego1.3版本已经在上个星期发布了,但是还是有很多人不了解如何来进行开发,也是在一步一步的测试中开发,期间QQ群里面很多人都问我如何开发,我的业余时间实在...

astaxie
2014/06/25
2.7W
22
树莓派(Raspberry Pi):完美的家用服务器

自从树莓派发布后,所有在互联网上的网站为此激动人心的设备提供了很多有趣和具有挑战性的使用方法。虽然这些想法都很棒,但树莓派( RPi )最明显却又是最不吸引人的用处是:创建你的完美家用...

异次元
2013/11/09
6.8K
8
Javascript图元绘制库--ternlight

基于HTML CANVAS API的Javascript库,提供在HTML页面上绘制图元——如流程图的能力。 目前已支持简单的矩形图元和图元间的连线(直线、直角连线两种),拖拽图元等能力。 该javascript librar...

fancimage1
2013/02/07
6.3K
1
实时分析系统--istatd

istatd是IMVU公司工程师开发的一款优秀的实时分析系统,能够有效地收集,存储和搜索各种分析指标,类似cacti,Graphite,Zabbix等系统。实际上,istatd修改了Graphite的存储后端,重新实现了...

匿名
2013/02/07
3K
1

没有更多内容

加载失败,请刷新页面

加载更多

一道多线程面试题区分平庸与卓越

展开 本文分享自微信公众号 - Java架构师联盟(msbxq2019)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。...

Java架构师联盟
04/22
0
0
推荐 33 个 IDEA 最牛配置,写代码太爽了

来源:http://u6.gg/sS7XJ 1.设置maven 1.在File->settings->搜索maven 2.Mavan home directory--设置maven安装包的bin文件夹所在的位置 3.User settings file--设置setting文件所在的位置 ......

程序员闪充宝
04/08
0
0
各位端午节快乐[玫瑰]

本文分享自微信公众号 - 漫游前端世界(gh_6ac344b74a01)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。...

Chorer
06/25
0
0
6个超酷的网站,专门用于学习算法

https://mp.weixin.qq.com/s?__biz=MzIwNTc4NTEwOQ==&mid=2247488953&idx=2&sn=9b45800a84113d9a573539de043dcf9c&chksm=972ac4c3a05d4dd524522990e631768d7eb73a483bf62fb3496711953e625832......

osc_wfvuuuju
5分钟前
0
0
网络安全-跨站请求伪造(CSRF)的原理及防御

目录 简介 原理 举例 漏洞发现 链接及请求伪造 CSRF攻击 不同浏览器 未登录状态 登录状态 代码查看 防御 用户 供应商(程序员) 简介 跨站请求伪造(Cross-site request forgery),也被称为...

osc_bs9rqgec
6分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部