文档章节

数据挖掘九律

 数据分析师
发布于 2014/12/10 15:09
字数 1393
阅读 10
收藏 0

TTNN里面一位朋友分享的,感觉很有意思,拿来分享给大家!

数据挖掘九律 - Data Mining - 数据挖掘与数据分析

有位挖掘专家tom khabaza提出了挖掘九律,挺好的东西,特别是九这个数字,深得中华文化精髓,有点独孤九剑的意思:

第一,目标律。数据挖掘是一个业务过程,必须得有业务目标。无目的,无过程。

第二,知识律。业务知识贯穿在挖掘这个业务过程的各环节。

第三,准备律。数据获取、数据准备等数据处理耗时占整个挖掘过程的一半。

第四,NFL律。NFL,没有免费的午餐。没有一个固定的算法适用所有的业务问题,特定应用适合的模型只能通过经验发现。

第五,大卫律。要相信,数中必有业务规律。大卫?沃尔金斯最早提出的,故此名。

第六,洞察律。数据挖掘本质上是增强对业务领域的认知。

第七,预测律。数据挖掘基于过去得出模式,并泛化到类似新事物上,这就是预测,但这是统计概念的。

第八,价值律。挖掘模型的最终价值并非模型精度或稳定性,而是驱动业务行动或通过新洞察导致策略改善。

第九,变化律。人不会两次踏入同一条河流。业务在变,目标在变,认识也在变,甚至规律本身也在变,挖掘模型也得与时俱进。

很好, 挖掘者习此九律,必将功力大增,杀敌于无形之中,乃升迁加薪必备胸器。咱可以设想一些场景,看看这九律是怎么灵活运用的。运用这九律的心法是,敌不动我不动,见招拆招,以无招胜有照。

故事开始........:S,挖掘新手,M为其导师,挖掘高手。一日,S接到任务,走一趟挖掘。过了段时间,他找到M,M正在闭目打坐。发生一场对话。

S:师傅,徒儿接到任务,已经开始干了,不出一个月就可大功告成。

M:嗯,不错,什么进展了?

S:我已经安排下去,现在数据准备已经完成,并且建了一个小模。哎呀,您是不知道啊,那个数据太烂,一堆问题,到处是空值,很多信息也是假的,balabala….

M:先别说你的数据,数据准备干了多长时间了?

S:干了一个多月,还蛮符合准备率的吧!

M:这个任务到底要干什么?

S:嗨,就是要找出想搞破坏的人,放心,第一律我牢记于胸。现在还有两个人帮我一起做,一个准备数据,一个建模。

M:那你干什么?

S:我搞业务理解啊,并且运用知识律,搞了一个挖掘过程模板,我们三个就用这个模板进行过程交互,挺好的,什么时候给您瞅瞅。

M:嗯,听起来不错,那你今天来此打扰我清修作甚?

S:您是不知道啊。不是跟你说了,我们还建了一个小模嘛。唉,效果不太好。用分类预测训练了数据,但那个数据实在太差了,感觉那个模型一点都不靠谱,没反应出来什么规律。我们用那个结论在我们三个身上试了一下,结果大家都觉得不对,我们都成了想搞破坏的人,一点都不符合实际情况。

M:你忘了大卫律了?要相信。还有预测律,你这个模型在你们三个身上试验,能证明什么?

S:是啊,我没忘啊。不过要找到规律还需要时间啊。我们要计划在找更多的样本去验证。不过…今天来…确实是无事不登三宝殿…有个事儿…

M:啥事?

S:您前年不是搞了一个犯罪预测嘛,现在很多地方都在用,我想跟这次任务的目标类似,我想能不能就直接把您的模型拉过来训练一下就行了…您那个模型实在是太绝了…

M:哈哈,看来你想偷懒啊,但你怎么能够知道这个模型适用你的任务呢?

S:您的模型我还担心什么啊。主要是这次任务时间紧,我也没办法,先解决了问题吧,能精确定位目标人群就行了,您的模型,肯定很准的。

M:虽然你拍我马屁,但我还是对你很失望啊。挖掘的本质是什么?

S:呃…洞察…我也知道天下没有免费的午餐...但时间太紧,任务太重啊,没您不行啊,您的模型就是我们的法宝啊。

M:唉,不说那是两年前的模型,现在你遇到的情况跟我遇到的情况不一样,现在的犯罪手段也变了各种花样,变化率怎么说的?再说,你为什么如此看重模型的精度,那并非挖掘的终极价值啊!醒悟吧!我代表客户鄙视你!

S:老家伙,你到底是给还是不给?你是想看着我死吗?

M:(仰天长叹)唉,师徒一场,罢了罢了,拿去吧。但你此一去,我们师徒恩断义绝,以后再也不要来见我,再也不要叫我师傅,也不要再别人面前妄称我是你的师傅。走吧,走吧…

© 著作权归作者所有

共有 人打赏支持
粉丝 30
博文 1645
码字总数 2338861
作品 0
邢台
私信 提问
[Python舆情分析] 一.舆情事件的幂律特性分析及时间间隔分布图绘制

版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ https://blog.csdn.net/Eastmount/article/details/86593092 本文主要是作者学习舆情分析、情感分析、人类行...

Eastmount
01/22
0
0
数据分析师:大数据建模,你需要了解九大形式

数据挖掘是利用业务知识从数据中发现和解释知识的过程,这种知识是以自然或者人工形式创造的新知识。 第一,目标律:业务目标是所有数据解决方案的源头。 它定义了数据挖掘的主题:数据挖掘关...

jingsupo
2018/10/17
0
0
《一期一图》第43期:天苍苍,野茫茫。风吹草低见牛羊

-1- 南北朝民歌《敕勒歌》 敕勒川,阴山下。 天似穹庐,笼盖四野。 天苍苍,野茫茫。 风吹草低见牛羊。 天苍苍,野茫茫。风吹草低见牛羊 -2- 说《敕勒歌》 《敕勒歌》的诞生时代,正是我国历...

萃丰
2018/03/11
0
0
大数据建模的九大形式,你知道吗?(下)

第五,模式律(大卫律):数据中总含有模式。 我们可能预料到一些数据挖掘项目会失败,因为解决业务问题的模式并不存在于数据中,但是这与数据挖掘者的实践经验并不相关。 这是因为:在一个与业...

陈安妮annie1
2017/12/27
0
0
[古言]经世流年杨家将(77)

图片发自简书App 第七十七章:雁门大战故技重施 雁门关为九寨之首,孤峰耸峙,地理位置险绝。自失了幽云十六州,雁门关便是北方长城防线上唯一的天险! 相传南雁北反都没法飞越山巅,需侧身从...

唐朝李白
2018/02/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

JavaEE开发的颠覆者SpringBoot实战摘要笔记

一、注解理解 1.spring注解 1)@Configuration/@ComponentScan/@Bean注解实现java方式的配置。 @Configuration代替xml文件 @ComponentScan指定扫描范围 @Bean代替bean标签 2)@Bean、@Componen...

啃不动地大坚果
27分钟前
4
0
跨链技术的分析和思考

当前的区块链底层技术平台百花齐放,不同的业务、不同的技术底层的区块链之间缺乏统一的互联互通的机制,这极大限制了区块链技术和应用生态的健康发展。跨链的需求由此而来,本文通过分析几种...

Tiny熊
29分钟前
2
0
使用css预处理器sass轻松生成margin、padding四个方向多个值的css样式代码

直接在scss文件上复制这段scss代码: $directions:("t":"top", "b":"bottom", "l":"left", "r":"right");$dimensions:("p":"padding", "m":"margin");//获取padding margin间隔@each $......

祖达
46分钟前
0
0
gearman安装,提示错误:configure: error: could not find boost

背景及最终解决方案 在CentOS 7上安装gearman时,提示错误:configure: error: could not find boost,最终解决方案是: 先安装: # yum install -y boost boost-devel 发现问题还是没解决,...

暗夜在火星
53分钟前
2
0
NFS服务

问题1: A机器上传了一张图片,结果B机器访问的时候就提示404. NFS,Network File System。网络文件系统,即通过网络,对在不同主机上的文件进行共享。 NFS最早由Sun公司开发,分2,3,4三个...

wzb88
54分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部