文档章节

数据挖掘 自习笔记 第三章 定性归纳实践(上)

urge104
 urge104
发布于 2013/05/15 22:55
字数 959
阅读 3261
收藏 107

      基于属性归纳的基本思想就是首先利用关系数据库查询来收集与任务相关的数据并通过对任务相关的数据并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作。

     下面是《数据挖掘导论》原文提供的算法——AOI方法(基于属性归纳方法),我本来概念挺模糊的,但后来自己还是思考了,发现这个算法可以看成为一个泛化表的程序。

clip_image001

 

(1)选择数据表。

(2)获取数据表中各属性不同值的个数,为下面操作做准备(其中应该运用了SQL中的groupby语句进行汇总)

(3)对满足条件的属性,进行泛化操作,并可进行删减、整理工作。

(4)合并数据表,整理数据表。

(5)输出,完成过程。

这里还提到一个概念是泛化阈值,泛化阈值,据我理解是这样的。泛化阈值是一个自定义的数值,是与属性中不同值的个数作对比。如果泛化阈值比属性不同值的个数要小,证明该属性要进行泛化操作了。

如:一个表的属性名为:“姓名”,它有700个不同取值,设泛化阈值是2。2<700,那么该属性要进行泛化操作。

此外,还有一个概念叫概念层次树。我的理解是这样的。原表有自己本来的属性。如果它要进行泛化操作。那么进行操作后,要根据新数据与原数据的关系进行新的命名。此时,泛化的属性名与原属性名组成的关系,我们称之为概念层次树。

clip_image003

clip_image005

下面是书中提及的例子

例3.1 从一个大学数据库的学生数据中挖掘出研究生的概念描述。所涉及的属性包括:姓名、性别、专业、出生地、出生日期、居住地、电话和GPA。

第一步将相关学生的数据抽取出来。

得到如下属性

clip_image001[6]

第二部进行分析处理。

(1) name,由于name属性拥有许多不同的取值且对它也没定义合适的泛化操作。可被省掉。

(2) gender,由于gender属性仅包含两个不同值,该属性被保留无需进行泛化。

(3) major,该属性已经定义一个概念层次树,可以进行泛化。设泛化阈值为5,初始数据有25个不同取值。Major属性可以被泛化成指定概念(art&science、engineering、business)

(4) birth_place,该属性拥有不同的取值,我们需要对其进行泛化。着实行有一定的层次:city<provinve<country。我们要根据实际情况来泛化该属性。如果country取值超过属性泛化阈值时,此属性应该被省略。全部都是一国的学生对此项目便无意义了。如果超过属性的泛化阈值,则该属性被泛化为birth_country。

(5) birth_date, 设它有一个概念层次树的存在。birth_date属性可以泛化成age;然后再到age_range。

(6) residence, 假设residence属性是有number、street、residence_city、residence_province、residence_country属性描述。Number和street属性的不同值可能非常多。所以number和street属性或被减掉,residence_city它仅包含四个不同取值。所以将residence属性被泛化成residence_city

(7) phone#,与name属性相似,减掉

(8) gpa,假设gpa存在一个概念层次树。它将平均成绩划分为若干组。如{3.75-4.0,3.5-3.75等},也可以相应的描述为:{excellent,good, …},因此该属性应进行属性的泛化操作。

因此得如下结果。

clip_image003[7]

© 著作权归作者所有

urge104
粉丝 27
博文 10
码字总数 8637
作品 0
广州
私信 提问
加载中

评论(16)

wharf_zhang
wharf_zhang
数据挖掘就是个奇怪的提法,数据就是事实,挖掘什么呢?聚合、切片、旋转等能是挖掘吗?数据挖掘能有什么内容呢?信息挖掘和挖掘信息倒还不错,挖掘数据也还凑合,数据挖掘实在是无法理解,貌似很玄奥而已。
黑传说
黑传说
学过社调的表示,这连入门都不算,所以要学数据挖掘的,建议去看定量统计方面的,数据挖掘仅仅是定量一个非常浅显的应用。
子矜
子矜
不知道是什么,但是感觉很厉害的样子。。
帖子列表
帖子列表
太理论话了
大侠柳云枫
大侠柳云枫
不知道是什么,但是感觉很厉害的样子。。
稻草鸟人
稻草鸟人
不明觉厉
microLive
microLive
不知道你在说什么,看起来很厉害的样子。
kongnanlive
kongnanlive
水太深
大师兄悟空
大师兄悟空
字写的不错,图画的工整。
华兹格
华兹格
能用简单的语言进行表达吗?
数据挖掘 自习笔记 第三章 定性归纳实践(下)

属性相关分析方法: 首先,我的读后感是,对这一系列我感到比较困惑,不过,如果遇到实际问题的时候,只能按照例子,照搬步骤来分析。但是我初步理解到,按照下面的操作,是通过信息量,来分...

urge104
2013/05/15
156
0
《吴恩达 - 机器学习 - 笔记》文集小结

该系列文章为,观看“吴恩达机器学习”系列视频的学习笔记。虽然每个视频都很简单,但不得不说每一句都非常的简洁扼要,浅显易懂。非常适合我这样的小白入门。 这里笔者要絮絮叨叨一番: 其实...

tomas家的小拨浪鼓
03/17
0
0
敏捷教练成长记:秋高气爽第四周

不知不觉坚持了四周了,这周很忙,写读书笔记时尽显疲态,有厌倦的感觉了。需要自我调整,继续坚持。 1、敏捷方面读不少于50页的书或者文章。 阅读《持续交付-发布可靠软件的系统方法》第三章...

转型实践者
2017/11/26
0
0
ApacheCN 人工智能知识树 v1.0

Special Sponsors 贡献者:飞龙 版本:v1.0 最近总是有人问我,把 ApacheCN 这些资料看完一遍要用多长时间,如果你一本书一本书看的话,的确要用很长时间。但我觉得这是非常麻烦的,因为每本...

ApacheCN_飞龙
05/18
0
0
敏捷教练成长记:漫漫长路第三周

看到跆拳道的软文,讲到: 学跆拳道的正确顺序: 第一阶段:有兴趣 第二阶段:没兴趣 第三阶段:逼练习 第四阶段:成习惯 第五阶段:有兴趣 第六阶段:真热爱 大部分家长在孩子第二阶段时放弃...

转型实践者
2017/11/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

3_数组

3_数组

行者终成事
今天
7
0
经典系统设计面试题解析:如何设计TinyURL(二)

原文链接:https://www.educative.io/courses/grokking-the-system-design-interview/m2ygV4E81AR 编者注:本文以一道经典的系统设计面试题:《如何设计TinyURL》的参考答案和解析为例,帮助...

APEMESH
今天
7
0
使用logstash同步MySQL数据到ES

概述   在生成业务常有将MySQL数据同步到ES的需求,如果需要很高的定制化,往往需要开发同步程序用于处理数据。但没有特殊业务需求,官方提供的logstash就很有优势了。   在使用logstas...

zxiaofan666
今天
10
0
X-MSG-IM-分布式信令跟踪能力

经过一周多的鏖战, X-MSG-IM的分布式信令跟踪能力已基本具备, 特点是: 实时. 只有要RX/TX就会实时产生信令跟踪事件, 先入kafka, 再入influxdb待查. 同时提供实时sub/pub接口. 完备. 可以完整...

dev5
今天
7
0
OpenJDK之CyclicBarrier

OpenJDK8,本人看的是openJDK。以前就看过,只是经常忘记,所以记录下 图1 CyclicBarrier是Doug Lea在JDK1.5中引入的,作用就不详细描述了,主要有如下俩个方法使用: await()方法,如果当前线...

克虏伯
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部