文档章节

.数据挖掘及工具简介

泡海椒
 泡海椒
发布于 2016/12/17 14:07
字数 1058
阅读 56
收藏 1

01.数据挖掘及工具简介
目标,理解数据挖掘的基本概念,术语含义
了解常用挖掘算法种类以及应用场景
理解数据挖掘的流程
熟悉RapidMiner工具平台界面功能组成
什么是数据挖掘
数据挖掘(从数据中发现知识)
从大量的数据中挖掘出那些令人感兴趣的隐含的前所未有的和可能的模式和知识
挖掘的不仅是数据(所以数据挖掘并非是一个精确的用词)
数据挖掘的替换词(数据库知识挖掘KDD,知识提炼,数据/模式分析。数据考古,数据捕捞,信息收货等等)
在何种数据上进行数据挖掘
数据库数据
数据仓库
事务数据
其他类型的数据
--时间相关的数据(历史记录,股票交易,时间序列,生物学序列)
--空间数据库(如地图)
--数据流(视频监控,传感器数据)
--工程设计数据(如建筑,系统部件或者集成电路)
--超文本和多媒体数据(如文本,图像,音频,视频)
--图或者网状数据(如社会和信息网络,微博传播路径)
--万维网
一般功能
--描述性的数据挖掘
--预测性的数据挖掘
通常用户并不知道在数据中挖掘出什么数据,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的数据模式
--概念/类描述:特征化和区分
--关联分析
--分类和预测
--聚类分析
--孤立点分析
--趋势和演变分析
概念描述:为数据的特征化和比较产生描述(当描述的概念所指的是一类对象时,也称为类描述)
--特征化:提供给定的数据集简洁汇总
例?:对AllElectronic公司的大客户(年消费额$1000以上)的特征化描述,40-50岁有固定职业,信誉良好,等等
--区分提供两个或者多个数据集的比较描述
status             birth_country    age_range   gpa    count
graduate           canada           25-30       good    90
undergraduate      canada           25-30       good    210
关联规则挖掘
从事数据库,关系数据库和其他信息存储中大量的项集之间发现有趣的频繁的模式,关联和相关性
广泛用于购物篮或事物数据分析

age (x,"30...39")^income(x,"42k...48k")=>buys(x,"computer) [sup port=20%,confidence=70%]

分类和预测
根据训练集和类标号属性,构建模型来分类实现现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象
-比如按气候将国家分类,按照汽油消耗将汽车分类
-导出模型的表示,决策树,分类规则,神经网络
-可以用来预报某些未知的或者丢失的数字值

IF age="<=30" AND studeng="no" then buys_computer="no"
IF age="<=30" AND studeng="yes" then buys_computer="yes"
IF age="<=31...40" then buys_computer="no"
IF age=">40" AND credit_rating="excellent" then buys_computer="yes"
IF age=">30" AND credit_rating="fair" then buys_computer="no"

聚类分析
-将物理或抽象对象的集合分组成为一个由相似的对象组成的多个类的过程
-最大化类内的相似性和最小化类间的相似性
列入,对web日志数据进行聚类,以发现相同用户的访问模式

孤立点分析
-孤立点:一些与数据的一般行为或模型不一致的孤立数据
通常孤立点被作为噪声或异常被丢弃,但在欺骗检测行为中却以通过对罕见的事件进行孤立点分析而得到的结论
应用
信用卡欺诈检测
移动电话欺诈检测
客户划分
医疗分析(异常)

趋势和演变分析
描述行为随时间变化的对象发展趋势或规律(时序数据库)
-趋势和偏差:回归分析
-序列模式匹配:周期性分析
-基于类似性的分析

 

 

Rapid Miner工具
官网工具 www.rapidminer.com
RapidMiner插件下载地址
http://marketplace.rapid-i.com/UpdateServer

© 著作权归作者所有

泡海椒
粉丝 11
博文 282
码字总数 288344
作品 0
成都
程序员
私信 提问
数据挖掘算法及工具教程--DataHref

随着大数据技术的普及,对数据挖掘的需求在不断上升,本项目为一些常用的数据挖掘工具提供中文文档,并提供一部分数据挖掘算法的教程,仍在不断更新中。 mllib、scikit等数据挖掘工具的教程 ...

CrawlScript
2015/12/29
1K
2
社交网站的数据挖掘与分析

原书名:《Mining the Social Web》 中文书名:《社交网站的数据挖掘与分析》 作者: 马修·罗塞尔(Matthew A. Russell),Digital Reasoning Systems公司的技术副总裁和Zaffra公司的负责人...

李辉
2012/04/16
0
0
“R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知

中国通信工业协会通信和信息技术创新人才培养工程项目办公室 通人办〔2017〕 第45号 “R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知 各有关单...

meyh0x5vdtk48p2
2018/01/02
0
0
R语言入门:大数据人才缺口巨大,现在学习还不晚

数据时代已经到来,但数据分析、数据挖掘人才却十分短缺,据全球顶尖管理咨询公司麦肯锡(McKinsey)一份详细分析报告显示: 预计到 2018 年,大数据或者数据工作者的岗位需求将激增,其中大...

bjweimengshu
2017/12/15
0
0
R语言从入门到精通(干货整理)

R语言从入门到精通|共有6套课程,127个课时,这门课的讲师谢佳标,是WOT峰会讲师,中国R语言大会讲师,高级数据分析师,8年以上数据挖掘建模工作实战经验,有部分研究成果获国家专利。 1. R...

让往事随风
2016/04/01
231
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring使用ThreadPoolTaskExecutor自定义线程池及实现异步调用

多线程一直是工作或面试过程中的高频知识点,今天给大家分享一下使用 ThreadPoolTaskExecutor 来自定义线程池和实现异步调用多线程。 一、ThreadPoolTaskExecutor 本文采用 Executors 的工厂...

CREATE_17
今天
5
0
CSS盒子模型

CSS盒子模型 组成: content --> padding --> border --> margin 像现实生活中的快递: 物品 --> 填充物 --> 包装盒 --> 盒子与盒子之间的间距 content :width、height组成的 内容区域 padd......

studywin
今天
7
0
修复Win10下开始菜单、设置等系统软件无法打开的问题

因为各种各样的原因导致系统文件丢失、损坏、被修改,而造成win10的开始菜单、设置等系统软件无法打开的情况,可以尝试如下方法解决 此方法只在部分情况下有效,但值得一试 用Windows键+R打开...

locbytes
昨天
8
0
jquery 添加和删除节点

本文转载于:专业的前端网站➺jquery 添加和删除节点 // 增加一个三和一节点function addPanel() { // var newPanel = $('.my-panel').clone(true) var newPanel = $(".triple-panel-con......

前端老手
昨天
8
0
一、Django基础

一、web框架分类和wsgiref模块使用介绍 web框架的本质 socket服务端 与 浏览器的通信 socket服务端功能划分: 负责与浏览器收发消息(socket通信) --> wsgiref/uWsgi/gunicorn... 根据用户访问...

ZeroBit
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部