文档章节

数据挖掘笔记

卓尔
 卓尔
发布于 2014/06/13 12:17
字数 899
阅读 85
收藏 0

什么是数据挖掘?

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据挖掘,与信息检索的区别。

数据挖掘任务

预测建模,有两类预测建模任务:分类(classification)和回归(regression)。分类用于预测离散的目标变量;回归用于预测连续的目标变量。如预测花的模型。

关联分析,用来发现描述数据中强关联特征的模式。如购物篮分析。

聚类分析,旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

异常检测,任务是识别其特征显著不同于其他数据的观测值。如信用卡欺诈检测。

 

分类法是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法基于规则的分类法神经网络支持向量机朴素贝叶斯分类法。这些技术都使用一种学习算法确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。

决策树:原则上讲,对于给定的属性集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。尽管如此,人们还是开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次优决策树。这些算法通常采用贪心策略,在选择划分数据的属性时,采取一系列局部最优决策来构造决策树,Hunt算法就是一种这样的算法。Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART。

基于规则的分类法:最近邻分类器,是一种消极学习方法不需要建立模型,然而,分类测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。相反,积极学习方法通常花费大量计算资源来建立模型,模型一旦建立,分类测试样例就会很快。贝叶斯分类器,是一种把类的先验知识和从数据中收集的新证据相结合的统计原理。贝叶斯分类器的两种实现:朴素贝叶斯和贝叶斯信念网络。

神经网络

支持向量机

随机森林

 

聚类算法:

K均值,是基于原型的、划分的聚类技术。它试图发现用户指定个数(K)的簇(由质心代表)。K均值用质心定义原型,其中质心是一组点的均值。

© 著作权归作者所有

卓尔

卓尔

粉丝 23
博文 283
码字总数 129742
作品 1
杭州
私信 提问
R语言可视化学习笔记之相关矩阵可视化包ggcorrplot

基于ggplot2包以及corrplot包的相关矩阵可视化包ggcorrplot,ggcorrplot包提供对相关矩阵重排序以及在相关图中展示显著性水平的方法,同时也能计算相关性p-value 安装方法就不提了,不懂的可...

R语言中文社区
2018/01/25
0
0
数据挖掘入门笔记

最近想学习一下数据挖掘的相关知识,从网上找了本《数据挖掘:概念与技术》来看看。打算写一些笔记,记录一下比较基础又重要的知识点。希望自己能把基础打牢一点,也希望能帮到一些跟我一样打...

辣鸡大学生代表
2018/02/20
0
0
R语言学习笔记之相关性矩阵分析及其可视化

计算相关矩阵 R内置函数 cor() 可以用来计算相关系数:cor(x, method = c("pearson", "kendall", "spearman")),如果数据有缺失值,用cor(x, method = "pearson", use = "complete.obs")。 ......

R语言中文社区
2018/02/05
0
0
学习周记3:2019.3.4-2019.3.10(模板)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/BeerBread134/article/details/87908291 前言 这学期几乎全是硬核的算法/程序课,为了督促自己认真学习,我将...

陶晨毅
02/24
0
0
学习周记4:2019.3.11-2019.3.17(模板)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/BeerBread134/article/details/88113035 前言 这学期几乎全是硬核的算法/程序课,为了督促自己认真学习,我将...

陶晨毅
03/04
0
0

没有更多内容

加载失败,请刷新页面

加载更多

tornadofx根据不同的选择显示隐藏控件

import javafx.collections.FXCollectionsimport tornadofx.*class LearnApp : App(ChooseUserView::class)class User() { constructor(name: String, type: Int, isAdmin: B......

oschina4cyy
22分钟前
5
0
Leetcode PHP题解--D105 1005. Maximize Sum Of Array After K Negations

D105 1005. Maximize Sum Of Array After K Negations 题目链接 1005. Maximize Sum Of Array After K Negations 题目分析 给定一个数组A,对其进行K次以下操作:从数组A中选择任意元素,取其...

skys215
31分钟前
2
0
为什么重复的GET请求变慢了?

最近在研究慢请求监控的问题,写了一个简单的测试代码:在网页端(index.html)通过fetch函数向服务端获取数据,然后打印请求耗时。 function requestData() { let start = new Date(); ...

Fundebug
49分钟前
7
0
5年时间,我从开发做到总裁的秘籍--如何提升技术型管理者的领导力

作者:阿里云MVP 肖凯 对于深耕技术的一线开发者而言,大多数都希望把技术工作进行到底,或者一直从事和技术技术相关性更高的工作。但随着年龄和经验的增长,我对管理和技术的思考越来越多、...

阿里云云栖社区
55分钟前
7
0
LeetCode 142:环形链表 II Linked List Cycle II

给定一个链表,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索引从 0 开始)。 如果 pos 是 ...

iCodeBugs
56分钟前
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部