文档章节

OverFitting(过度拟合)的概念

沉默的大绵羊
 沉默的大绵羊
发布于 2014/09/26 12:53
字数 741
阅读 40
收藏 0

最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。


overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。


百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。


..........................

以下概念由本人摘自《数据挖掘-概念与技术》

P186 过分拟合 即在机器学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不在一般数据集中出现。

P212 由于规则可能过分拟合这些数据,因此这种评论是乐观的。也就是说,规则可能在训练数据上行能很好,但是在以后的数据上九不那么好。


............................

补充c4.5算法中的介绍 这个通俗易懂

决策树为什么要剪枝?原因就是避免决策树“过拟合”样本。前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现堪称完美,它可以100%完美正确得对训练样本集中的样本进行分类(因为决策树本身就是100%完美拟合训练样本的产物)。但是,这会带来一个问题,如果训练样本中包含了一些错误,按照前面的算法,这些错误也会100%一点不留得被决策树学习了,这就是“过拟合”。C4.5的缔造者昆兰教授很早就发现了这个问题,他作过一个试验,在某一个数据集中,过拟合的决策树的错误率比一个经过简化了的决策树的错误率要高。那么现在的问题就来了,如何在原生的过拟合决策树的基础上,通过剪枝生成一个简化了的决策树?


本文转载自:http://blog.csdn.net/fengzhe0411/article/details/7165549

沉默的大绵羊
粉丝 1
博文 20
码字总数 9624
作品 0
美国
程序员
私信 提问
正则化逻辑回归(Regularization)

1. 过拟合的问题(The problem of overfitting) 正则化可以减轻过拟合问题。 欠拟合(underfitting) 高偏差(high bias) 过拟合(overfitting) 高方差(high variance) 泛化(generaliz...

thinkando
2018/08/28
0
0
初识机器学习——吴恩达《Machine Learning》学习笔记(七)

正则化(Regularization) 过拟合问题(The problem of overfitting) 欠拟合(underfitting):算法没有很好地拟合训练数据,具有高偏差(high bias)。 过拟合(overfitting):很好的拟合了数据集,...

Ta来自江湖
2018/07/24
0
0
机器学习基础:(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用...

【方向】
2018/11/23
0
0
Lasso 和 Ridge 简介

作者:童话李 链接:https://www.zhihu.com/question/38121173/answer/403986652 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 这两天的项目就是LASSO...

公孙衍
2018/10/01
82
0
理解Bias(偏差),Error(误差),和Variance(方差)的区别和联系?

最近听机器学习课程时听到这三个概念一开始有点模糊。感觉没理解透,所以自己又查了点资料,消化了一下,然后做了个笔记。 首先三者之间的联系是 Error = Bias + Variance(这里应该是忽略的...

邱定
2018/05/20
0
0

没有更多内容

加载失败,请刷新页面

加载更多

采坑指南——k8s域名解析coredns问题排查过程

正文 前几天,在ucloud上搭建的k8s集群(搭建教程后续会发出)。今天发现域名解析不了。 组件版本:k8s 1.15.0,coredns:1.3.1 过程是这样的: 首先用以下yaml文件创建了一个nginx服务 apiV...

码农实战
2分钟前
1
0
【2019年8月版本】OCP 071认证考试最新版本的考试原题-第6题

choose three Which three statements are true about indexes and their administration in an Orade database? A) An INVISIBLE index is not maintained when Data Manipulation Language......

oschina_5359
4分钟前
1
0
阿里巴巴开源 Dragonwell JDK 最新版本 8.1.1-GA 发布

导读:新版本主要有三大变化:同步了 OpenJDK 上游社区 jdk8u222-ga 的最新更新;带来了正式的 feature:G1ElasticHeap;发布了用户期待的 Windows 实验版本 Experimental Windows version。...

阿里巴巴云原生
10分钟前
1
0
教你玩转Linux—磁盘管理

Linux磁盘管理好坏直接关系到整个系统的性能问题,Linux磁盘管理常用三个命令为df、du和fdisk。 df df命令参数功能:检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬盘被占用了多少...

xiangyunyan
12分钟前
3
0
js 让textarea的高度自适应父元素的高度

textarea按照普通元素设置height是没有作用的,可以这么来设置, 下面给上一段项目代码 JS代码: $.fn.extend({ txtaAutoHeight: function () { return this.each(function () {...

文文1
13分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部