overfitting-过拟合

原创
2017/01/16 16:24
阅读数 74

过拟合:模型在测试集上的效果表现很好,在训练集上的效果与在训练集上的效果差异很大,这种情况就是发生了过拟合。

过拟合是过度拟合的训练集中的数据。

1、由于样本量不足,训练样本的分布于测试样本之间的分布存在差异。

2、在样本量不足的情况下,训练模型时,令代价函数等于零(极端),使得模型的泛化性能很差,导致了过拟合。

处理过拟合的方法

    (1)正则化,就是在在模型中考虑模型复杂度,同时考虑经验风险和模型复杂度,预防过拟合。

    (2)交叉验证,就是将训练集和测试集来回使用,反复训练验证。一般分为简单交叉验证,S折交叉验证,留一交叉验证。

    (3)增加样本的全面性和数量; 

    (4)控制模型的复杂度; 

    (5)不要过度训练 

    (6)模型融合本质上也是一种提高泛化能力的方法 

NG:

训练集误差与交叉验证集误差近似时:偏差/欠拟合

交叉验证集误差远大于训练集误差时:方差/过拟合

 

参考:[1] http://lib.csdn.net/article/machinelearning/33798

[2] NG视频

 

展开阅读全文
打赏
0
1 收藏
分享
加载中
更多评论
打赏
0 评论
1 收藏
0
分享
返回顶部
顶部