【模式识别】学习笔记(4)>>>【感知器、梯度法、最小平方误差(LMSE)算法】

原创
2016/03/21 20:02
阅读数 1.3K

感知器的出发点则类似于这样的例子:当我们面前摆放着一盆水的时候,想要知道水温是热还是烫,是冷还是温。

如果我们事先知道自己如果用手去摸会被烫着或者会被冻着,我们就会慢慢将将手伸过去,慢慢地接近容器或者水面。

但是当我们事先并不知道会发生上述的痛觉,我们首先需要伸手,但是伸多远这就完全是一个随机过程了。

还有一个例子,我们都上过显微镜的课,当需要观察载玻片上的样本时,最先做的工作就是对准调焦直到能看到比较清晰的图像,那么在调焦的过程中,经常会出现多调或者少调的情况,此时就需要往回调。

感知器的原理就是这样,在确定判别函数系数的过程当中,首先会设定一个初值,可以人工给定也可以机器自己抉择;然后以从初值开始,迭代每一个模式样本,比如在x1上计算判别函数值,如果判别函数<0,则可判断某个类别过分类/少分类(两者是相对的),那么相应地根据x1对判别函数进行修正(类似调焦的回调),反之亦然。

 

梯度法

梯度法的修正步长与感知器的相同,但修正因子就不再是x1等模式样本了,而是一个对错误分类敏感的准则函数J(w, x)的梯度,因此,如果正确地选择了一个准则函数J的话,将会收敛得很快,直到函数J达到一个很小的值,甚至是等于零。

 

最小平方误差(LMSE)算法

相对复杂,需要求逆(维数高时求逆比较困难),但对两类情况,提供了线性可分的测试特征。模式类别可分性的判别:

(i) 若e(k)=0,即Xw(k)=b(k)>0,有解。
(ii) 若e(k)>0,此时隐含 的条件,有解。若继续进行迭代,可使e(k)->0。
(iii) 若e(k)的全部分量停止变为正值(但不是全部为零),表明该模式类别线性不可分。因此,若e(k)没有一个分量为正值,则b(k)不会再变化,所以不能求得解。

理解:步长C的符号又是不变的,e(k)为修正因子的一部分,当其理论上停止变号的时候,也就是说在回调过程中不仅调过头了,而且收敛不回来,所以就不能求解了。

 

但是在确定以上判别函数的系数时,有一个经验之处就是,特别是对于非线性判别函数(也包括映射成线性函数的),如果训练很准确的话,反而会降低其泛化能力,如下图,虽然训练后达到了100%的准确率,但是当新的测试样本被加入时就很容易出错。

然而,排除模式类间的可分性不显著的情况,会出现这样的样本分布,往往是因为采样、特征量等带来的误差。如果能够理想地避免这些误差,可能得到的判别函数就是下图的绿线。根据前面讲到的Fisher准则,很容易目测得到绿线具有更好泛化能力的结论,然而上图的黑线就带来了很多我们所未知的不确定性。

 

展开阅读全文
打赏
1
3 收藏
分享
加载中
更多评论
打赏
0 评论
3 收藏
1
分享
返回顶部
顶部