文档章节

机器学习第二章 模型评估与选择

DDDDavid
 DDDDavid
发布于 2017/07/31 15:06
字数 579
阅读 62
收藏 0

2.1经验误差与过拟合

错误率:E=a/m

精度:=1-错误率

训练集上的误差:训练误差或经验误差

新样本上的误差:泛化误差

 

p问题,可以在多项式时间内解决的问题,polynomial problem。

np 问题,可以在多项式的时间里验证一个解的问题,non-deterministic polynomial。

npc问题,是NP的一个子集,且其中每一个问题均能由NP中的任何问题在多项式时间内转化而成,np complete。

 

2.2评估方法

(1)留出法:数据划分,分层采样,大约2/3~4/5样本用于测试;

(2)交叉验证法:k折交叉验证,数据分为k组(k常取10),k-1个用于训练,余下用于测试。留一法:m个样本,k=m。

(3)自助法:以自助采样法为基础,适用于数据集较小,难以有效划分训练/测试集时,测试结果称为“包外估计”。

(4)调参与最终模型

 

2.3性能度量

回归任务常用的性能度量:均方误差

(1)       错误率与精度。

(2)       查准率、查全率与F1:

真正例TP,假反例FN

假正例FP,真反例TN

查准率P=TP/(TP+FP)

查全率R=TP/(TP+FN)

P-R曲线,平衡点:P=R。

F1度量:查准率与查全率的调和平均数F1=2*P*R/(P+R)=2*TP/(总数+TP-TN)

Fβ=(1+β2)*P*R/(β2*P+R), β>1查全率影响大,β<1查准率影响大

微查准率Micro-P=TP/(TP+FP)

微查全率Micro-R=TP/(TP+FN)

微F1=2*micro-P*micro-R/(micro-P+micrp-R)

(3)       ROC与AUC,研究学习器泛化性能

受试者工作特征:ROC

纵轴,真正例率,TPR=TP/(TP+FN)

横轴,假正例率,FPR=FP/(TN+FP)

AUC:ROC曲线下的面积AUC=1-lrank

(4)       代价敏感错误率与代价曲线

正例概率代价P(+)cost=p*cost01/(p*cost01+(1-p)*cost10)

归一化代价cost=[FNR*P*cost01+FPR*(1-P)*cost10]/[ p*cost01+(1-p)*cost10]

 

2.4比较检验

(1)假设检验

二项检验

t检验

(2)交叉验证t检验

(3)McNemar检验

(4)Friedman检验与Nemenyi检验

 

2.5偏差与方差

泛化误差可分解为偏差、方差与噪声之和。

偏差-方差窘境

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
私信 提问
《机器学习》(周志华)课后习题参考答案

目录: 周志华《机器学习》课后习题解答系列(二):Ch1 - 绪论 周志华《机器学习》课后习题解答系列(三):Ch2 - 模型评估与选择 周志华《机器学习》课后习题解答系列(四):Ch3 - 线性模...

kchai31
01/04
0
0
团队拙作《Python机器学习实战》

之前看国内外的 Python 机器学习的书,鲜有将机器学习到底怎么做人脸识别、怎么做风险控制、怎么做 OCR 算法模型列出的,并且真正的一个 Python 应用,不止是从机器学习库中导入一下配置一下...

yijun2018
04/20
0
0
机器学习模型的评价指标?

面试官:你这个项目评价指标是什么? 偶:这是一个【分类】【回归】【聚类】问题,我的指标是-->>如下 分类 精确率、召回率、准确率、F值、ROC-AUC 、混淆矩阵、PRC 回归 RMSE(平方根误差) M...

李理
2017/10/27
0
0
想转行人工智能?哈佛博士后有话说...

“我想转行拿高薪!” ——人工智能已从“概念炒作”真正进入“实际应用”阶段 2017年7月20日,国务院发布《新一代人工智能发展规划》,正式开启国内人工智能的新篇章。 “什么是机器学习?我...

程序员的那些事_
10/29
0
0
《Python与机器学习实战:决策树、集成学习、支持向量机与神经网络算法详解及编程实现》PDF

下载链接: https://pan.baidu.com/s/1lTl6z8Vv1LfIvdBjv16YpQ 密码: avij 出版社: 电子工业出版社; 第1版 (2017年7月1日) 平装: 315页 语种: 简体中文 开本: 16 ISBN: 9787121317200 条形码...

sinat_33899729
05/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何在10分钟内设置EOS钱包和帐户?

由于SuperNode超级节点社区建立在EOS之上,我们希望引导我们的社区成员设置EOS钱包和帐户,以便充分参与我们的生态系统。 虽然设置过程可能不如其他区块链系统那么简单,但不要担心。本指南旨...

笔阁
17分钟前
2
0
8.04-Win10非U盘重装系统

注意:最好准备一个你所需版本的秘钥(不能是数字0开头的) 【所需:Win10的ISO镜像、能够解压ISO格式的解压缩工具、最好准备你所需版本的秘钥(不能是数字0开头的)】 1、创建新的文件系统为...

静以修身2025
18分钟前
1
0
Docker的架构与自制镜像的发布

一. docker 是什么 大家都知道虚拟机吧,windows 上装个 linux 虚拟机是大部分程序员的常用方案。公司生产环境大多也是虚拟机,虚拟机将物理硬件资源虚拟化,按需分配和使用,虚拟机使用起来...

程序猿拿Q
34分钟前
12
0
ubuntu下pycharm调用Hanlp实践分享

前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看...

左手的倒影
43分钟前
2
0
Python监控服务器实现邮件微信报警[未测试]

本文中笔者暂时实现的只有cpu和内存的监控,python可以监控许多的主机信息,网络,硬盘,机器状态等,以下是代码的实现,代码可以实现windows和linux的监控。 实验环境:Ubuntu16.04和windo...

dragon_tech
48分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部