文档章节

ROC曲线理解

 赶上架子的狼
发布于 2016/08/19 00:21
字数 761
阅读 39
收藏 0

为了能给那几个外国人说清楚AUC对于模型评估的意义,又重新读了一些文献,最有用的还是wikipedia。读的时候我一直在赞叹能想到这种方法来评估系统的人该有多聪明啊,他怎么就能想到这种计算方法呢?想着想着就产生了一些跟以前死记硬背不一样的理解。

对一个二元分类器,我们考量它正确识别正例的能力。把数据中的正例给正确的挑出来,把数据中的负例给错误识别成了正例,分别就是ROC曲线的纵坐标(true positive rate,TPR)和横坐标(false positive rate,FPR)。为什么要关注这两个量的对应关系呢?感性的理解,其实更高的TPR标识出分类器具有很高的识别正例的能力,是收益;而高FPR是分类器错误识别正例的能力,是风险。因此ROC曲线就是这个分类器识别正例时的收益-风险关系曲线。

我们希望系统能够更多的识别出正例,但是不要把负例给错判成正例,就是希望减少风险增加收益。

可以再理解理解ROC空间中的四个点,(0, 0),(1, 0),(0, 1),(1, 1):

  • (0, 0) 是分类器完全没有识别正例的能力,把所有样本都识别成负例时的情形。所以没有风险也没有收益,TPR = FPR = 0
  • (1, 0) 是一个最理想的点,能把所有的正例都一个不落的识别出来 TPR = 1,但是又没有把一个负例给错判成正例FPR = 0。既保证了0风险,又实现了完全收益。是一个完美的二分类模型
  • (0, 1) 是最差的情况了,正例一个都没有识别出来TPR = 0,还把所有的负例都给识别成了正例 FPR = 1,是一个0收益情况下最大风险的状况。
  • (1, 1) 是分类器为了获得最多正例,从而将所有样本都识别成正例的情况,因此TPR = FPR = 1。
从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。

----------

更进一步的理解,其实我认为对于不同正例比例的数据中,对ROC曲线的分析应该是不同的,并不能只用AUC of ROC这一个指标来衡量模型。在不同的数据场景下,一个True positive的收益和一个False positive的风险并不是完全一样的,在这种场景下,是否需要对ROC空间进行一定的变形?我猜想应该有相关文献讨论这个,这两天继续加深阅读。未完待续。

© 著作权归作者所有

粉丝 0
博文 25
码字总数 13779
作品 0
海淀
程序员
私信 提问
【r<-绘图|ROC】ROC的计算与绘制

最近工作需要绘制ROC曲线,对该曲线的计算细节进行了一番摸索。当前搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它是一个用于机器学习的分类器评估标准,所以...

王诗翔
2018/05/22
0
0
机器学习备忘录 | AUC值的含义与计算方法

引言 在机器学习领域,AUC值经常用来评价一个二分类模型的训练效果,对于许多机器学习或者数据挖掘的从业者或在校学生来说,AUC值的概念也经常被提起,但由于大多数时候我们都是借助一些软件...

郗南枫
2018/04/12
0
0
精确率与召回率,RoC曲线与PR曲线

在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口的...

citibank
2018/07/07
0
0
【r<-ROC|包】分析与可视化ROC——plotROC、pROC

在【r<-绘图|ROC】ROC的计算与绘制这篇文章中我讲了ROC曲线的本质以及如何计算和绘制ROC曲线。注意,我这里谈到的ROC并未曾涉及机器学习模型的拟合与预测,而是指存在一组真实的连续型数值数...

王诗翔
2018/06/05
0
0
ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨...

liangtee
2014/11/03
3.4K
0

没有更多内容

加载失败,请刷新页面

加载更多

parseint和isNaN用法

本文转载于:专业的前端网站➭parseint和isNaN用法 <!doctype html><html><head><meta charset="utf-8"><title>无标题文档</title></head><body><script> var a='12'; alert......

前端老手
35分钟前
4
0
Kylin 精确去重在用户行为分析中的妙用

作者:史少锋,Apache Kylin committer & PMC,2019/10/11 在上次文章《如何在 1 秒内做到大数据精准去重》中,我们介绍了 Apache Kylin 为什么要支持大数据集上的精确去重,以及基于 Bitmap...

ApacheKylin
46分钟前
3
0
学习记录(二) es6基本语法(rest参数,模板化,axios模块,拦截器)

日常学习记录 模块化:把一个大文件分成多个小文件,按照一定规范进行拼接 es5写法: 导出:module.exports = 数据 导入:require("路径") /路径未添加后缀名时 //默认添加.js //把路径作为文件名...

Pole丶逐
49分钟前
3
0
以程序员的角度怎么购买一台「性价比高的电视」

前俩天有小伙伴在我的文章下留言,说能否把 【国内电视机都介绍一下】,今天我已在TV端开发多年的程序员的角度。谈谈已程序员的角度如何购买一台性价比高的电视。 国内大的电视机品牌介绍 长...

我们都很努力着
53分钟前
2
0
PhotoShop 色调:理解直方图/RGB通道信息

一、直方图:图表的形式,展示图像像素分布的情况 1.平均值:表示平均亮度 2.标准偏差值:表示亮度值范围内的中间值 3.像素: 表示用于计算直方图的像素总数 4.色阶:显示指针下面的区域亮度...

东方墨天
58分钟前
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部