文档章节

分类、回归

hc321
 hc321
发布于 03/22 20:15
字数 1433
阅读 22
收藏 0

说明:本博文在浏览较多web资源,参考诸多书籍文献基础上总结而来,如有侵权请联系博主删除!

分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须直到预测什么,即目标变量的分类信息。
回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测。
简单总结:    
**1输出的数据**
    分类的是离散的
    回归的是连续的,
**2通过机器学习想得到什么**
    分类是得到一个边界用来划分类别归属
    回归是最优拟合曲线,用来预测在曲线上的值
**3评价指标**
    分类中主要用正确率,精度,混淆矩阵
    回归中用决定系数R平方,SSE,拟合优度
**4损失函数**
    分类常见的是log loss ,hinge loss 
    回归是 square loss

**关于离散和连续:**

分类的是离散的:将实例数据划分到合适的分类中,是一种定性输出,也叫离散变量预测;
分类问题是用于将事物打上一个标签,通常结果为离散值。
分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。
分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。
至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。
最常见的分类方法是逻辑回归,或者叫逻辑分类。

回归的是连续的,预测数值型数据,典型的回归例子:数据拟合曲线。
输出空间是一个度量空间,即所谓“定量”。也叫连续变量预测。
回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。
回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等
预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。
这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。
一个比较常见的回归算法是线性回归算法(LR)。
另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。
回归是对真实值的一种逼近预测。

分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。
1. Logistic Regression 和 Linear Regression:
    Linear Regression: 输出一个标量 wx+b,这个值是连续值,所以可以用来处理回归问题。
    Logistic Regression:把上面的 wx+b 通过 sigmoid函数映射到(0,1)上,并划分一个阈值,
                        大于阈值的分为一类,小于等于分为另一类,可以用来处理二分类问题。
    对于N分类问题,则是先得到N组w值不同的 wx+b,然后归一化,比如用 softmax函数,
                        最后变成N个类上的概率,可以处理多分类问题。
2. Support Vector Regression 和 Support Vector Machine:
    SVR:输出 wx+b,即某个样本点到分类面的距离,是连续值,所以是回归模型。
    SVM:把这个距离用 sign(·) 函数作用,距离为正(在超平面一侧)的样本点是一类,为负的是另一类,所以是分类模型。
3.Naive Bayes 用于分类和回归:
    1、分类:y是离散的类别,得到离散的P(y|x),给定x,输出每个类上的概率
    2、回归:对离散的P(y|x)求期望EyP(y|x),就得到连续值,也可以得到连续的概率密度函数P(y|x),然后对y求期望
4. 神经网络用于 分类 和 回归:
    用于回归:最后一层有m个神经元,每个神经元输出一个标量,m个神经元的输出可以看做向量 v,现全部连到一个神经元上,
             则这个神经元输出wv+b,是一个连续值,可以处理回归问题,跟上面 Linear Regression 思想一样。
    用于N分类:现在这m个神经元最后连接到 N 个神经元,就有 N 组w值不同的 wv+b,同理可以归一化(比如用 softmax )
             变成 N个类上的概率
           (如果不用softmax,而是每个wx+b用一个sigmoid,就变成多标签问题,跟多分类的区别在于,样本可以被打上多个标签)

   ** 注意:**
logistic回归只是用到了回归算法,但是其输出的结果是决策边界,是不连续的。
很多人认为Logistic回归过程和线性回归雷同,在二分类问题中,仅仅只是多了一个“阈值判断”,所以应该是回归。
但是,Logistc回归仅仅只是过程和线性回归一样,可我们所要讨论的回归和分类,是仅仅对于输出而言的,所以是回归算法。

李航统计学习原文:
输入变量与输出变量均为连续变量的预测问题是回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
输入变量与输出变量均为变量序列的预测问题成为标注问题

© 著作权归作者所有

共有 人打赏支持
hc321
粉丝 0
博文 63
码字总数 26590
作品 0
海淀
程序员
入门 | 区分识别机器学习中的分类与回归

  选自MachineLearningMastery   作者:Jason Brownlee   机器之心编译   参与:Nurhachu Null、刘晓坤、李泽南      分类问题和回归问题之间有着很重要的区别。从根本上来说,分...

机器之心
2017/12/16
0
0
机器学习基础:分类vs回归

经常看到这样的问题:“如何计算回归问题的准确度?”像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么。 这是分类和回归问题之间的一个重要区别。从根本上说,...

【方向】
2017/12/13
0
0
python机器学习案例系列教程——逻辑回归/逻辑分类器

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 LR:逻辑分类(Logistic Classification),是一种线性分类模型 理解LR 把每个特征对分类结果的“作用”加起来——这就是线性模型...

luanpeng825485697
01/03
0
0
回归(regression)与分类(classification)的区别

回归与分类的不同 1.回归问题的应用场景 回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较...

断桥残雪断桥残雪
2015/12/14
11.4K
0
机器学习之LinearRegression与Logistic Regression逻辑斯蒂回归(三)

一 评价尺度 sklearn包含四种评价尺度 1 均方差(mean-squared-error) 2 平均绝对值误差(meanabsoluteerror) 3 可释方差得分(explainedvariancescore) 4 中值绝对误差(Median absolute...

诚实善良小郎君
07/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS7全局安装composer

1. 下载composer-setup.php到当前目录 php -r "copy('https://install.phpcomposer.com/installer', 'composer-setup.php');" 2. 安装 php composer-setup.php 3. 将composer设置成全局 mv c......

月夜中徘徊
28分钟前
1
0
20180920上课截图

小丑鱼00
35分钟前
1
0
基于TCP的远程服务调用

前言 上篇,分析了基于HTTP方式的RPC调用。本篇将在上篇的基础上,分析基于TCP方式的RPC调用。代码的整体思路是一致的,可以看作是在上篇功能上的扩展——即通信的方式。 代码:https://git...

MarvelCode
37分钟前
1
0
67:shell脚本介绍 | shell脚本结构 | 执行data命令用法 | shell脚本中变量

1、shell脚本介绍: shell是一种脚本语言和传统的开发语言相比,会比较简单: shell有自己语法,可以支持逻辑判断、循环等语法: 可以自定义函数,目的是减少重复的代码: shell是系统命令的集合...

芬野de博客
今天
1
0
json schema

json schema是用来验证和描述json对象结构的。 在线验证:https://www.jsonschemavalidator.net/ json schema 编辑器,推荐VSCode,写上"$schema": "https://raw.githubusercontent.com/jso......

谷永权
今天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部