文档章节

图解机器学习

naughty
 naughty
发布于 2017/09/28 13:15
字数 3281
阅读 3546
收藏 1

警告:多图杀猫!

每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。

 

另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:

其实机器学习的基本算法都很简单,下面我们就利用二维数据和交互图形来看看机器学习中的一些基本算法以及它们的原理。(另外向Bret Victor致敬,他的 Inventing on principle 深深的影响了我)

所有的代码即演示可以在我的Codepen的这个Collection中找到。

首先,机器学习最大的分支的监督学习和无监督学习,简单说数据已经打好标签的是监督学习,而数据没有标签的是无监督学习。从大的分类上看,降维聚类被划在无监督学习,回归分类属于监督学习。

无监督学习

如果你的数据都没有标签,你可以选择花钱请人来标注你的数据,或者使用无监督学习的方法。

首先你可以考虑是否要对数据进行降维。

降维

降维顾名思义就是把高维度的数据变成为低维度。常见的降维方法有PCA, LDA, SVD等。

主成分分析 PCA

降维里最经典的方法是主成分分析PCA,也就是找到数据的主要组成成分,抛弃掉不重要的成分。

这里我们先用鼠标随机生成8个数据点,然后绘制出表示主成分的白色直线。这根线就是二维数据降维后的主成分,蓝色的直线是数据点在新的主成分维度上的投影线,也就是垂线。主成分分析的数学意义可以看成是找到这根白色直线,使得投影的蓝色线段的长度的和为最小值(严格地说应该是平方和最小)。

See the Pen ML Explained PCA by gangtao (@gangtao) on CodePen.

更多PCA的相关例子,可以参考:

聚类

因为在非监督学习的环境下,数据没有标签,那么能对数据所做的最好的分析除了降维,就是把具有相同特质的数据归并在一起,也就是聚类。

层级聚类 Hierachical Cluster

聚类方法用于构建一个拥有层次结构的聚类, 

如上图所示,层级聚类的算法非常的简单:

  1. 初始时刻,所有点都自己是一个聚类
  2. 找到距离最近的两个聚类(刚开始也就是两个点),形成一个聚类
  3. 两个聚类的距离指的是聚类中最近的两个点之间的距离
  4. 重复第二步,直到所有的点都被聚集到聚类中。

See the Pen ML Explained Hierarchical Clustering by gangtao (@gangtao) on CodePen.

KMeans

KMeans中文翻译K均值算法,是最常见的聚类算法。

  1. 随机在图中取K(这里K=3)个中心种子点。
  2. 然后对图中的所有点求到这K个中心种子点的距离,假如点P离中心点S最近,那么P属于S点的聚类。
  3. 接下来,我们要移动中心点到属于他的“聚类”的中心。
  4. 然后重复第2)和第3)步,直到,中心点没有移动,那么算法收敛,找到所有的聚类。

KMeans算法有几个问题:

  1. 如何决定K值,在上图的例子中,我知道要分三个聚类,所以选择K等于3,然而在实际的应用中,往往并不知道应该分成几个类
  2. 由于中心点的初始位置是随机的,有可能并不能正确分类,大家可以在我的Codepen中尝试不同的数据
  3. 如下图,如果数据的分布在空间上有特殊性,KMeans算法并不能有效的分类。中间的点被分别归到了橙色和蓝色,其实都应该是蓝色。

See the Pen ML Explained KMeans by gangtao (@gangtao) on CodePen.

DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)中文是基于密度的聚类算法。

DBSCAN算法基于一个事实:一个聚类可以由其中的任何核心对象唯一确定

算法的具体聚类过程如下:扫描整个数据集,找到任意一个核心点,对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点(注意是密度相连)。遍历该核心点的邻域内的所有核心点(因为边界点是无法扩充的),寻找与这些数据点密度相连的点,直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。之后就是重新扫描数据集(不包括之前寻找到的簇中的任何数据点),寻找没有被聚类的核心点,再重复上面的步骤,对该核心点进行扩充直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。

See the Pen ML Explained DBSCAN by gangtao (@gangtao) on CodePen.

如上图所示,DBSCAN可以有效的解决KMeans不能正确分类的数据集。并且不需要知道K值。

当然,DBCSAN还是要决定两个参数,如何决定这两个参数是分类效果的关键因素:

  1. 一个参数是半径(Eps),表示以给定点P为中心的圆形邻域的范围;
  2. 另一个参数是以点P为中心的邻域内最少点的数量(MinPts)。如果满足:以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts,则称点P为核心点。

 

监督学习

监督学习中的数据要求具有标签。也就是说针对已有的结果去预测新出现的数据。如果要预测的内容是数值类型,我们称作回归,如果要预测的内容是类别或者是离散的,我们称作分类。

其实回归和分类本质上是类似的,所以很多的算法既可以用作分类,也可以用作回归。

回归

线性回归

线性回归是最经典的回归算法。

在统计学中,线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。 这种函数是一个或多个称为回归系数的模型参数的线性组合。 只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归

See the Pen ML Explained Linear Regression by gangtao (@gangtao) on CodePen.

如上图所示,线性回归就是要找到一条直线,使得所有的点预测的失误最小。也就是图中的蓝色直线段的和最小。这个图很像我们第一个例子中的PCA。仔细观察,分辨它们的区别。

如果对于算法的的准确性要求比较高,推荐的回归算法包括:随机森林神经网络或者Gradient Boosting Tree

如果要求速度优先,建议考虑决策树线性回归

分类

逻辑回归

逻辑回归虽然名字是回归,但是却是个分类算法。因为它和SVM类似是一个二分类,数学模型是预测1或者0的概率。所以我说回归和分类其实本质上是一致的。

See the Pen ML Explained Logistic Regression by gangtao (@gangtao) on CodePen.

这里要注意逻辑回归和线性SVM分类的区别,可以阅读:

支持向量机 SVM

如果对于分类的准确性要求比较高,可使用的算法包括Kernel SVM随机森林神经网络以及Gradient Boosting Tree

给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器(准确的说,SVM不是线性分类器)。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

See the Pen ML Explained SVM by gangtao (@gangtao) on CodePen.

如上图所示,SVM算法就是在空间中找到一条直线,能够最好的分割两组数据。使得这两组数据到直线的距离的绝对值的和尽可能的大。

See the Pen ML Explained SVM Kernels by gangtao (@gangtao) on CodePen.

上图示意了不同的核方法的不同分类效果。

决策树

如果要求分类结果是可以解释的,可以考虑决策树或者逻辑回归

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。

其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。

使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

决策树可以用于回归或者分类,下图是一个分类的例子。

See the Pen ML Explained Decision Tree by gangtao (@gangtao) on CodePen.

如上图所示,决策树把空间分割成不同的区域。

 

朴素贝叶斯

当数据量相当大的时候,朴素贝叶斯方法是一个很好的选择。

15年我在公司给小伙伴们分享过bayers方法,可惜speaker deck被墙了,如果有兴趣可以自行想办法。

See the Pen ML Explained Naive Bayes by gangtao (@gangtao) on CodePen.

如上图所示,大家可以思考一下左下的绿点对整体分类结果的影响。

KNN

KNN分类可能是所有机器学习算法里最简单的一个了。

See the Pen ML Explained KNN by gangtao (@gangtao) on CodePen.

如上图所示,K=3,鼠标移动到任何一个点,就找到距离该点最近的K个点,然后,这K个点投票,多数表决获胜。就是这么简单。

 

总结

本文利用二维交互图帮助大家理解机器学习的基本算法,希望能增加大家对机器学习的各种方法有所了解。所有的代码可以在参考中找到。欢迎大家来和我交流。

 

参考:

最后感谢我的朋友Zidong的意见,我对本文做了一些修改。把逻辑回归提前介绍,并加了一些注释,修正了一些不太准确的地方。

© 著作权归作者所有

共有 人打赏支持
naughty
粉丝 262
博文 62
码字总数 112619
作品 0
其它
架构师
私信 提问
加载中

评论(5)

l
little_wu
本博太赞了!请教楼主,还有其他算法的演示吗?除了本博之外的算法。谢谢了!
naughty
naughty

引用来自“Ling_J”的评论

请教下,使用CodePen生成动图的过程,如果用Python写的,是要把算法转成js版本的吗?
是的
Ling_J
Ling_J
请教下,使用CodePen生成动图的过程,如果用Python写的,是要把算法转成js版本的吗?
naughty
naughty

引用来自“柯林君”的评论

客户端看不了,哈哈哈

回复@柯林君 : 可以看,要等挺长时间的,因为图太多太大。
柯林君
柯林君
客户端看不了,哈哈哈
福利丨您有一份神秘的圣诞大礼包,请及时查收!

Single bell,Single bell Single all the way…… 不知不觉,圣诞节到了 虽说这是一个温馨快乐、互致祝福的日子 但也许不少人会像小编一样只想对天抹泪 因为 今年圣诞,我依然是只Single do...

DBAplus社群
2016/12/24
0
0
【徒手写机器学习算法】SGD随机梯度下降

今天来看一个非常简单的算法:SGD随机梯度下降,说实话它有些不起眼,但是当今AI算法的各个场景都能见到它的身影.应该是众多机器学习算法中最常用的优化方法.几乎当前每一个先进的(state-of-the...

hanss2
05/24
0
0
各种Linux操作系统版本安装图解教程下载

以下链接如一时无法下载到请稍候再连接。 一般情况下都永久有效,保证能下载的。 红旗Linux图解安装教程 CHM 下载:ftp://FTP_hllinux:123456@211.95.73.26/linux/redflag6.chmPDF 下载:ftp...

zt371
2009/05/08
608
0
Navicat for Oracle 安装图解教程

Navicat for Oracle 主要用于对 Oracle 数据库的管理和开发,直观而强大的图形界面为 Oracle数据库的用户带来全新的体验。本Navicat教程将图解Navicat for Oracle安装过程。 步骤一 打开下载...

Navicat数据库管理工具
2016/06/02
72
0
JavaScript 排序算法

基础构造函数 以下几种排序算法做为方法放在构造函数里。 1. 冒泡排序 代码 图解 2. 选择排序 代码 图解 3. 插入排序 代码 图解 4. 归并排序 代码 图解 5. 快速排序 代码 图解 6. ECMAScrip...

唯情
2017/10/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Java 动态代理的实现

在Java中可以实现动态代理的方式有很多种:JDK方式、ASM字节码操控框架、开源的分析、编辑和创建Java字节码的类库Javassist、基于ASM框架实现的CGLIB JDK方式:通过Java反射的方式生成动态代...

我爱春天的毛毛雨
11分钟前
1
0
css 总结2

1、背景有关 (1)background-origin:border-box、padding-box、content-box //默认是padding-box(2)background-image: url(img_flwr.gif), url(paper.gif);(3)background-posi......

tianyawhl
12分钟前
1
0
java 每秒钟只允许十个线程同时并发

package com.qimh.thread.concurrent;import java.util.Date;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurren......

qimh
27分钟前
4
0
学习Hadoop大数据基础框架

什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的...

本宫没空2
29分钟前
2
0
redis

1,安装 sudo apt-get install redis-server 2,登录本地的 redis-cli 3,修改 .bashrc文件,连接其他线下数据库 vi .bashrc在最后增加alias redisa="redis-cli -h 10.15.100.134 -p 666...

鹏灬
34分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部