文档章节

5分钟包你看懂“机器学习”

pocher
 pocher
发布于 2017/05/13 21:55
字数 2189
阅读 48
收藏 0

科普 | 5分钟包你看懂“机器学习”

科普 | 5分钟包你看懂“机器学习”

 

和大数据一样,机器学习(MachineLearning, ML)是一个热门而又有略有误导性的名词。

字面上它让不禁让人联想到一群机器人排排坐上自习的科幻场景,然而实际上它指的是让计算机具备像人一样的学习能力的高(qi)端(ji)技(yin)术(qiao),进而从堆积如山的数据中寻找出有用的知识。

听起来有些不可思议,真的有这种黑科技吗?

计算机的正确打开方式难道不是喂给它一串命令,然后愉快地看它乖乖执行么?

除了0和1啥也不认识的呆呆计算机,怎么还能像人类一样“学习”了呢?

嘿嘿,这个还真可以有。别急,且容我慢慢道来。

在讨论计算机如何学习之前,不妨先来看看我们人类是如何学习的。

人类的学习按逻辑顺序可分为三个阶段:输入,整合,输出。大家都多多少少学过英语,我就拿学英语来举例好了。

在入门时我们都逃不出背单词的苦海,不积累一定的词汇量后续学习都无从谈起,这是输入阶段。

然而很快我们就会发现,即使背完一本牛津大辞典也是没法和歪果仁愉快交流的。

我们必须学习语法,学习一些约定俗成的习惯用语,才能知道如何把单词组合成地道的句子,这便是整合阶段。

最后,有词汇量作基石,又有了语法规律作为架构,我们就能在特定场合用英文来表达自己的想法。这是输出阶段,也正是我们学习英文的初衷。

学习其他东西也是一样,概括来说,都要经历从积累经验到总结规律,最终灵活运用这三个阶段。

对此,我们完全可以对人类的学习给出如下定义:

人类的学习是一个人根据过往的经验,对一类问题形成某种认识或总结出一定的规律,然后利用这些知识来对新的问题下判断的过程。

毫不夸张地说,学习能力绝对是人类打猩猩时代起憋出的大招,在它的帮助下人类一举登顶食物链之巅。

之后经过了数千万年的自然选择,学习能力弱的要么被环境淘汰要么被同类坑害,都死绝了。

学习这套流程已深深写入了我们的DNA里,一代比一代玩得溜。

故事到这里似乎直指人类称霸宇宙的happy ending了,然而我们还忽略了一件事,就是人类的脑容量和寿命毕竟有限。

即便聪明如爱因斯坦,发现相对论前前后后也要耗费数十年。即使再有更聪明的人出生,也得从1+1abc学起,达到爱因斯坦的水平小半辈子也过去了。

由于这个限制,纵使人类有超级的学习能力,还是很难让现有知识爆炸性增长的。

帮助人类突破这个瓶颈的,正是计算机。

人类学习能力强,但记性差,反应慢,还容易坏。计算机虽呆,但容量大,计算快,还稳定

怎样融合这两者的优势呢?

显然最简单省事的方法就是手把手教会计算机学习了~(是谁说不如植入芯片让人脑变电脑的,你出来,我保证不拿你去做实验(微笑脸))

那么,应该怎样教会计算机学习呢?

人类可以从自己获得的经验中学习知识,然而计算机没法读书万卷也做不到阅人无数,只能从我们投喂给它的数据中学习规律了。我们当然希望计算机学到规律之后立马智商爆表,分分钟就能自己用新知识独当一面啦。

不难想象,一旦这个设想成为现实,计算机就能以类似人类的方式解决很多复杂而多变的问题。计算机解决问题与人类思考的经验过程将会趋同,不过它能考虑更多的情况,执行更加复杂的计算,从而产生及其可观的效益。

那么问题来了,怎么指导计算机从数据中总结规律呢?

几十年来,很多计算机科学和应用数学界的学者们总结出了不少教会计算机的办法,它们就是各式各样的机器学习算法。它们是数据科学家们胯下的挖掘机,担负着将海量数据化腐朽为神奇的使命。

至此,我们终于可以对机器学习下这样一个定义了:机器学习是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。

由此看来,机器学习的思想并不复杂,它仅仅是对人类生活中学习过程的一个模拟。

而在这整个过程中,最关键的是数据,是数据,是数据!重要的事情说三遍。

如果说模型是我们希望造出来的火箭,那数据就是它的燃料。数据量直接决定了我们的火箭只是个概念玩具,还是能够载人登月,还是可以飞出太阳系探寻智慧生物。

这也是机器学习和大数据是如此密不可分的原因。不得不说在这一点上计算机是远远比不上人脑的。

人类学习能力的可怕之处在于,能够通过极其有限的样本归纳出泛化能力极高的准则。

要知道,AlphaGo经过和自己左右互搏数千万局才达到现今的棋力,而和他不相上下的李世石,穷其一生打谱恐怕也到不了这个数目的百分之一。

正所谓“No data,no intelligence”。事实上,只要数据量足够大,机器学习算法的选择反倒没有那么重要了。

打个比方的话,数据和算法之于计算机好比阅历和智商之于人类。丰富的阅历所带来的智慧,自然不是靠一点小聪明就能驾驭得了的啦。AlphaGo就是一个智商20棋龄10000年的老妖精,打败李世石主要靠的是经验。

机器学习根据所处理数据种类的不同,可以分为有监督学习,无监督学习,半监督学习和强化学习等几种类型。

实践中应用较多的也就是前两种。

所谓监督学习,就是说数据样本会告诉计算机在该情形下的正确输出结果,希望计算机能够在面对没有见过的输入样本时也给出靠谱的输出结果,从而达到预测未知的目的。就像一个学生通过做多套高考模拟卷并订正答案的方式来提高高考成绩。在这种情形下,数据就像是监督计算机进行学习的教师,故而得名。

根据输出结果是离散值还是连续值,监督学习可以分为分类问题和回归问题两大类。他们在文字、语音、图像识别,垃圾邮件分类与拦截,网页检索,股票预测等方面有着广泛应用。

无监督学习,是指数据样本中没有给出正确的输出结果信息。这就像做了好多套没有答案的模拟卷,最后还要去高考。听上去是不是既惊悚又不靠谱?

但其实做没有答案的试卷也是能学到很多有价值的信息的,比方说哪些题出现频率高,那些题爱扎堆考,等等。无监督学习希望从数据中挖掘的正是这一类信息,常见的例子有聚类,关联规则挖掘,离群点检测等等。

看到这里,亲们对机器学习的来龙去脉是不是有一些了解了呢?欢迎关注普林大数据学院“机器学习”科普系列连载。我们将在下一期介绍线性回归。

本文转载自:https://zhuanlan.zhihu.com/p/20791490

pocher
粉丝 6
博文 36
码字总数 24616
作品 0
昌平
程序员
私信 提问
5分钟内看懂机器学习和深度学习的区别

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由liuxuewen发表于云+社区专栏 在本文中,我们将研究深度学习和机器学习之间的差异。我们将逐一了解它们,然后讨论他们在各个...

腾讯云+社区
2018/09/12
0
0
报告老板!这个阿里程序员每天上班就看别人接吻

我叫吉恒杉,29岁,是一名“吻戏鉴定师”。 和女朋友刚谈恋爱的时候,我说我的工作是训练计算机识别出吻戏镜头。她听完觉得特别不可思议,谁能给钱让你干这个呢? 如果你用手机、电脑看过视频...

阿里云云栖社区
2018/08/14
0
0
Youyinnn/Cron4jTranslation

Cron4j : A pure Java cron-like scheduler 创立时间:2017年8月20日13:35:01 官方文档地址:http://www.sauronsoftware.it/projects/cron4j/ Maven依赖: 前言: 这是一篇针对cron4j官方英文...

Youyinnn
2017/08/22
0
0
看文档还是看源代码+调试--附带rsyslog的例子

看源代码要比看文档高效多了。文档是用自然语言写的,比如英语,日语,中文等等,文化的差异以及各种语法的不同使得文档理解起来很不方便,再说很多人根本就没有外语阅读的能力。自然语言还是...

晨曦之光
2012/04/10
726
0
Ubuntu常用配置记录(杂)

配置SSH连接不断线 sudo vim /etc/ssh/ssh_config 添加下面两个参数 TCPKeepAlive yesServerAliveInterval 300 解释:TCPKeepAlive :保持连接; ServerAliveInterval 300 :每隔5分钟发送一个...

matrixchan
2013/12/21
133
0

没有更多内容

加载失败,请刷新页面

加载更多

CSS定位

CSS定位 relative相对定位 absolute绝对定位 fixed和sticky及zIndex relative相对定位 position特性:css position属性用于指定一个元素在文档中的定位方式。top、right、bottom、left属性则...

studywin
10分钟前
1
0
从零基础到拿到网易Java实习offer,我做对了哪些事

作为一个非科班小白,我在读研期间基本是自学Java,从一开始几乎零基础,只有一点点数据结构和Java方面的基础,到最终获得网易游戏的Java实习offer,我大概用了半年左右的时间。本文将会讲到...

Java技术江湖
昨天
5
0
程序性能checklist

程序性能checklist

Moks角木
昨天
7
0
VUE 计算属性

本文转载于:专业的前端网站▶VUE 计算属性 1、示例代码 <!DOCTYPE html><html lang="zh"> <head> <meta charset="UTF-8" /> <title>vue示例</title> </hea......

前端老手
昨天
6
0
快速搭建LNMT平台和环境部署 Tomcat详解

Tomcat部署的基本概念 1. CATALINA_HOME与CATALINA_BASE分别指什么?     CATALINA_HOME指的是Tomcat的安装目录     bin:\\Tomcat一些脚本存放目录,比如启动脚本startup.bat/start...

网络小虾米
昨天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部