文档章节

你真的了解机器学习、人工智能、统计建模吗?

z
 zoujiajun33
发布于 2016/12/27 16:50
字数 1574
阅读 35
收藏 1

大数据

一、机器学习

机器学习是以数据为基础,它专注于为回归和分类算法。其底层随机机制往往是次要的、不被重视的。当然,许多机器学习技术也可以通过随机模型和回归计算来定义,但数据并不是由模型生成的。相反,机器学习主要是为了辨识出运行某个特定任务的算法或技术(或者是二者兼有):顾客最好由k-Means聚类,或者是DBSCAN、决策树、随机森林,还是支持向量机?

简而言之,对统计学家来说,模型是首要的,对机器学习专家来说,数据才是排在第一位的。因为机器学习强调的是数据,而不是模型。把数据分离成训练和测试组的验证技术是非常重要的。一个解决方案的优劣不在于p值,而在于证明这个解决方案在以前看不到的数据方面预测良好。把一个统计模型和一套数据匹配,或者为一套数据训练决策树,就需要评估未知量。决策树的最佳分割点,是由预估参数数据决定的,而预估参数是由从属变量的条件分布决定的。

没有一种技术能够自称会学习。训练才是塑造某物的必经之路。学习,从另一方面来讲,就暗示着获得新的技能,而训练是学习的一部分。通过训练一个深度神经网络,也就是说,通过输入数据设定好它的砝码和偏向,它就学会了分类,这个神经网络就变成了一个分类器。

二、深度学习

当一个机器学习系统不是去通过编程是实现某一项功能,而是通过编程去学习一项能力,这就是一个真的学习系统,被指定去学习完成某项任务的,称之为深度学习。深度学习也是一种数据驱动型的实践。跟机器学习不同的是,深度学习不依赖于强悍的算法技术。几乎所有这种形式的机器学习应用,多是以深度神经网络为基础的。

深度学习被频繁应用于各种弱人工智能应用,在这些领域,机器会去做人类的工作。

三、分布式计算

分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各地区的消费习惯等。

海量计算最开始的方案是提高单机计算性能,如大型机,后来由于数据的爆发式增长、单机性能却跟不上,才有分布式计算这种妥协方案。 因为计算一旦拆分,问题会变得非常复杂,像一致性、数据完整、通信、容灾、任务调度等问题也都来了。

举个例子,产品要求从数据库中100G的用户购买数据,分析出各地域的消费习惯金额等。 如果没什么时间要求,程序员小明就写个对应的业务处理服务程序,部署到服务器上,让它慢慢跑就是了,小明预计10个小时能处理完。 后面产品嫌太慢,让小明想办法加快到3个小时。

平常开发中类似的需求也很多,总结出来就是,数据量大、单机计算慢。 如果上Hadoop、storm之类成本较高、而且有点大才小用。 当然让老板买更好的服务器配置也是一种办法。

四、统计建模

统计建模其实就是解决“哪一种概率模型可以产生我所观察到的数据?”这个问题,所以你可以这样做:首先从众多合理的模型中挑选出候选模型,然后评估它的未知量,再比较你所拟合出来的模型跟其他候选模型的最优化程度。

举例来说,如果你的数据代表了总数,比如这个数字代表了客人感到反胃的数量,或者细胞分裂的数量,那么泊松模型(Poisson)、负二项模型或者零膨胀模型(zero-inflated model)都有可能是适用的。

一旦选择了一个统计模型,那预估模型就会被用作调查的设备:测试假说,创建预测值和测量置信度。预估模型就会成为我们解读数据的棱镜。我们从来没有声称所选模型生成的数据,但会把它当做一个在随机的过程中合理的近似,然后再基于它去验证推论。

验证推理是统计建模中一个重要的方面。举例来说,如果要在三个可能的医疗设备中,决定哪个对病人最有益,你就会对这样的模型感兴趣:它能捕捉病人使用什么样的途径治疗是明显有效果的。总是这样,那些能很好地捕捉数据生成途径的模型,同时也是在观测数据范围内最好地做出预测的模型,或许它还能预测出新的观测结果。

在统计建模中,数据指引人们到一个随机模型的可挑选范围里,它就相当于是抽象的利益问题的概率表达,实现预测的功能和对某些事物的前瞻判断。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

© 著作权归作者所有

z
粉丝 2
博文 105
码字总数 74994
作品 0
重庆
私信 提问
学习机器学习前你应该要知道的一些事

介绍 在过去的几年里,人们对机器学习产生了新的兴趣。这种复苏似乎是由强大的基本因素推动的 - 全球各地的终端都在释放出的大量数据,并且这些数据的成本非常低廉,计算成本是有史以来是最低...

是安酱和菜菜呀
07/01
0
0
人工智能入门学习路线及就业面试

【主讲老师】菜鸟窝人工智能&大数据讲师@chris 阿里算法专家,7年+算法从业经验,曾领导搭建某上市游戏平台算法团队,在智能数据、机器学习、深度学习算法落地等方向有丰富的实践经验,全面覆...

菜鸟窝
07/17
0
0
十个例子,教你用统计学方法高效完成机器学习项目

雷锋网(公众号:雷锋网)按:本文为 AI 研习社编译的技术博客,原标题 10 Examples of How to Use Statistical Methods in a Machine Learning Project ,作者为 Jason Brownlee 。 翻译 | 赵...

雷锋字幕组
2018/07/26
0
0
UCLA 教授朱松纯创业,致力于打造新一代人工智能技术平台

雷锋网 AI 科技评论消息:重量级华人人工智能学者,加州大学洛杉矶分校(UCLA)统计学兼计算机科学教授,视觉、认知、学习与自主机器人中心主任朱松纯加入创业大潮,成立强认知 AI 平台公司暗...

汪思颖
03/28
0
0
郭律: 论机器学习平台与人工智能的关系

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云AI中心发表于云+社区专栏 郭律,腾讯高级产品经理,腾讯云AI基础产品中心高级产品经理、解决方案架构师。主导腾讯智...

腾讯云加社区
2018/09/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

CentOS7.6中安装使用fcitx框架

内容目录 一、为什么要使用fcitx?二、安装fcitx框架三、安装搜狗输入法 一、为什么要使用fcitx? Gnome3桌面自带的输入法框架为ibus,而在使用ibus时会时不时出现卡顿无法输入的现象。 搜狗和...

技术训练营
昨天
5
0
《Designing.Data-Intensive.Applications》笔记 四

第九章 一致性与共识 分布式系统最重要的的抽象之一是共识(consensus):让所有的节点对某件事达成一致。 最终一致性(eventual consistency)只提供较弱的保证,需要探索更高的一致性保证(stro...

丰田破产标志
昨天
8
0
docker 使用mysql

1, 进入容器 比如 myslq1 里面进行操作 docker exec -it mysql1 /bin/bash 2. 退出 容器 交互: exit 3. mysql 启动在容器里面,并且 可以本地连接mysql docker run --name mysql1 --env MY...

之渊
昨天
10
0
python数据结构

1、字符串及其方法(案例来自Python-100-Days) def main(): str1 = 'hello, world!' # 通过len函数计算字符串的长度 print(len(str1)) # 13 # 获得字符串首字母大写的...

huijue
昨天
6
0
PHP+Ajax微信手机端九宫格抽奖实例

PHP+Ajax结合lottery.js制作的一款微信手机端九宫格抽奖实例,抽奖完成后有收货地址添加表单出现。支持可以设置中奖概率等。 奖品列表 <div class="lottery_list clearfix" id="lottery"> ......

ymkjs1990
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部