文档章节

机器学习概论&HiveSQL&其他杂项

DDDDavid
 DDDDavid
发布于 2017/07/18 10:21
字数 607
阅读 2
收藏 0

 

机器学习概论

简单记录机器学习的发展史:

二十世纪五十年代到七十年代:推理期

        “逻辑理论家”程序、“通用问题求解”、跳棋程序

        连接主义(神经网络:感知机、Adaline)

二十世纪七十年代中期开始:知识期

        符号主义(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)

        决策理论(学习技术、强化学习技术)

统计学习理论

二十世纪八十年代

        符号主义:决策树,以信息熵的最小化为目标

        基于逻辑的学习:归纳逻辑程序设计(ILP)

二十世纪九十年代

        连接主义学习:基于神经网络的(BP)

        统计学习:支持向量机(SVM)、核方法

二十一世纪初

        深度学习:多层神经网络

 

重要定理结论:

1、“没有免费的午餐”原理:不同算法的期望性能相同(问题的出现机会相同的条件下)。

2、“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个。

3、统计学通过机器学习对数据挖掘发挥影响,机器学习领域和数据库领域是数据挖掘的两大支撑。

                                                                                        ——以上内容来自周志华版的《机器学习》一书

 

 

开发机器学习应用程序的步骤:

(1)   收集数据;

(2)   准备输入数据;

(3)   分析数据;

(4)   训练算法;

(5)   测试算法;

(6)   使用算法。

                                                                                                  ——以上内容来自《机器学习实战》一书

 

 

 

HiveSQL的学习和操作。

HiveSQL优化:

1、 数据剪裁及job优化;(列剪裁、分区剪裁、利用hive的优化机制减少job数、job输入输出优化)

2、 Join操作及优化;(避免笛卡尔积、数据过滤、小表放前大表放后原则、Mapjoin、left semi join)

3、 输入输出优化;(合理使用动态分区、union all优化、合理使用union all、合理使用UDTF、多粒度计算优化)

4、 数据去重与排序;(distinct与group by、排序优化)

5、 数据倾斜;

 

数据表类型分类:

拉链表、非拉链表(增量表、全量表)

 

其他杂项:

进行数据挖掘适合使用python语言和R语言。安装anaconda,使用python比较方便,并且可以安装R软件。

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
私信 提问
记一则罕见的hive字段值异常引起map阶段的OOM

前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。 先看log。 节点一的TaskTracker的log: 节点二的TaskTracker的log: 节点三的TaskTracker的l...

zengzhaozheng
2018/07/02
0
0
HiveSql实际应用——(2)Lateral view_转行为列

写在前面: HiveSql实际应用系列,是在实际HiveSql运用场景中,遇到一些相对少见的功能时查找相应解决方案时学习到的。因为基本的SQL语句,可以任意找一本数据库原理的书,做书后的习题即可。...

数据分析狮
2016/08/03
0
0
HiveSql实际应用——(1)mapjoin、分区表、不等值匹配

写在前面:HiveSql实际应用系列,是在实际HiveSql运用场景中,遇到一些相对少见的功能时查找相应解决方案时学习到的。因为基本的SQL语句,可以任意找一本数据库原理的书,做书后的习题即可。...

数据分析狮
2016/07/31
0
0
《统计学习方法》python代码资料

分享一则资料,《统计学习方法》的python实现代码。 《统计学习方法》是李航的一本书,是比较基础经典的一本书,书中更多的是对基础传统机器学习的理论介绍,没有任何代码,这算是对代码的补...

我i智能
2018/12/23
0
0
机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能
2018/11/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Cloud搭建微服务架构----流量回放

前言 系统微服务化后,传统的自测/测试方式都变得比较困难: 依赖的服务可能不稳定。 服务无法提供期望的响应数据。 缺少场景构造标准。 随着整体业务越来越复杂,微服务依赖的越来越多,测试...

春哥大魔王的博客
24分钟前
3
0
记一次springboot模块配置问题导致读取Apollo配置中心配置文件始终错误的问题

现在正在做的一个项目采用的是微服务,主框架是spring cloud,配置中心用的是携程的Apollo。 项目下有多个服务,在测试服务器上启动用户服务的时候发现在eureka中心另一个服务被启动了,尝试...

zcqshine
25分钟前
6
0
流处理和批处理框架的异同

分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。 分布式流处理是对...

hblt-j
28分钟前
3
0
spring cloud 面试题

什么是springboot 用来简化spring应用的初始搭建以及开发过程 使用特定的方式来进行配置(properties或yml文件) 创建独立的spring引用程序 main方法运行 嵌入的Tomcat 无需部署war文件 简化...

狼王黄师傅
30分钟前
4
0
前嗅ForeSpider教程:采集黄页88

以黄页88为例,采集当前列表页新闻的正文数据: 第一步:新建任务 ①点击左上角“加号”新建任务,如图1: 【图1】 ②在弹窗里填写采集地址,任务名称,如图2: 【图2】 ③点击下一步,选择进...

forespider
35分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部