文档章节

机器学习概论&HiveSQL&其他杂项

DDDDavid
 DDDDavid
发布于 2017/07/18 10:21
字数 607
阅读 2
收藏 0

 

机器学习概论

简单记录机器学习的发展史:

二十世纪五十年代到七十年代:推理期

        “逻辑理论家”程序、“通用问题求解”、跳棋程序

        连接主义(神经网络:感知机、Adaline)

二十世纪七十年代中期开始:知识期

        符号主义(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)

        决策理论(学习技术、强化学习技术)

统计学习理论

二十世纪八十年代

        符号主义:决策树,以信息熵的最小化为目标

        基于逻辑的学习:归纳逻辑程序设计(ILP)

二十世纪九十年代

        连接主义学习:基于神经网络的(BP)

        统计学习:支持向量机(SVM)、核方法

二十一世纪初

        深度学习:多层神经网络

 

重要定理结论:

1、“没有免费的午餐”原理:不同算法的期望性能相同(问题的出现机会相同的条件下)。

2、“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个。

3、统计学通过机器学习对数据挖掘发挥影响,机器学习领域和数据库领域是数据挖掘的两大支撑。

                                                                                        ——以上内容来自周志华版的《机器学习》一书

 

 

开发机器学习应用程序的步骤:

(1)   收集数据;

(2)   准备输入数据;

(3)   分析数据;

(4)   训练算法;

(5)   测试算法;

(6)   使用算法。

                                                                                                  ——以上内容来自《机器学习实战》一书

 

 

 

HiveSQL的学习和操作。

HiveSQL优化:

1、 数据剪裁及job优化;(列剪裁、分区剪裁、利用hive的优化机制减少job数、job输入输出优化)

2、 Join操作及优化;(避免笛卡尔积、数据过滤、小表放前大表放后原则、Mapjoin、left semi join)

3、 输入输出优化;(合理使用动态分区、union all优化、合理使用union all、合理使用UDTF、多粒度计算优化)

4、 数据去重与排序;(distinct与group by、排序优化)

5、 数据倾斜;

 

数据表类型分类:

拉链表、非拉链表(增量表、全量表)

 

其他杂项:

进行数据挖掘适合使用python语言和R语言。安装anaconda,使用python比较方便,并且可以安装R软件。

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
私信 提问
记一则罕见的hive字段值异常引起map阶段的OOM

前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。 先看log。 节点一的TaskTracker的log: 节点二的TaskTracker的log: 节点三的TaskTracker的l...

zengzhaozheng
07/02
0
0
HiveSql实际应用——(2)Lateral view_转行为列

写在前面: HiveSql实际应用系列,是在实际HiveSql运用场景中,遇到一些相对少见的功能时查找相应解决方案时学习到的。因为基本的SQL语句,可以任意找一本数据库原理的书,做书后的习题即可。...

数据分析狮
2016/08/03
0
0
HiveSql实际应用——(1)mapjoin、分区表、不等值匹配

写在前面:HiveSql实际应用系列,是在实际HiveSql运用场景中,遇到一些相对少见的功能时查找相应解决方案时学习到的。因为基本的SQL语句,可以任意找一本数据库原理的书,做书后的习题即可。...

数据分析狮
2016/07/31
0
0
org.apache.thrift.transport.TTransportException: SASL authentication not complete

org.apache.thrift.transport.TTransportException: SASL authentication not complete at org.apache.thrift.transport.TSaslTransport.write(TSaslTransport.java:444) at org.apache.thri......

sca7
2016/12/10
1K
1
HAWQ取代传统数仓实践(十)——维度表技术之杂项维度

一、什么是杂项维度 简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。事务型商业过程通常产生一系列混杂的、低基数的标志位或状态信息。与其为每个标志或属性定义不同的维度,不...

wzy0623
2017/05/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

颜色模型与颜色应用---RGB颜色模型

中国龙-扬科
5分钟前
0
0
网络优化-tcp和udp的协作

TODO

梦想游戏人
7分钟前
1
0
list和数组转化

Java中List转换为数组,数组转List List转换为Array可以这样处理: ArrayList<String> list=new ArrayList<String>(); String[] strings = new String[list.size()]; list.toArray(strings);......

west_coast
8分钟前
1
0
LSP 商户端API

Your domain:                  lsp-api-merchant.hhs2717.cnVirtualhost conf:             /usr/local/nginx/conf/vhost/lsp-api-merchant.hhs2717.cn.confDirectory of:......

BeanHo
17分钟前
0
0
设计模式 之 访问者模式

设计模式 之 访问者模式 概念 核心理念:将数据结构与算法分离。 使用场景:数据结构不变动,算法经常变动。 1、一个Visitor类存放被访问的对象,访问者主要处理具体算法与行为。 // 访问者...

GMarshal
21分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部