文档章节

机器学习概论&HiveSQL&其他杂项

DDDDavid
 DDDDavid
发布于 2017/07/18 10:21
字数 607
阅读 0
收藏 0

 

机器学习概论

简单记录机器学习的发展史:

二十世纪五十年代到七十年代:推理期

        “逻辑理论家”程序、“通用问题求解”、跳棋程序

        连接主义(神经网络:感知机、Adaline)

二十世纪七十年代中期开始:知识期

        符号主义(结构学习系统、基于逻辑的归纳学习系统、概念学习系统)

        决策理论(学习技术、强化学习技术)

统计学习理论

二十世纪八十年代

        符号主义:决策树,以信息熵的最小化为目标

        基于逻辑的学习:归纳逻辑程序设计(ILP)

二十世纪九十年代

        连接主义学习:基于神经网络的(BP)

        统计学习:支持向量机(SVM)、核方法

二十一世纪初

        深度学习:多层神经网络

 

重要定理结论:

1、“没有免费的午餐”原理:不同算法的期望性能相同(问题的出现机会相同的条件下)。

2、“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个。

3、统计学通过机器学习对数据挖掘发挥影响,机器学习领域和数据库领域是数据挖掘的两大支撑。

                                                                                        ——以上内容来自周志华版的《机器学习》一书

 

 

开发机器学习应用程序的步骤:

(1)   收集数据;

(2)   准备输入数据;

(3)   分析数据;

(4)   训练算法;

(5)   测试算法;

(6)   使用算法。

                                                                                                  ——以上内容来自《机器学习实战》一书

 

 

 

HiveSQL的学习和操作。

HiveSQL优化:

1、 数据剪裁及job优化;(列剪裁、分区剪裁、利用hive的优化机制减少job数、job输入输出优化)

2、 Join操作及优化;(避免笛卡尔积、数据过滤、小表放前大表放后原则、Mapjoin、left semi join)

3、 输入输出优化;(合理使用动态分区、union all优化、合理使用union all、合理使用UDTF、多粒度计算优化)

4、 数据去重与排序;(distinct与group by、排序优化)

5、 数据倾斜;

 

数据表类型分类:

拉链表、非拉链表(增量表、全量表)

 

其他杂项:

进行数据挖掘适合使用python语言和R语言。安装anaconda,使用python比较方便,并且可以安装R软件。

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
记一则罕见的hive字段值异常引起map阶段的OOM

前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。 先看log。 节点一的TaskTracker的log: 节点二的TaskTracker的log: 节点三的TaskTracker的l...

zengzhaozheng
07/02
0
0
HiveSql实际应用——(2)Lateral view_转行为列

写在前面: HiveSql实际应用系列,是在实际HiveSql运用场景中,遇到一些相对少见的功能时查找相应解决方案时学习到的。因为基本的SQL语句,可以任意找一本数据库原理的书,做书后的习题即可。...

数据分析狮
2016/08/03
0
0
HiveSql实际应用——(1)mapjoin、分区表、不等值匹配

写在前面:HiveSql实际应用系列,是在实际HiveSql运用场景中,遇到一些相对少见的功能时查找相应解决方案时学习到的。因为基本的SQL语句,可以任意找一本数据库原理的书,做书后的习题即可。...

数据分析狮
2016/07/31
0
0
org.apache.thrift.transport.TTransportException: SASL authentication not complete

org.apache.thrift.transport.TTransportException: SASL authentication not complete at org.apache.thrift.transport.TSaslTransport.write(TSaslTransport.java:444) at org.apache.thri......

sca7
2016/12/10
1K
1
实用 :一文带你零基础入行深度学习

来源: 人工智能头条 本文共3369字,建议阅读5分钟。 本文希望从一个小白的角度出发,真正从零基础的角度来为大家提供一些专业的建议和指导。 深度学习到底有多热,这里我就不再强调了,也因...

数据分析v
08/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Shell编程(expect同步文件、指定host和同步文件、构建文件分发系统、批量执行命令)

expect脚本同步文件 需求:自动同步文件 实验准备: A机器:192.168.248.130 B机器:192.168.248.129 实现: 1.A机器编写4.expect脚本文件,内容如下所示: #!/usr/bin/expectset passwd "...

蛋黄_Yolks
34分钟前
2
0
ppwjs之bootstrap颜色:背景颜色

<!DOCTYPT html><html><head><meta http-equiv="content-type" content="text/html; charset=utf-8" /><title>ppwjs欢迎您</title><link rel="icon" href="/favicon.ico" ......

ppwjs
35分钟前
1
0
Ubuntu与 Fedora之对比

大家好。今天我将重点介绍两个流行的Linux发行版之间的一些特性和差异; Ubuntu 18.04和Fedora 28。它们都有自己的包管理; Ubuntu使用DEB,而Fedora使用RPM,但它们都具有相同的桌面环境(GNO...

linuxprobe16
39分钟前
2
0
线性代数入门

线性代数的概念对于理解机器学习背后的原理非常重要,尤其是在深度学习领域中。它可以帮助我们更好地理解算法内部到底是怎么运行的,借此,我们就能够更好的做出决策。所以,如果你真的希望了...

牛奋Debug
昨天
3
0
开发5分钟,调试2小时 - 该如何debug?

几年来我在答疑群、论坛、公众号、知乎回答的各种问题,没有一万也有八千。其中有三分之二以上都是在帮人看报错,帮人 debug(调试代码)。 可以说,会不会 debug,有没有 debug 的意识,懂不...

crossin
昨天
4
1

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部