文档章节

有2年开发经验,该如何学习Hadoop?

谁让你长得这么漂亮
 谁让你长得这么漂亮
发布于 2017/08/02 11:57
字数 1732
阅读 162
收藏 2

学习hadoop,首先我们要知道hadoop是什么?

说到底Hadoop只是一项分布式系统的工具,我们在学习的时候要理解分布式系统设计中的原则以及方法,只有这样才能以不变应万变。再一个就是一定要动手,有什么案例,有什么项目一定要亲自动手去敲。

学习的时候不要害怕遇到问题,问题是最好的老师。其实学习的过程就是逐渐解决问题的过程,当你遇到的问题越来越少的时候,就说明已经学的差不多了。

 

下面说一下hadoop的学习路线。

1.我们要掌握Linux的安装及基本操作、Python安装及编程基础、java基础。

需要学习Linux的常用命令、基本网络配置、进程管理、shell语法;Python的常用语法,能够基于Python搭建一个常用的Server服务器和java的基础知识。

这时候只需要掌握基础即可,后边遇到问题再学习,这样才不会混乱,学的才扎实。

2. 搭建Hadoop分布式环境

我们要做的是在自己的电脑上安装Linux,然后准备环境nat配置,搭建Hadoop集群先让Hadoop在自己的电脑上跑起来。使用VMware来搭建。

这时候我们会Host配置、IP配置、SSH免密登录等。

3.学习HDFS分布式文件系统

 这一步要学习架构分析、容灾容错策略、local数据策略、数据块概念、机架感应,功能逻辑实现等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。

4.学习MapReduce计算框架

MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多,大家一定要有耐心,把MR的知识学牢固。

首先我们需要学习MR的基本原理、任务执行流程、Shuffle策略。自己动手写一个MR任务,来实现wordcount。然后要学习表单join、表单查询、数据清洗、全局排序、多目录输入输出、自定义partition分区,掌握二分法算法。

接下来学习自然语言处理方法(NLP),掌握如何提取关键词,TF-IDF算法。这里我们可以实践一下,统计文本中的词频。

学习中文分词,分词的质量直接影响数据挖掘的质量。

5.学习Strom流式计算

Storm是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。

这一步我们要知道Hadoop和Storm的区别,知道他们如何进行互补。了解Storm的体系架构、Zookeeper在架构中的作用和数据流处理的过程。弄懂Storm的工作原理和核心组件(Spout、Bolt)

6.学习Zookeeper分布式协作服务

这一步我们学会数据管理的树形结构,学会根据应用场景选择不同类型的节点、节点权限管理ACL和监控机制。学会Zookeeper开源自带Client工具的Shell使用,开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。

7.学习数据仓库工具Hive

这一步要了解Hive的体系架构和其与mysql的对比。要掌握Mysql的基本知识、系统搭建标准SQL语(增删查改)。

8.学习分布式存储系统Hbase

这一步要掌握Hbase的体系架构(HMaster、HRegionServer、HStore、HFile、HLog),物理存储、数据逻辑存储、核心功能模块。

细化一点要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出,与Hive结合使用,集群管理和性能调优。

9.学习Spark

这一步要掌握SPark的编程模型、运行框架、作业提交、缓存策略、RDD、MLLib。

10.学习Scala语言

这一步要掌握Scala的常用语法、函数、元组等操作,不熟Spark。

11.学习Spark开发技术

这一步要能够熟练使用MLLib,能够自己开发Scala的Spark任务,完成表格join、连接和文本串过滤等。

12.学习推荐系统

前面我们学了那么多,最终所学的技术要能落地,我学的是现在主流的推荐系统,现在各大公司都需要这方面的人才。

这一步我们可以找一些案例在学习,要掌握主流的推荐算法,Content Base、Collab Filter。

a.学习基于MR的协同过滤算法

b.学习Mahout,掌握Mahout的适用场景、环境搭建与部署。

  学习基于Mahout的协同过滤算法,与MR进行效果对比。

C.学习基于Spark的协同过滤算法

到这里,按照上边的路线认真学习,肯定能学好hadoop开发,在学习的时候一定要亲自动手去敲,要去不断的尝试,把看到的知识尽快转化为自己的技能,这样才能高效率的学会hadoop,学任何一门技术都是一样,需要实际动手。

如何才能高效学会Hadoop开发?

作为过来人,我知道自己学一门技术很难。不知道该怎么开始,遇到问题得不到及时、准确的解决。这些困难无疑会打击人的信心,本来能够学会也因为某些原因放弃。

所以我希望能给大家分享一些有用的知识、信息。

我在逛论坛的时候认识了一位百度的大牛(目前T7级别),这代表什么我想圈里人都清楚。

他自己录制了一套大数据视频,视频内容包括Hadoop入门、Hadoop生态架构和Hadoop大型商业项目案例,每一个小节都有真实的项目用来实践,最后有一个完整、系统的大型项目用来练习整体开发能力。

这套视频的价值非常高,有很多刚毕业的人也是看这套视频学会的大数据开发并且找到了很好的工作。

现在这套视频可以免费分享给大家,如果你也想学大数据的话可以加ganshiyun666这个微信来获得视频。

请注明:OSC

各位不要觉得别人免费分享的资料没有价值,你不自己亲自去看你永远不知道错过了什么。

很可能你离学会大数据只差这一套视频,况且你只要跟这个人取得联系就可以免费拿到视频,而且你在微信上有绝对的主动权,对你百利而无一害。

 

© 著作权归作者所有

共有 人打赏支持
谁让你长得这么漂亮
粉丝 1
博文 1
码字总数 1732
作品 0
沧州
加载中

评论(2)

汉斯-冯-拉特
汉斯-冯-拉特
估计是培训学校的
干爷爷
干爷爷
我就在想为何要学这玩意
带掌握技能

Scrapy爬虫框架、Tornado框架 socket编程 appscan OpenCL Hadoop RabbitMQ zmq bt5,sqlmap,zap,burpsuite,WVS9.0,nmap 反编译原理,熟悉dalvik、smali 两年以上云开发(OpenStack)相关...

Jr小王子
2015/12/17
31
0
大数据开发工程师岗位分析

最近一年大数据火爆异常,各种培训班开课广告满天飞,很多做开发的朋友也想转到大数据这一行,在投递简历的时候进场被几个岗位搞迷糊,他们是大数据分析师,大数据研发工程师,大数据建模工程...

mulangren1988
2017/01/20
0
0
现在招聘大数据开发人员怎么个状况?张口就是两万月薪

不知道大家有没有遇到类似的情况,最近一直在招人,遇到不少的奇葩,期望薪资与实际能力相差太多。一年工作经验,java基础水平不行,java web没做过也不屑甚至拒绝去做,搭过hadoop环境的写过...

mcmoo
2017/06/23
309
7
如何成为一名大数据开发工程师

版权申明:转载请注明出处。 文章来源:http://bigdataer.net/?p=239 1.关于我 本人现在北京某大型互联网公司高级数据开发工程师一枚,三年工作经验,一年多面试官经验。 2.为啥要写这篇文章...

lgdlxc
2017/03/13
0
0
猎头职位-----一大波python工程师职位

职位一: 【某互联网公司】 【python工程师】【B轮】【北京朝阳区】 薪酬范围:10-20k 本科学历及以上,2年python开发经验,在某单一项目中使用Python一年以上,熟悉数据库基本操作,有过Dja...

pythoning
2016/03/03
135
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

OSChina 周三乱弹 —— 公司女同事约我

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @莱布妮子:分享水木年华的单曲《蝴蝶花(2002年大提琴版)》 《蝴蝶花(2002年大提琴版)》- 水木年华 手机党少年们想听歌,请使劲儿戳(这里) ...

小小编辑
7分钟前
12
4
Linux环境搭建 | VMware下共享文件夹的实现

在进行程序开发的过程中,我们经常要在主机与虚拟机之间传递文件,比如说,源代码位于虚拟机,而在主机下阅读或修改源代码,这里就需要使用到 「共享文件」 这个机制了。本文介绍了两种共享文...

良许Linux
今天
5
0
JUC锁框架——AQS源码分析

JUC锁介绍 Java的并发框架JUC(java.util.concurrent)中锁是最重要的一个工具。因为锁,才能实现正确的并发访问。而AbstractQueuedSynchronizer(AQS)是一个用来构建锁和同步器的框架,使用A...

长头发-dawn
今天
3
0
docker中安装了RabbitMQ后无法访问其Web管理页面

在官网找了"$ docker run -d --hostname my-rabbit --name some-rabbit -p 8080:15672 rabbitmq:3-management"这条安装命令,在docker上安装了RabbitMQ,,结果输入http://localhost:8080并不......

钟然千落
今天
4
1
spring-cloud | 分布式session共享

写在前面的话 各位小伙伴,你们有福了,这一节不仅教大家怎么实现分布式session的问题,还用kotlin开发,喜欢kotlin的小伙伴是不是很开心! 以前在写Android的时候,就对客户端请求有一定的认...

冯文议
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部