文档章节

如何进行大数据的入门级学习?

董黎明
 董黎明
发布于 07/17 19:19
字数 1964
阅读 4
收藏 0

不知道你是计算机专业应届生还是已经从业者。总之,有java基础的学生学习大数据会轻松很多,零基础的小白都需要从java和linux学起。

如果你是一个学习能力特别强,而且自律性也很强的人的话可以通过自学。

对于能够学的会的人来讲(学不会就不用自学了)自学的最大缺点就是无法找到真正的大数据实训项目。

网络上共享的一些凭空想象的项目根本无法达到企业的要求。所以这个是需要你自己考虑的。当然,如果你是边上班边学习,企业后续可以给你大数据的岗位就没有什么问题了。

下面我讲一下大数据目前比较热门的就业方向:

 

大数据学习群:716581014

 

 

1、大数据研发

2、大数据分析与挖掘

3、深度学习

4、人工智能

分享之前我还是要推荐下我自己创建的大数据学习资料分享群 716581014,这是全国最大的大数据学习交流的地方,不管你是小白还是大牛,

小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,包括我自己整理的一份最新的适合2018年学习的大数据教程,欢迎初学和进阶中的小伙伴。

Java:

只需要学习Java的标准版JavaSE就可以了。

Linux:

主要掌握Linux操作系统的理论基础和服务器配置实践知识,同时通过大量实验,着重培养动手能力。使学生了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上,加深对服务器操作系统的认识和实践配置能力。加深对计算机网络基础知识的理解,并在实践中加以应用。

掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管理、系统监测和系统故障排除。掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统开发奠定坚实的基础。与此同时,如果大家有时间把javaweb及框架学习一番,会让你的大数据学习更自由一些。

好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。

Hadoop:

Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper:

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

他的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口,代码在zookeeper-3.4.3src ecipes。其中分布锁和队列有Java和C两个版本,选举只有Java版本。

Mysql:

MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件。

MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。

Sqoop:

这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:

这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie:

既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:

这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:

这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:

它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

 

大数据学习群:716581014

© 著作权归作者所有

共有 人打赏支持
董黎明
粉丝 17
博文 129
码字总数 309079
作品 0
深圳
私信 提问
数据仓库经验老鸟分享零基础转行大数据的最佳自学之路

本人从08年从事数据仓库工程师转到目前大数据管理工作的,对数据仓库感情颇深,也曾一直苦于没有太好的学习资料,自行摸索。 我认为数据仓库更像一门管理学艺术,大多用的也是关系型数据库,...

董黎明
06/22
0
0
小白和牛人之间的这15个问答,让你知道该怎么学习大数据

问:不同的语言在数据处理以及算法计算过程中性能的差别是否很大? 答:就目前的经验来看,使用C或者C++的效率确实要比PYTHON高一些,但是没有差到一个数量级的差别。PYTHON程序的维护成本比...

隐姓埋名啊
2017/04/21
1K
2
关于大数据与机器学习,小白和牛人之间的15个典型问答(精华整理)

问:不同的语言在数据处理以及算法计算过程中性能的差别是否很大? 答:就目前的经验来看,使用C或者C++的效率确实要比PYTHON高一些,但是没有差到一个数量级的差别。PYTHON程序的维护成本比...

隐姓埋名啊
2017/04/19
396
1
linux学习路线和运维成长之路

最近看到了一篇新闻,linux之父建议找一份基于linux和开源环境的工作,确实,这已经是未来的大趋势了。今天就来聊一聊我的想法,本人8年linux运维一线经验,呆过很多互联网公司,从一线运维做...

神的信仰
2016/05/17
1
0
大数据开发入门你必须知道的事情

昨天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室。他们都是从事程序开发方面工...

adnb34g
06/15
0
0

没有更多内容

加载失败,请刷新页面

加载更多

EOS docker开发环境

使用eos docker镜像是部署本地EOS开发环境的最轻松愉快的方法。使用官方提供的eos docker镜像,你可以快速建立一个eos开发环境,可以迅速启动开发节点和钱包服务器、创建账户、编写智能合约....

汇智网教程
今天
12
0
《唐史原来超有趣》的读后感优秀范文3700字

《唐史原来超有趣》的读后感优秀范文3700字: 作者:花若离。我今天分享的内容《唐史原来超有趣》这本书的读后感,我将这本书看了一遍之后就束之高阁了,不过里面的内容一直在在脑海中回放,...

原创小博客
今天
19
0
IC-CAD Methodology知识图谱

CAD (Computer Aided Design),计算机辅助设计,指利用计算机及其图形设备帮助设计人员进行设计工作,这个定义同样可以用来近似描述IC公司CAD工程师这个岗位的工作。 早期IC公司的CAD岗位最初...

李艳青1987
今天
18
0
CompletableFuture get方法一直阻塞或抛出TimeoutException

问题描述 最近刚刚上线的服务突然抛出大量的TimeoutException,查询后发现是使用了CompletableFuture,并且在执行future.get(5, TimeUnit.SECONDS);时抛出了TimeoutException异常,导致接口响...

xiaolyuh
今天
9
0
dubbo 搭建与使用

官网:http://dubbo.apache.org/en-us/ 一,安装监控中心(可以不安装) admin管理控制台,monitor监控中心 下载 bubbo ops 这个是新版的,需要node.js环境,我没有就用老版的了...

小兵胖胖
今天
19
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部