文档章节

零基础学习大数据人工智能,学习路线篇!系统规划大数据之路?

董黎明
 董黎明
发布于 06/18 12:54
字数 4326
阅读 18
收藏 0
点赞 0
评论 0

大数据处理技术怎么学习呢?首先我们要学习Python语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。

Python:Python 的排名从去年开始就借助人工智能持续上升,现在它已经成为了语言排行第一名。

从学习难易度来看,作为一个为“优雅”而生的语言,Python语法简捷而清晰,对底层做了很好的封装,是一种很容易上手的高级语言。在一些习惯于底层程序开发的“硬核”程序员眼里,Python简直就是一种“伪代码”。

 

大数据学习QQ群:199427210

零基础学习大数据人工智能,学习路线篇!

在大数据和数据科学领域,Python几乎是万能的,任何集群架构软件都支持Python,Python也有很丰富的数据科学库,所以Python不得不学。

Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会 shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。

Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。 YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了,只不过你现在还可能对”大数据”到底有多大还没有个太清楚的概念,听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据,到时候你就不会觉得数据大真好,越大越有你头疼的。当然别怕处理这么大规模的数据,因为这是你的价值所在,让那些个搞Javaee的php的html5的和DBA的羡慕去吧。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。

Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

会这些东西你就成为一个专业的大数据开发工程师了,月薪2W都是小毛毛雨。

后续提高:大数据结合人工智能达到真正的数据科学家,打通了数据科学的任督二脉,在公司是技术专家级别,这时候月薪再次翻倍且成为公司核心骨干。

机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习的算法基本比较固定了,学习起来相对容易。

深度学习(Deep Learning, DL):深度学习的概念源于人工神经网络的研究,最近几年发展迅猛。深度学习应用的实例有AlphaGo、人脸识别、图像检测等。是国内外稀缺人才,但是深度学习相对比较难,算法更新也比较快,需要跟随有经验的老师学习。

最快的学习方法,就是师从行业专家,学习老师多年积累的经验,自己少走弯路达到事半功倍的效果。自古以来,名师出高徒。

想了解学习大数据加QQ裙:199427210

如何系统规划大数据学习之路?

如何系统规划大数据学习之路?

需要这方面的视频资料和公开课程,可以加入我们,一个良好的学习范围很重要

大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。

这正是我想要撰写本文的原因。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。目前我们面临的最大挑战就是根据我们的兴趣和技能选定正确的角色。

为了解决这个问题,我在本文详细阐述了每个与大数据有关的角色,同时考量了工程师以及计算机科学毕业生的不同职位角色。

我尽量详细地回答了每一项人们在学习大数据过程中遇到或可能会遇到的问题。为帮助你根据兴趣选择发展途径,我添加了一组树图,相信会对你找到正确的途径有所帮助。

如何系统规划大数据学习之路?

学习之路树状图

在这个树状图的帮助下,你可以根据你的兴趣和目标选择路径。 然后,你可以开始学习大数据的旅程了。

目录表

1.如何开始?

2.在大数据领域有哪些职位需求?

3.你的领域是什么,适合什么方向?

4.勾勒你在大数据领域的角色

5.如何成为一名大数据工程师?

o什么是大数据行业术语?

o你需要了解的系统和结构

o学习去设计解决方案并且学习相关技术

6.大数据学习路径

7.资源

1.如何开始?

大数据学习扣扣群:199427210

人们想开始学习大数据的时候,最常问我的问题是,“我应该学Hadoop(hadoop是一款开源软件,主要用于分布式存储和计算,他由HDFS和MapReduce计算框架组成的,他们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性,因此成为最近流行的海量数据处理框架。hadoop这个单词来源于其发明者的儿子为一个玩具大象起的名字。), 分布式计算,Kafka(Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统),NoSQL(泛指非关系型的数据库)还是Spark(Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处)?”

而我通常只有一个答案:“这取决于你究竟想做什么。”

因此,让我们用一种有条理的方式来解决这个问题。我们将一步步地探索这条学习之路。

2. 在大数据行业有哪些职业需求?

在大数据行业中有很多领域。通常来说它们可以被分为两类:

大数据工程

大数据分析

这些领域互相独立又互相关联。

大数据工程涉及大量数据的设计,部署,获取以及维护(保存)。大数据工程师需要去设计和部署这样一个系统,使相关数据能面向不同的消费者及内部应用。

大数据分析的工作则是利用大数据工程师设计的系统所提供的大量数据。大数据分析包括趋势、图样分析以及开发不同的分类、预测预报系统。

因此,简而言之,大数据分析是对数据的高级计算。而大数据工程则是进行系统设计、部署以及计算运行平台的顶层构建。

3.你的领域是什么,适合什么方向?

现在我们已经了解了行业中可供选择的职业种类,让我们想办法来确定哪个领域适合你。这样,我们才能确定你在这个行业中的位置。

通常来说,基于你的教育背景和行业经验我们可以进行如下分类:

教育背景(包括兴趣,而不一定与你的大学教育有关)

计算机科学、数学、行业经验、新人、数据学家、计算机工程师(在数据相关领域工作)

因此,通过上面的分类,你可以把自己的领域定位如下:

例1:“我是一名计算机科学毕业生,不过没有坚实的数学技巧。”

你对计算机科学或者数学有兴趣,但是之前没有相关经验,你将被定义为一个新人。

例2:“我是一个计算机科学毕业生,目前正从事数据库开发工作。”

你的兴趣在计算机科学方向,你适合计算机工程师(数据相关工程)的角色。

例3:“我正作为数据科学家从事统计工作。”

你对数学领域有兴趣,适合数据科学家的职业角色。

因此,参照着定位你的领域吧。

(此处定义的领域对你确定在大数据行业的学习路径至关重要。)

4.根据领域规划你的角色

现在你已经确定了你的领域,下一步,让我们规划出你要努力的目标职位吧。

如果你有卓越的编程技巧并理解计算机如何在网络(基础)上运作,而你对数学和统计学毫无兴趣,在这种情况下,你应该朝着大数据工程职位努力。

如果你擅长编程同时有数学或者统计学的教育背景或兴趣,你应该朝着大数据分析师职位努力

5.如何成为一名大数据工程师

让我们先定义一下,一名受到行业承认的大数据工程师都需要学习和了解什么。首先以及最重要的一步是确认你的需求。你不能在不清楚个人需求的情况下直接开始学习大数据。否则,你将一直盲人摸象。

为了明确你的需求,你必须了解常用的大数据术语。所以让我们来看一下大数据到底意味着什么?

5.1 大数据术语

大数据工程通常包括两个方面 – 数据需求以及处理需求

5.1.1 数据需求术语

结构:你应该知道数据可以储存在表中或者文件中。储存在一个预定义的数据模型(即拥有架构)中的数据称为结构化数据。如果数据储存在文件中且没有预定义模型,则称为非结构化数据。(种类:结构化/非结构化)。

容量:我们用容量来定义数据的数量。(种类:S/M/L/XL/XXL/流)

Sink吞吐量:用系统所能接受的数据率来定义Sink吞吐量。(种类:H/M/L)

源吞吐量:定义为数据更新和转化进入系统的速度。(种类:H/M/L)

5.1.2处理需求术语

查询时间:系统查询所需时间。(种类:长/中/短)

处理时间:处理数据所需时间。(种类:长/中/短)

精度:数据处理的精确度。(种类:准确/大约)

5.2你需要知道的系统和架构

情景1:

为分析一个公司的销售表现需要设计一个系统,即创建一个数据池,数据池来自于多重数据源,比如客户数据、领导数据、客服中心数据、销售数据、产品数据、博客等。

5.3学习设计解决方案和技术

情节1的解决方案:销售数据池

(这是我的个人解决方案,如果你想到一个更高明的解决方案请在下面分享一下)

那么,一个数据工程师会怎样解决这个问题呢?

需要记住的一点是,大数据系统的目的不仅仅是无缝整合各种来源的数据,而使其可用,同时它必须能使得,用于开发应用系统的数据的分析和利用变得简单迅速和易得(在这个案例中是智能控制面板)。

定义最后的目标:

1. 通过整合各种来源的数据创建一个数据池。

2. 每隔一定时间自动更新数据(在这个案例中可能是一周一次)。

3. 可用于分析的数据(在记录时间内,甚至可能是每天)

4. 易得的架构和无缝部署的分析控制面板。

既然我们知道了我们最后的目标,让我们尽量用正式术语制定我们的要求吧。

© 著作权归作者所有

共有 人打赏支持
董黎明
粉丝 8
博文 63
码字总数 163849
作品 0
深圳
什么是大数据?零基础如何学习大数据?(附学习路线)

其实简单的来说,大数据就是通过分析和挖掘全量的非抽样的数据辅助决策。 大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每...

董黎明
06/30
0
0
大数据、人工智能的出现给每个人造成的影响居然那么大!这是程序员的福音......

《人类简史》作者尤瓦尔·赫拉利说:“人类从来没有做过什么自由的选择,你听从内心想法做出的一切选择,都是经过生物计算输出的结果。” 找对象,看大数据 我们往往在做出决定的时候都会在大...

uzv80px5v412ne
2017/12/27
0
0
C语言编程,程序员大神制作的小程序游戏,让你对战电脑

零基础小白到大神之路,欢迎加学习裙 341636727裙里有免费c/c++课程,还有大量干货哦 这是一个简单的小轨范,让你与电脑对决。你可以本身学则出拳,电脑则随机出拳,末了断定胜负。 启动轨范...

诸葛玥
02/26
0
0
新手学python,如何才能更快升职加薪,迎娶白富美,走上人生巅峰

最近在问答里发现好多咨询怎么学习python,或者学习难不难的问题,这里给大家提几点建议: 了解自己的目标 我开始学编程的时候,连基础的知识都不知道,小白的很!记得我开始看教材,就是输入...

python教程
05/31
0
0
人工智能冲击下的高等教育“新工科”建设探索

大数据[1]和人工智能[2]时代,AlphaGo每天自我对弈100万盘围棋[3];Tesla每天从上100万辆车实际行驶路线中学习驾驶经验;Watson等系统每天学习数十万张医疗影像大数据的深度特征[4]…大数据驱...

阿杜白话大数据
07/09
0
0
高考数学140与成为高薪数据分析师之间有什么关系?

感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖...

天善智能
05/14
0
0
大数据分析师到底在干嘛?大数据学习最佳路线

为什么数据前面加个大? 不加大你不点,不加大不时髦,不加大不够大! 先从一个故事讲起,某养猪场厂长告诉A分析尸,我要看几个数据,你提取一下,一周后给我看看。 A分析尸列出: 猪总数100...

董黎明
07/09
0
0
人工智能、大数据与复杂系统 全部课程

人工智能、大数据与复杂系统 【下载地址:https://pan.baidu.com/s/1dg8F4hSTTaPDUpDpd3AqWA 】 黑科技,人工智能前进之路势不可挡! “做大做强新兴产业集群,实施大数据发展行动,加强新一...

自学号
06/28
0
0
2018年值得关注的5个大数据趋势

随着大数据系统日益高效,每年的大数据趋势变得更具开创性。根据调研机构Forrester Research最近发布的营销报告,随着组织的领导者开始意识到大量使用大数据技术所需的工作量,人工智能(AI)正...

董黎明
06/14
0
0
2017杭州云栖大会100位大咖视频+讲义全分享 大数据

摘要: “如果我看得更远一点的话,是因为我站在巨人的肩膀上。”2017杭州云栖大会资料全部整理完毕,首批100位大咖视频+讲义分享给大家。 杭州云栖大会是阿里集团一年一度的全生态科技盛会。...

qq_40954115
2017/11/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

rabbitmq学习记录(六)交换机Exchange-direct

实现功能:一条消息发送给多个消费者 交换机模式:direct 相比于之前的fanout模式,可以进一步的筛选获取消息的消费者。 fanout模式下,只要消费者监听的队列,已经与接收生产者消息的交换机...

人觉非常君
9分钟前
0
0
Java 之 枚举

Java 中声明的枚举类,均是 java.lang.Enum 类的子类,Enun 类中的常用方法有: name() 返回枚举对象名称 ordinal() 返回枚举对象下标 valueOf(Class enumType, String name) 转换枚举对象 ...

绝世武神
17分钟前
0
0
使用爬虫实现代理IP池之放弃篇

啥叫代理IP以及代理IP池 概念上的东西网上搜索一下就好了,这里简单科普一下(大部分会读这篇文章的人,基本是不需要我来科普的),白话说就是能联网并提供代理访问互联网的服务器,它提供的...

一别丶经年
33分钟前
0
0
sqoop导入数据到Base并同步hive与impala

使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 Sqool和Hive、HBase简介 Sqoop Hive HBase 测试Sqoop 使用Sqoop从MySQL导入数据到Hive 使用复杂SQL 调整Hive数据类型 不断更新 ...

hblt-j
今天
0
0
Dart 服务端开发 文件上传

clent端使用angular组件 upload_component.html form id="myForm" method="POST" enctype="multipart/form-data"> <input type="file" name="fileData"> <!-- file field --></form>......

scooplol
今天
0
0
apache和tomcat同时开启,乱码问题

tomcat和apache同时开启,会走apache的转发,执行的是AJP/1.3协议。所以在tomcat的配置文件server中, <Connector port="8009" protocol="AJP/1.3" redirectPort="8443" useBodyEncodingForU......

Kefy
今天
0
0
使用ssh-keygen和ssh-copy-id三步实现SSH无密码登录 和ssh常用命令

ssh-keygen 产生公钥与私钥对. ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,ssh-copy-id也能让你有到远程机器的home, ~./ssh , 和 ~/.ssh/authorized_keys的权利 第一步...

xtof
今天
0
0
orcale 查询表结构

SELECT t.table_name, t.colUMN_NAME, t.DATA_TYPE || '(' || t.DATA_LENGTH || ')', t1.COMMENTS FROM User_Tab_Cols t, User_Col_Comments t1WHERE t.table_name......

wertwang
今天
0
0
华为nova3超级慢动作酷玩抖音,没有办法我就是这么强大

华为nova3超级慢动作酷玩抖音,没有办法我就是这么强大!华为nova3超级慢动作酷玩抖音,没有办法我就是这么强大! 在华为最新发布的nova 3手机上,抖音通过华为himedia SDK集成了60fps、超级...

华为终端开放实验室
今天
0
0
多 SSH Key 实现同一台服务器部署多 Git 仓库

本文以以下需求为背景,介绍详细的做法: 需在同一台服务器同时部署两个不同的 Github 仓库(对 Bitbucket 等 git 服务同样适用) root 用户可在远程登录 SSH 后附上预期的 SSH Key 进行 gi...

yeahlife
今天
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部