文档章节

中文书籍资料推荐Spark

henry2008
 henry2008
发布于 2016/11/04 08:55
字数 825
阅读 28
收藏 1

Spark源代码剖析书籍推荐

  《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

  《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。

最近很多人让推荐Hadoop 2.0Spark学习资料,今天汇总一下我学习这两套系统过程中的参考资料,供大家参考。我把这些资料分成了若干级别,不同层次的人可查阅不同层次的资料。

1)初学者

对于初学者而言,保证最初知识的准确性尤为重要,如果刚开始获取的知识不准确,一旦根深蒂固以后将很难纠正,而且很长时间内将伴随着你,误导着你。鉴于以上考虑,我主要推荐官方网站上的相关文档,具体如下:

Hadoop 2.0 

Apache 版本:http://hadoop.apache.org/docs/r2.2.0/

CDH版本:

http://cloudera.com/content/support/en/documentation/cdh4-documentation/cdh4-documentation-v4-4-0.html

HDH版本:http://hortonworks.com/products/hdp-2/#documentation

注:以上几个版本基本使用和配置方法是一致的,可以相互参考,区别不大。

Spark

http://spark.incubator.apache.org/documentation.html

如果你的英文不够好,建议你逐步阅读这些文档,保证一手的学习资源非常重要。

2)中高级学者

对于中高级学者,对知识的准确性有一定的判别能力和验证能力,因此会推荐一些中文资料,但仍以英文为主。

Hadoop 2.0 

博客:

Hortonworks博客:http://hortonworks.com/blog/

我的博客:https://my.oschina.net/BigDataInterchange/

三本书籍:

Fast Data Processing with Spark:这本书大陆还没有,网上也没有电子版,只有前几章试读。

Apache Hadoop YARNMoving beyondMapReduce and Batch Processing ,YARN  leader Arun Murthy写的一本关于YARN的书籍,目前只有前两章试读(还在编写中,预定明年12月份出版)

Hadoop技术内幕:深入解析YARN架构设计与实现原理》,该书从基本原理到内部实现,全方位介绍了Hadoop 2.0中资源管理系统YARN。具体介绍可登陆官方宣传网站:http://hadoop123.com/

 

电子文档:

Hadoop 0.23 MRv2分析”,由百度工程师编写,他的新浪微博:@大数据的wm,邮箱:infcollector@gmail.com

Architecture of Next Generation Apache Hadoop MapReduceFramework”,这份资料来自Hadoopjira,系统全面的介绍了MRv2/YARN的来源、架构和一些内部实现细节。

 

Hadoop jira

Hadoop jira是最好的学习资料,里面有大量的PDF文档、栩栩如生的对话和探讨,建议每天都读Hadoop jira,养成习惯,并参与讨论。

HDFS jirahttps://issues.apache.org/jira/browse/HDFS

MapReduce jirahttps://issues.apache.org/jira/browse/MAPREDUCE

YARN jirahttps://issues.apache.org/jira/browse/YARN

 

会议及PPT

http://spark-summit.org/

http://hadoopsummit.org/

很多PPT都放在slideshare上,需要翻墙。因此,为了能够更好的学习Hadoop,需具备翻墙能力。

© 著作权归作者所有

henry2008

henry2008

粉丝 0
博文 2
码字总数 1488
作品 0
程序员
私信 提问
spark客户端界面由中文变成英文了。。。如何恢复?

在局域网搭建了 openfire3.6.4+spark 2.5.8 ,搭建完成后,在局域网内两台XP(1台英文XP+1台简体XP)都分别安装了spark2.5.8....安装完毕后,这两台机器上的spark都是以中文界面显示的,我用...

陈文轩
2010/12/13
1K
2
Spark IM 2.7.4 发布,IM 客户端

Spark IM 2.7.4 发布,此版本现已提供在 Ignite Realtime: Downloads。此次更新主要是更新了翻译(俄语,中文,立陶宛等等),还有一些翻译 GUI 的硬编码部分,代理连接旧分支。 完整改进内容...

oschina
2015/12/19
2.2K
3
Spark 简易入门教程(Java的微型Web框架)

今天在reddit上看到了这个有趣的Java Web框架,就写了几个例子稍微感受了一下,顺手把它的文档也翻译的了一下。 一、Spark是什么 Spark是一个微型的Java Web框架,它的灵感来自于Sinatra,它...

小编辑
2011/05/24
38.9K
7
Spark的39个机器学习库-中文

//Apache Spark 本身// 1.MLlib >AMPLab Spark最初诞生于伯克利 AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于Apache Spark Foundation中,但是依然在你日常的github项目中...

MoksMo
2015/11/04
880
0
这可能是学习 Spark Delta Lake 最全的资料

Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的...

Delta Lake
09/09
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring使用ThreadPoolTaskExecutor自定义线程池及实现异步调用

多线程一直是工作或面试过程中的高频知识点,今天给大家分享一下使用 ThreadPoolTaskExecutor 来自定义线程池和实现异步调用多线程。 一、ThreadPoolTaskExecutor 本文采用 Executors 的工厂...

CREATE_17
今天
5
0
CSS盒子模型

CSS盒子模型 组成: content --> padding --> border --> margin 像现实生活中的快递: 物品 --> 填充物 --> 包装盒 --> 盒子与盒子之间的间距 content :width、height组成的 内容区域 padd......

studywin
今天
7
0
修复Win10下开始菜单、设置等系统软件无法打开的问题

因为各种各样的原因导致系统文件丢失、损坏、被修改,而造成win10的开始菜单、设置等系统软件无法打开的情况,可以尝试如下方法解决 此方法只在部分情况下有效,但值得一试 用Windows键+R打开...

locbytes
昨天
8
0
jquery 添加和删除节点

本文转载于:专业的前端网站➺jquery 添加和删除节点 // 增加一个三和一节点function addPanel() { // var newPanel = $('.my-panel').clone(true) var newPanel = $(".triple-panel-con......

前端老手
昨天
8
0
一、Django基础

一、web框架分类和wsgiref模块使用介绍 web框架的本质 socket服务端 与 浏览器的通信 socket服务端功能划分: 负责与浏览器收发消息(socket通信) --> wsgiref/uWsgi/gunicorn... 根据用户访问...

ZeroBit
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部