文档章节

Spark 学习资源收集【Updating】

大数据之路
 大数据之路
发布于 2014/09/08 15:23
字数 1074
阅读 4937
收藏 51

(一)spark 相关安装部署、开发环境

1、Spark 伪分布式 & 全分布式 安装指南

http://my.oschina.net/leejun2005/blog/394928

2、Apache Spark探秘:三种分布式部署方式比较

http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/

3、idea上运行local的spark sql hive

http://dataknocker.github.io/2014/10/11/idea%E4%B8%8A%E8%BF%90%E8%A1%8Clocal%E7%9A%84spark-sql-hive/

4、Apache Spark学习:利用Scala语言开发Spark应用程序

http://dongxicheng.org/framework-on-yarn/spark-scala-writing-application/

5、如何在CDH5上运行Spark应用(Scala、Java、Python)

http://blog.javachen.com/2015/02/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/

6、Spark集群安装和使用

http://blog.javachen.com/2014/07/01/spark-install-and-usage/#


(二)spark 架构、原理与编码

1、理解Spark的核心RDD

http://www.infoq.com/cn/articles/spark-core-rdd

2、How-to: Translate from MapReduce to Apache Spark(怎样从 MapReduce 迁移到 Spark)

http://blog.cloudera.com/blog/2014/09/how-to-translate-from-mapreduce-to-apache-spark/

3、Spark SQL 源码分析之 In-Memory Columnar Storage 之 cache table

http://blog.csdn.net/oopsoom/article/details/39525483

4、Databricks Spark 知识库

http://aiyanbo.gitbooks.io/databricks-spark-knowledge-base-zh-cn/content/

5、Spark1.0.0 编程模型

http://blog.csdn.net/book_mmicky/article/details/32096871

6、Spark技术内幕:Client,Master和Worker 通信源码解析

http://blog.csdn.net/anzhsoft/article/details/30802603

7、Spark Streaming编程指南

http://yangqijun.com/archives/200

8、Spark分布式计算执行模型

http://www.flickering.cn/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/2014/07/spark%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97%E6%89%A7%E8%A1%8C%E6%A8%A1%E5%9E%8B/

9、Top 3 Troubleshooting Tips To Keep You Sparking

http://engineering.sharethrough.com/blog/2013/09/13/top-3-troubleshooting-tips-to-keep-you-sparking/

10、Apache Spark 设计与实现(重点关注设计思想、运行原理、实现架构及性能调优,附带讨论与 MapReduce 在设计与实现上的区别。)

https://github.com/JerryLead/SparkInternals/tree/master/markdown

11、Spark Examples

http://spark.apache.org/examples.html

12、RDD操作详解

http://dataknocker.github.io/2014/07/20/RDD%E5%90%84%E6%93%8D%E4%BD%9C%E8%AF%A6%E8%A7%A3/

13、Spark编程指南笔记

http://blog.javachen.com/2015/02/03/spark-programming-guide/#

14、Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

http://blog.csdn.net/pelick/article/details/44495611

15、Getting Started with Spark (in Python)

https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python

16、Spark编程指南笔记

http://blog.javachen.com/2015/02/03/spark-programming-guide/#

17、Spark SQL中的DataFrame

http://blog.javachen.com/2015/03/26/spark-sql-dataframe/#

18、Spark RDD API详解(一) Map和Reduce

https://www.zybuluo.com/jewes/note/35032

19、Spark算子系列文章

http://lxw1234.com/archives/2015/07/363.htm

20、Spark Streaming实践和优化

http://bit.ly/1QsQ2Ot



(三)spark 监控与管理

1、Common Spark Troubleshooting

http://www.datastax.com/dev/blog/common-spark-troubleshooting

2、


(四)YARN & spark

1、Apache Spark探秘:多进程模型还是多线程模型?

http://dongxicheng.org/framework-on-yarn/apache-spark-multi-threads-model/


(五)spark 数据平台架构


(六)spark 应用与实践

1、How-to: Do Near-Real Time Sessionization with Spark Streaming and Apache Hadoop

http://blog.cloudera.com/blog/2014/11/how-to-do-near-real-time-sessionization-with-spark-streaming-and-apache-hadoop/

2、Integrating Kafka and Spark Streaming: Code Examples and State of the Game

http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/

3、spark读取 kafka nginx网站日志消息 并写入HDFS中

http://yangqijun.com/archives/227

4、Flafka: Apache Flume Meets Apache Kafka for Event Processing

http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/

5、Log Analysis with Spark

http://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/README.html

6、Spark将计算结果写入到Mysql中

http://www.iteblog.com/archives/1275

7、Spark Streaming 1.3对Kafka整合的提升详解

http://www.iteblog.com/archives/1307

8、Spark SQL中的数据源

http://blog.javachen.com/2015/04/03/spark-sql-datasource/#

9、Kafka+Spark Streaming+Redis实时计算整合实践

http://shiyanjun.cn/archives/1097.html


(七)spark 机器学习实践

1、ML Pipelines: A New High-Level API for MLlib

http://databricks.com/blog/2015/01/07/ml-pipelines-a-new-high-level-api-for-mllib.html

2、Spark 0.9.1 MLLib 机器学习库简介

http://rdc.taobao.org/?p=2163


(八)Scala 学习指北

1、Spark开发指南(0.8.1中文版)

http://rdc.taobao.org/?p=2024

2、Swift和Scala语法上的诸多相似之处

http://segmentfault.com/a/1190000000575561

3、Awesome Scala

https://github.com/lauris/awesome-scala

4、scala(有关jvm,scala与后端架构,阿里工程师的博客,相当不错)

http://hongjiang.info/scala/

5、Scala极速入门

http://my.oschina.net/mup/blog/363436?from=20150111

6、An-Overview-of-the-Scala-Programming-Language

https://github.com/wecite/papers/tree/master/An-Overview-of-the-Scala-Programming-Language

7、Scala简明教程

http://colobu.com/2015/01/14/Scala-Quick-Start-for-Java-Programmers/

8、Scala 课堂

http://twitter.github.io/scala_school/zh_cn/index.html

9、Scala基本语法和概念

http://blog.javachen.com/2015/04/20/basic-of-scala.html

      Scala集合

http://blog.javachen.com/2015/04/22/scala-collections.html

10、scala 从入门到入门+

http://segmentfault.com/a/1190000003068853



(九)Spark book

1、Spark Cook Book

http://www.infoobjects.com/spark-cookbook/

2、Fast Data Processing with Spark

http://it-ebooks.info/book/3185/

3、Scala语言概览

http://wecite.github.io/docs/ScalaOverview-20150226.pdf

4、Effective Scala

http://twitter.github.io/effectivescala/index-cn.html

5、有趣的 Scala 语言: 简洁的 Scala 语法

http://www.ibm.com/developerworks/cn/java/j-lo-funinscala2/


附:

© 著作权归作者所有

共有 人打赏支持
大数据之路
粉丝 1565
博文 516
码字总数 342503
作品 0
武汉
架构师
私信 提问
TalkingData的Spark On Kubernetes实践

众所周知,Spark是一个快速、通用的大规模数据处理平台,和Hadoop的MapReduce计算框架类似。但是相对于MapReduce,Spark凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop上任何格式...

Docker
2018/05/14
0
0
IBM 开源主要关注 Spark,Docker,Node 和 Go

近期 IBM 推出开源项目门户,计划开源 50个项目。在 IBM 开源门户 DeveloperWorks中有大量的开源项目都是为了提升 Spark 性能来优化 Docker 的网络管理。 IBM 当前推出的 DeveloperWorks 开源...

oschina
2015/08/06
4.7K
7
如何在万亿级别规模的数据量上使用Spark

一、前言 Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思...

风火数据
2018/05/14
0
0
学途无忧网的视频怎么破解下载?学途无忧网淘宝可以买吗?

学途无忧网的视频怎么破解下载?学途无忧网淘宝可以买吗? 我想下载这几集,或者低价购买这几集 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户...

天池番薯
2016/12/19
904
2
运行支持kubernetes原生调度的Spark程序

Spark 概念说明 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 在 Spark 中包...

数据架构师
2018/11/02
0
0

没有更多内容

加载失败,请刷新页面

加载更多

网站漏洞检测之WordPress 5.0.0 修复方案

2019年正月刚开始,WordPress最新版本存在远程代码注入获取SHELL漏洞,该网站漏洞影响的版本是wordpress5.0.0,漏洞的产生是因为image模块导致的,因为代码里可以进行获取目录权限,以及文件...

网站安全
40分钟前
0
0
MySql 优化 group by 语句

默认情况下,Mysql 对所有 group by 的字段进行排序,如果查询包括 group by ,用户想要避免排序结果的消耗。可以指定 order by null 禁止排序。 mysql> EXPLAIN select * from sys_log gro...

嘴角轻扬30
今天
9
0
Linux分区&格式化&文件系统&LVM&扩容

硬件 磁盘由 盘片组、主轴马达、机械臂、磁头、驱动芯片和电路、接口等构成 2. 磁盘的分割 每个盘片很多同心圆分割为磁道 Trace 一组盘片的同径磁道叫做一个柱面 Cylinder 每个磁道又被分为很...

可数局部基
今天
5
0
刷leetcode第705题- 设计哈希集合

这个我可能做的不是很符合题意,虽然AC了,但是没有去用到hash函数之类的方式。同样使用了位运算来搞定这一切,简单易懂。上代码如下: typedef char MyHashSet;/** Initialize your data ...

锟斤拷烫烫烫
今天
4
0
【spring】- springmvc 工作原理

核心:前端控制器:DispatcherServlet 功能:MVC设计模式中的Controller角色,掌控全局 类图 原理 本质是将DispatcherServlet及关联的Spring上下文环境的初始化工作织入Servlet的生命周期内,...

ZeroneLove
今天
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部