加载中
手把手教你 Spark 性能调优

0、背景 上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。 看了下任务的历史运行情况,平均时间 3h 左右,而且极其不...

2017/07/05 01:15
5.4K
如何用 Hadoop/Spark 构建七牛数据平台

数据平台在大部分公司都属于支撑性平台,做的不好立刻会被吐槽,这点和运维部门很像。所以在技术选型上优先考虑现成的工具,快速出成果,没必要去担心有技术负担。早期,我们走过弯路,认为没...

Flink

1、Flink 靠什么征服饿了么工程师? https://mp.weixin.qq.com/s/jCsUJ4HGLcFI1JRhAmeDcg 2、Spark Streaming VS Flink https://mp.weixin.qq.com/s/JYkylUHAxOtzXLcRlCSRZA 3、Flink解析 | ...

2015/05/29 02:24
684
Spark 入门(Python、Scala 版)

本文中,我们将首先讨论如何在本地机器上利用Spark进行简单分析。然后,将在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节将开始通过命令行与Spa...

2015/05/07 03:53
7.8K
Spark 学习资源收集【Updating】

(一)spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式 安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘:三种分布式部署方式比较 http://dongxic...

Spark面试 80 连击

独孤九剑-Spark面试80连击(上) https://mp.weixin.qq.com/s/i1ZkCbhUM7Dcygvn2CrTSw 独孤九剑-Spark面试80连击(下) https://mp.weixin.qq.com/s/5YhDK0T3JUHySVCW13bv2Q......

2012/12/23 23:15
3.9K
SparkContext 初始化内部原理

如果编写Spark程序,那么第⼀⾏代码就是new SparkContext().setMaster(“”).setAppName(“xx”),可以说SparkContext是整个Spark 计算的启动器,只有将sparkContext 启动起来,后续的关于调 ...

2012/11/12 23:08
523
7个小练习帮你打通SparkCore和SparkSQL编程任督二脉

本文将通过7个简单的小练习,对比示范SparkCore和SparkSQL编程的方法。除了WordCount词频统计这个典型的处理非结构数据的例子外,本文示范的大部分例子中,使用SparkSQL的编程接口都会更加简...

2012/10/26 00:38
3.9K
Spark函数讲解: combineByKey

本文案例来自http://apachesparkbook.blogspot.hk,增删了一些内容,希望有助于理解。

2012/10/11 16:29
495
PySpark on Yarn 的 Python 环境与包依赖解决方式

1、问题 Spark on Yarn是将yarn作为ClusterManager的运行模式,Spark会将资源(container)的管理与协调统一交给yarn去处理。 Spark on Yarn分为client/cluster模式: 对于client模式,Spark...

Spark 源码分析

一、 启动篇 (一) 引子 在spark-shell终端执行 val arr = Array(1,2,3,4) val rdd = sc.makeRDD(arr) rdd.collect 以上3行代码构成了一个完整的spark job执行。 (二) 启动篇 shell模式 shel...

2012/08/24 10:00
351

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部