加载中
pycharm pyspark 配置

1 、安装了pycharm,下载spark(官网下载,我下的是spark-2.1.1-bin-hadoop2.7.tgz,解压缩后为文件夹spark-2.1.1-bin-hadoop2.7,我将文件放在了/Applications/spark/下,这个文件夹里面有p...

2018/05/09 20:30
271
spark内存管理

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理...

2018/05/16 15:19
23
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。 ...

2017/06/19 18:40
162
spark资源分配

1、分配哪些资源? executor、core per executor、memory per executor、driver memory 2、在哪里分配这些资源? 在我们在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调...

2018/05/16 15:01
74
spark并行度

1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并...

01/10 11:22
24
DataSet数据集在使用sql()时,无法使用map,flatMap等转换算子的解决办法

摘要 我们在使用spark的一个流程是:利用spark.sql()函数把数据读入到内存形成DataSet[Row](DataFrame)由于Row是新的spark数据集中无法实现自动的编码,需要对这个数据集进行编码,才能利用...

spark ui说明

sparkstreaming ui 图一 第一行(标记为 [A])展示了Streaming应用程序当前的状态;在这个例子中,应用已经以1秒的批处理间隔运行了将近40分钟;在它下面是输入速率(Input rate)的时间轴(标记为 ...

2018/05/15 21:32
22
zeppelin 配置 spark

修改zeppelin 配置文件 在zeppelin-env.sh中添加spark路径和hadoop配置文件路径 export SPARK_HOME=/usr/lib/spark export HADOOP_CONF_DIR=/usr/lib/hadoop 修改spark interpreter参数 mast...

2018/09/11 10:56
392
spark hive python依赖第三方包

下载python对应版本源代码,https://www.python.org/downloads/source/ 构建过程: # 下载 wget https://www.python.org/ftp/python/2.7.9/Python-2.7.9.tgz tar -zxvf Python-2.7.9.tgz cd ...

spark 读取hbase

HBase api方式读取hbase import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.ha...

spark报错java.long.Exception……org.codehaus.commons.compiler.CompileException: File 'generated.java'

报错信息 java.util.concurrent.ExecutionException: java.lang.Exception: failed to compile: org.codehaus.commons.compiler.CompileException: File 'generated.java', Line 61, Column ...

spark数据本地化

1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality Levels 分为以下五个级别: PROCESS_LOCAL NODE_LOCAL NO_PREF RACK_LOCAL ANY PR...

01/10 11:15
3
SparkTask未序列化问题

为了执行作业,Spark将RDD操作的处理分解为tasks,每个task由Executor执行。在执行之前,Spark会计算task的闭包。闭包是Executor在RDD上进行计算的时候必须可见的那些变量和方法(在这种情况...

2017/02/07 10:40
62
presto 架构

presto 介绍 是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎 是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏ ⽀持任意数据源(通过扩展式Connect...

2018/09/19 12:14
143
spark combineByKey

查看源代码会发现combineByKey定义如下: def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C) : RDD[(K, C)] = { combineByKey(c...

2018/05/02 21:52
90
spark运行模式

spark运行模式

2016/02/18 16:41
92
flink 反压

流处理系统需要能优雅地处理反压(backpressure)问题。反压通常产生于这样的场景:短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压,例如,垃圾回收停...

2017/10/31 15:05
146
spark ui 监控

spark ui 监控

2016/02/19 09:05
636
windows eclipse 搭建spark开发环境

1、Java下Spark开发环境搭建 1.1、jdk安装 安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.7.0_79”,视自己安装路劲而定。...

2016/10/26 16:12
242
spark架构详解

spark架构详解

2016/02/18 15:27
1K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部