加载中
算法——水塘抽样 reservoirSample

简介 reservoir的作用是:**在不知道文件总行数的情况下,如何从文件中随机的抽取一行?**即是说如果最后发现文字档共有N行,则每一行被抽取的概率均为1/N? 我们可以:定义取出的行号为cho...

spark——sparkCore源码解析之RangePartitioner

HashPartitioner分区可能导致每个分区中数据量的不均匀。而RangePartitioner分区则尽量保证每个分区中数据量的均匀,将一定范围内的数映射到某一个分区内。分区与分区之间数据是有序的,但分...

12/12 17:26
9
Spak—— sparkCore源码解析之RangePartitioner源码

   分区过程概览 RangePartitioner分区执行原理: 计算总体的数据抽样大小sampleSize,计算规则是:至少每个分区抽取20个数据或者最多1M的数据量。 根据sampleSize和分区数量计算每个分区的...

sparkCore-RDD详解

1.1 什么是RDD 1.1.1 产生背景 当初设计RDD主要是为了解决三个问题: Fast:Spark之前的Hadoop用的是MapReduce的编程模型,没有很好的利用分布式内存系统,中间结果都需要保存到external disk...

Spark_Streaming源码解析之概览

sparkStreaming源码思维脑图: 脑图详解: 此博文共分为四个部分: DAG定义 Job动态生成 数据的产生与导入 容错 脑图制作参考

12/07 16:50
4
Spark——Streaming源码解析之数据的产生与导入

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

Spark——Streaming源码解析之容错

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

12/07 11:54
2
Spark——Streaming源码解析之Job动态生成

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

Spark——Streaming源码解析之DAG定义

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

BitMap的JAVA实现

相关概念 基础类型 在java中: byte -> 8 bits -->1字节 char -> 16 bit -->2字节 short -> 16 bits -->2字节 int -> 32 bits -->4字节 float -> 32 bits -->4字节 long -> 64 bits -->8字节...

11/21 10:12
16
sparkStreaming基本概念

概述 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 Kafka, Flume, Kinesis 以及 TCP sockets, 也可以通过...

Spark 闭包中的闭包

Spark 闭包中ClosureCleaner操作 在Scala,函数是第一等公民,可以作为参数的值传给相应的rdd转换和动作,进而进行迭代处理。 阅读spark源码,我们发现,spark对我们所传入的所有闭包函数都做...

11/19 15:23
18
spark自动引包

how to research spark自动引包 spark不自动引包 spark怎样自动引包 how auto import idea只会自动加载类的引用,spark中的算子,如when,col等函数时,并不会自动import pageckage路径,可能...

11/08 17:31
4
session analysis rdd graph

可用typora打开此图 按条件过滤 graph TD A[Mysql<br>Hive]-->|sqlContext|B[actionRDD<br>JavaRDD<Row>] B-->|mapToPair|C[session2ActionRDD<br>JavaPairRdd<String,Row>] C-->|mapTo...

11/06 19:27
9
在idea中访问spark集群报错

通过spark-submit或者idea中提交jar包报错 18/09/28 09:41:52 ERROR TaskSchedulerImpl:Exiting due to error from cluster scheduler: All masters are unresponsive! Giving up. 问题原因 ...

YARN 内存参数详解

yarn组件依赖关系 yarn主要由两部分组成,ResourceManager和NodeManger。NodeManager里面包含多个Container,每个Container里可以运行多个task,比如MapTask和ReduceTask等。ApplicationMast...

09/28 16:20
25
spark on yarn

spark on yarn 软件安装 当前环境 hadoop环境搭建参考:hadoop集群安装 hadoop2.6 spark-2.2.0-bin-hadoop2.6.tgz scala-2.11.12 安装scala tar -zxvf scala-2.11.12.tgz vi /etc/profile 添...

sbt配置——数据源问题解决

sbt安装 环境 java 1.8 scala 2.12.6 sbt 1.2.1 idea2.18.3 软件 idea sbt插件 idea scala插件 sbt安装包 https://sbt-downloads.cdnedge.bluemix.net/releases/v1.2.1/sbt-1.2.1.msi,非必须...

坑儿——[error] Not a valid key: idea-shell

在安装sbt时报以下错误 Listening for transport dt_socket at address: 56558 [info] Loading project definition from E:\data\gitee\sbt-test\project [info] Loading settings for proj...

solr入门——solr基础及常用查询

1.solr介绍 1.1 solr是什么 Solr是构建在Apache的Lucene之上独立的企业级搜索应用服务器。对外提供类似REST风格的Web Services,用户可以通过http请求发送指定格式文件到Solr服务器生成索引、...

09/07 10:31
34

没有更多内容

加载失败,请刷新页面

返回顶部
顶部