加载中
Streaming SQL在贝壳的演进之路

Streaming SQL在贝壳的演进之路 原文发自公司对外公众号,作者笔名顾渊离,本人,转载请注明出处 背景 实时计算平台是贝壳内部统一承接实时需求和管理实时任务的平台,支持了公司埋点、商机、...

2020/04/20 22:04
9.4K
Shuffle过程详解(MapReduce & Spark)

Shuffle过程详解 我们知道目前比较流行的大数据处理流程里,mapreduce是一个非常重要的计算模型,其分为map和reduce过程,而连接这两个过程的shuffle环节,则称为了整个计算模型的核心。其实...

02/21 16:59
29
Spark源码阅读——Task的提交和调度分配

Spark源码阅读——Task的提交和调度分配 标签(空格分隔): spark task调度 本篇我们详细讲解TaskSchedulerImpl类的resourceOffers方法。 首先提一下,还记得我们在提交任务时,调用链中会调...

02/21 16:56
16
openpyxl 用法

openpyxl 使用 install pip install openpyxl #python2 open && create excel open import openpyxl openpyxl.load_workbook(INPUT_FILE) create from openpyxl import Workbook wb = Workb...

02/21 16:42
67
Varints 编码

Varints 编码 Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。 Varint 中的每个字节(最后一个字节除...

2021/11/08 17:46
1.5K
openpyxl 用法

openpyxl 使用 install pip install openpyxl #python2 open && create excel open import openpyxl openpyxl.load_workbook(INPUT_FILE) create from openpyxl import Workbook wb = Workb...

2021/10/12 15:31
97
细说sychronized关键字

sychronized用法 修饰代码段 public class Test { Object lock = new Object(); int i = 0; public void f() { sychronized (lock) { i++; } } } 适用于方法体比较大或者耗时,但需要同步的代...

2021/04/08 11:17
82
Java "锁"事

锁的类型 锁的类型从不同的角度看,主要分为以下几种 悲观锁、乐观锁 阻塞、非阻塞、自旋锁 公平、非公平 可重入、不可重入 共享锁、排他锁 悲观锁和乐观锁 悲观锁 悲观锁认为自己在使用数据...

2021/04/07 16:12
70
【转】讲HDFS租约的,比较清晰

链接:http://lday.me/2020/01/28/0024_hdfs_lease_internal/ 侵删

2020/12/02 11:24
60
Spark源码阅读——DirectInputDStream

Spark源码分析——DirectInputDStream 在Spark-Streaming中,对流的抽象是使用DStream来定义的,想要理解Spark-Streaming的流处理模型,深入了解DStream是很有必要的。 DStream 我们在定义一...

2019/01/30 13:51
575
记Structured Streaming 2.3.1的OOM排查过程

记Structured Streaming 2.3.1的OOM排查过程 缘起 最近在使用Structured Streaming开发一套自助配置SQL的来生成流式作业的平台,在测试的过程中发现有些作业长时间运行后会有Executor端的OOM...

分布式存储初探

分布式存储初探 缘起 最近公司内部在做dmp服务,目前的方案都是搭建不同的redis集群,将数据灌到redis集群中系统查询服务供线上使用。但是随着数据量的增大以及数据源的多样性,再加上线上服...

Spark 内存管理

Spark 内存管理详解 通常我们讨论的是Executor中的内存管理,自1.6版本后spark的内存分为两个部分, 堆内内存和堆外内存。下面详细针对这两个部分进行详细的介绍。 堆内内存 堆内内存的大小,...

2018/04/02 17:49
1.1K
Spark源码阅读——streaming模块作业生成和提交

Spark源码阅读——streaming模块作业生成和提交 通常我们开发spark-streaming都会用到如下代码: val sparkConf = new SparkConf() .set("xxx", "") ... val sc = new SparkContext(sparkCon...

2018/03/28 18:28
441
Spark源码阅读——任务提交过程

Spark 源码阅读——任务提交过程 当我们在使用spark编写mr作业是,最后都要涉及到调用reduce,foreach或者是count这类action来触发作业的提交,所以,当我们查看这些方法的源码时,发现底层都...

2018/03/28 13:49
2K
DRF资源分配算法

DRF算法 最近在看yarn的一些东西,看到DRF的时候特别纠结为什么第一个选的是B,查了一些资料,尼玛全是从书上扒下来的,千篇一律,没有任何参考价值。后来从mesos的一篇文章中看到,原来第一...

2017/07/25 19:28
2.5K
使用hashmap优化压缩Redis内存使用

使用hashmap优化压缩Redis内存使用 背景 近来公司内部dsp架构升级,需要能够根据请求中的设备id实时的获取到该设备的用户画像相关信息,于是选用每天使用离线任务把用户数据灌入redis里面,供...

2017/05/11 17:50
6.2K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部