加载中
Streaming SQL在贝壳的演进之路

Streaming SQL在贝壳的演进之路 原文发自公司对外公众号,作者笔名顾渊离,本人,转载请注明出处 背景 实时计算平台是贝壳内部统一承接实时需求和管理实时任务的平台,支持了公司埋点、商机、...

Shuffle过程详解(MapReduce & Spark)

Shuffle过程详解 我们知道目前比较流行的大数据处理流程里,mapreduce是一个非常重要的计算模型,其分为map和reduce过程,而连接这两个过程的shuffle环节,则称为了整个计算模型的核心。其实...

openpyxl 用法

openpyxl 使用 install pip install openpyxl #python2 open && create excel open import openpyxl openpyxl.load_workbook(INPUT_FILE) create from openpyxl import Workbook wb = Workb...

Varints 编码

Varints 编码 Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。 Varint 中的每个字节(最后一个字节除...

openpyxl 用法

openpyxl 使用 install pip install openpyxl #python2 open && create excel open import openpyxl openpyxl.load_workbook(INPUT_FILE) create from openpyxl import Workbook wb = Workb...

jq 用法

jq 用法 jq是linux or mac下的命令行json解析工具,通常用于本地解析一个比较大的json串,较小的直接json.cn就可以了。 初级用法 jq '.code' xxx.json jq '.code' "$RESPONSE_JSON" cat xxx....

记Structured Streaming 2.3.1的OOM排查过程

记Structured Streaming 2.3.1的OOM排查过程 缘起 最近在使用Structured Streaming开发一套自助配置SQL的来生成流式作业的平台,在测试的过程中发现有些作业长时间运行后会有Executor端的OOM...

分布式存储初探

分布式存储初探 缘起 最近公司内部在做dmp服务,目前的方案都是搭建不同的redis集群,将数据灌到redis集群中系统查询服务供线上使用。但是随着数据量的增大以及数据源的多样性,再加上线上服...

Spark 内存管理

Spark 内存管理详解 通常我们讨论的是Executor中的内存管理,自1.6版本后spark的内存分为两个部分, 堆内内存和堆外内存。下面详细针对这两个部分进行详细的介绍。 堆内内存 堆内内存的大小,...

Spark源码阅读——streaming模块作业生成和提交

Spark源码阅读——streaming模块作业生成和提交 通常我们开发spark-streaming都会用到如下代码: val sparkConf = new SparkConf() .set("xxx", "") ... val sc = new SparkContext(sparkCon...

Spark源码阅读——任务提交过程

Spark 源码阅读——任务提交过程 当我们在使用spark编写mr作业是,最后都要涉及到调用reduce,foreach或者是count这类action来触发作业的提交,所以,当我们查看这些方法的源码时,发现底层都...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部