加载中
Spark Parquet file split

在实际使用 spark + parquet 的时候, 遇到了两个不解的地方: 我们只有一个 parquet 文件(小于 hdfs block size), 但是 spark 在某个 stage 生成了4个 tasks 来处理. 4个 tasks 中只有一个 ta...

2018/10/22 23:19
657
Spark DateType cast 踩坑

前言 在平时的 Spark 处理中常常会有把一个如 2012-12-12 这样的 date 类型转换成一个 long 的 Unix time 然后进行计算的需求.下面是一段示例代码: val schema = StructType( Array( StructF...

2018/07/04 11:35
1K
Go Concurrency 实战

前言 本文先介绍了goroutine的原理,懂了原理之后,goroutine也就没有那么的神秘了.接下来介绍了goroutine的使用.最后介绍了一些goalng并发常用的模式. goroutine实现基础 Go直接在语言里内置了...

Callback与coroutine 协程概念说明

小谈阻塞非阻塞 阻塞非阻塞概念都是对于线程, 进程这种粒度来说的, 因为只有他们才是内核有感知的, 协程是你内核无感知, 是你用户自己实现的. 例如在 Golang 中, resp, err := client.Do(re...

2017/05/21 17:08
1K
七周七并发之线程与锁

七周七并发之线程与锁

2016/08/03 15:13
6.4K
Maven 依赖 install

基础 首先明确: mvn install 出来的 jar 包只会包含自己的 src 的 classes. 即使你是 compile 的依赖, 也不会进去, 但是如果打成 war 包, 是会包含 compile scope 的依赖的. 而 provided 是要...

2018/11/08 17:07
24
Linux 初养成

Shell !$ : 代表上条命令的最后一个参数. ssh-copy-id -i ~/.ssh/id_rsa.pub root@host: 快速与root@host建立免密连接 lsof -i :7070 | awk 'NR==2 {print $2}' | xargs kill -9 : 杀死占用端...

Spark Catalyst 的实现分析

Spark Catalyst 的实现分析 转载自:Spark Catalyst 的实现分析 Spark SQL 和 Catalyst 分别对应了 SQL 执行期以及解析期的优化工作,因此 Catalyst 的理解是 Spark SQL 的第一步。在一些 Ca...

2018/07/24 16:25
187
SQL优化:Merge Join vs. Hash Join vs. Nested Loop

本文转发自技术世界,原文链接 http://www.jasongj.com/2015/03/07/Join1/ Nested Loop,Hash Join,Merge Join介绍 Nested Loop: 对于被连接的数据子集较小的情况,Nested Loop是个较好的选...

2018/03/04 13:35
42
高性能服务器架构思路

在服务器端程序开发领域,性能问题一直是备受关注的重点。业界有大量的框架、组件、类库都是以性能为卖点而广为人知。然而,服务器端程序在性能问题上应该有何种基本思路,这个却很少被这些项...

2017/05/21 17:17
70
并发之痛 Thread,Goroutine,Actor

聊这个话题之前,先梳理下两个概念,几乎所有讲并发的文章都要先讲这两个概念: 并发(concurrency) 并发的关注点在于任务切分。举例来说,你是一个创业公司的CEO,开始只有你一个人,你一人...

2017/05/21 17:13
92
HTTP 代理原理和实现

代理的核心功能可以用一句话概括:接受客户端的请求,转发到后端服务器,获得应答之后返回给客户端。下图是 《HTTP 权威指南》一书中给出的图例,可以很清晰地说明这一流程: 代理的功能有很...

2017/05/21 17:04
834
高性能Web Server思考

0xFF Web服务可以让你在HTTP协议的基础上通过XML或者JSON来交换信息。 醍醐灌顶!!! 你可以编写一段简短的代码,通过抓取这些信息然后通过标准的接口开放出来,就如同你调用一个本地函数并返回...

Java并发编程的艺术-底层并发与基础

1.概述 上下文切换,创建锁,都很消耗资源 强烈建议多使用JDK并发包提供的并发容器和工具类来解决并发问题 上下文切换 使用vmstat可以测量上下文切换的次数 如何减少上下文切换? 无锁并发编程...

2017/05/21 16:58
316
NGINX引入线程池 性能提升9倍(很好的介绍)

1. 引言 正如我们所知,NGINX采用了异步、事件驱动的方法来处理连接。这种处理方式无需(像使用传统架构的服务器一样)为每个请求创建额外的专用进程或者线程,而是在一个工作进程中处理多个...

Go transport 剖析

使用golang net/http库发送http请求,最后都是调用 transport的 RoundTrip方法 type RoundTripper interface { RoundTrip(*Request) (*Response, error) } RoundTrip executes a singl...

2017/05/21 16:46
71
Elixir-基础

0. 写在前面 编程时应该关注数据装换 用类和对象思考问题:类定义了行为,实例保存着状态.开发者构造类层次结构,为问题建模.OOP的时候,我们考虑的是状态,调用对象的方法和向某个对象传递其他对...

2017/05/21 16:28
73
直通BAT算法精讲10元优惠码 ANMj7Nq

直通BAT算法精讲10元优惠码 ANMj7Nq

2016/09/27 09:21
30
Java虚拟机精讲之内存分配与垃圾回收

1 线程共享内存区 Java堆区 用于存储Java对象实例,但是不一定是Java对象内存分配的唯一选择(为了降低GC频率).在JVM启动的时候大小就已经设定好了.(-Xmx最大 -Xms起始) 超过最大内存的时候,抛...

2016/09/22 19:41
1K
服务端工程师入门与进阶 Java 版

前言 尽量用google查找技术资料。 有问题在stackoverflow找找,大部分都已经有人回答。 多看官方的技术文档。 ibm developerworkers的文章质量整体上有保障。 平时花一些时间在github上阅读优...

2016/08/05 18:23
124

没有更多内容

加载失败,请刷新页面

返回顶部
顶部