加载中
【设计模式专题】Singleton

单例模式,是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例的特殊类。通过单例模式可以保证系统中,应用该模式的类一个类只有一个实例。即一个类只有一个对象实例。 饿汉式...

2018/09/27 12:05
18
【袋鼠云内推】杭州-高级java开发-3~5以及5年以上

袋鼠云是杭州玳数科技有限公司旗下品牌,成立于2016年,是一家由多名前阿里巴巴资深技术人士创立的技术服务公司,主要业务聚焦大数据使用场景研发,深耕DI(Data Intelligence数据智能)领域,...

2.微服务架构组件分析

该系列文章来源于 学习《极客时间——从0开始学习微服务》分享之后笔记载录和读后感。 作者胡忠想,微博技术专家。 从 2012 年加入微博到现在,从 2012 年加入微博到现在,我一直在做微博首页...

Linux专题_shell脚本

创建目录/tmp/dir-当前日期时间;例如/tmp/dir-20150707-155503;在此目录中创建10个空文件,分别为file1-file10。 #!/bin/bash baseurl=/tmp/dir-date +"%Y%m%d-%H%M%S" mkdir -p $baseur...

Linux专题_行编辑

使用date当读获取系统当前的年份、月份、日、小时、分钟、秒,请设置系统时间和硬件时间一直 date +'%Y-%m-%d %H:%M:%S' date -s "2016-09-03 21:20:00" clock -w date clock 如何显示“The...

1.微服务基本概念

该系列文章来源于 学习《极客时间——从0开始学习微服务》分享之后笔记载录和读后感。 作者胡忠想,微博技术专家。 从 2012 年加入微博到现在,从 2012 年加入微博到现在,我一直在做微博首页...

【设计模式专题】设计模式关系与设计原则

23种经典设计模式 设计模式六大原则 开闭原则(Open Close Principle):对扩展开放,对修改关闭。 里氏代换原则(Liskov Substitution Principle):任何基类可以出现的地方,子类一定可以出现。...

2018/03/19 16:02
16
troubleshooting 解决算子函数返回NULL导致问题

在算子函数中,返回null return actionRDD.mapToPair(new PairFunction<Row, String, Row>() {     private static final long serialVersionUID = 1L;                  @...

2016/10/30 17:48
57
troubleshooting 解决各种序列化导致的错误

你会看到什么样的序列化导致的报错? 用client模式去提交spark作业,观察本地打印出来的log。如果出现了类似于Serializable、Serialize等等字眼,报错的log,那么恭喜大家,就碰到了序列化问...

2016/10/30 17:44
43
troubleshooting 解决yarn-cluster模式的JVM栈内存溢出问题

公司里面你的机器节点一般都是虚拟机啊!所以yarn-client会有网络激增的问题!Yarn-client模式可以跑,但是Yarn-cluster模式不能跑,就是报那么一个JVM永久代溢出的那么一个问题! spark-su...

2016/10/30 17:38
265
troubleshooting 错误的持久化方式以及checkpoint的使用

来说下CheckPoint,有时候它对故障会产生效果,它最起效果的时候是什么时候呢?如果缓存BlockManager会根据你的缓存策略去把数据存到内存或者磁盘!持久化,大多数时候,都是会正常工作的。但...

2016/10/30 17:29
29
troubleshooting yarn-client模式导致的网卡流量激增问题

很多公司都是通过Yarn来进行调度,mapreduce on yarn、spark on yarn、甚至storm on yarn。 Yarn集群分成两种节点: ResourceManager负责资源的调度; NodeManager负责资源的分配、应用程序执...

2016/10/30 17:21
64
troubleshooting shuffle reduce端缓冲大小以避免OOM

shuffle reduce 端工作原理(省略,各种博客有讲解,而且都很详细!!!) reduce端默认buffer大小是48MB,spark的shuffle和MR的shuffle绝对是不一样的!!! 场景: map端的task是不断的输出...

2016/10/30 17:03
83
troubleshooting JVM GC导致的shuffle文件拉取失败

executor的JVM进程,可能内存不是很够用了。那么此时可能就会执行GC。minor GC or full GC。总之一旦发生了JVM之后,就会导致executor内,所有的工作线程全部停止,比如BlockManager,基于n...

2016/10/30 16:55
38
spark-kryo序列化(spark优化点)

以我的经验来看啊,这个kryo序列化并没有对性能优化产生决定性的影响啊,虽然包括官网都在大力的推崇这个,实际上这个东西性能的提升肯定有!但不是决定性作用的!

2016/10/29 19:14
798
spark-JVM调优原理

性能调优 常规性能调优:分配资源、并行度。。。等 JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都可以的话,JVM通常不会造成太严重的性能问题;...

2016/10/29 18:55
481
spark-数据本地性

场景: Spark在Driver上,对Application的每一个stage的task,进行分配之前,都会计算出每个task要计算的是哪个分片数据,RDD的某个partition;Spark的task分配算法,优先,会希望每个task正...

2016/10/29 18:30
411
spark-调节executor堆外内存

spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存,所以使用了堆外内存!

2016/10/29 16:03
1K
spark-shuffle调优

Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shu...

2016/10/29 15:45
131
spark-性能调优

分配更多资源!性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了;分配完你所能分配的最大资,然后对应你的资源调节你程序的并行度;默认情况下,多次对一个RDD执行算子,去获...

2016/10/29 11:03
100

没有更多内容

加载失败,请刷新页面

返回顶部
顶部