加载中
spark处理大量小文件

spark core处理小文件 在sparkContext的api中,有HadoopFile相关api,可以定义自己的InputFormat。原理跟MapReduce处理小文件一样,参考之前博客:newAPIHadoopFile。除了复写InputFormat之外...

2016/05/25 16:38
1.2W
hive调优之 order/sort/distribute/cluster by

首先理解他们的概念 一、order by 参考:hive中的Order By order by a是在一个reduce中按a排序,order by a limit 10也是在一个reduce中排序,取10个。 这种方式如果碰到数据量大的话,就会很...

2016/05/24 09:47
713
FileSystem.get从缓存cache中获得连接导致的问题

FileSystem.get从缓存cache中获得连接,导致Filesystem closed,DFSClient.checkOpen,多线程方法FileSystem之后,close报错等等问题。 源码很重要,查看源码便知道的清清楚楚了。多线程使用...

2016/05/03 14:06
1.2W
spark提交任务:java.net.UnknownHostException: cluster1

在HDFS HA中,提交spark任务时,提示:java.net.UnknownHostException: cluster1

2016/05/03 10:33
1.7W

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部