文档章节

Druid集群导入hadoop数据问题

哭哭吓唬你
 哭哭吓唬你
发布于 2017/08/09 16:13
字数 318
阅读 115
收藏 1

与hadoopjar包冲突

Druid java.lang.OutOfMemoryError: unable to create new native thread

解决方案参考:Working with different versions of Hadoop

调整Druid集群所在机器的ulimit
参考:CentOS修改ulimit

io.druid.java.util.common.ISE: Job[class io.druid.indexer.IndexGeneratorJob] failed!

该问题存在两个方面的问题:

  1. druid所用的hadoop版本与hadoop集群的jar包冲突,尤其是CDH版本构建的hadoop集群。

解决方案1. 参考:Working with different versions of Hadoop
在每个数据定义文件中指定: demo:

"tuningConfig" : {
      "type" : "hadoop",
      "partitionsSpec" : {
        "type" : "hashed",
        "targetPartitionSize" : 5000000
      },
      "jobProperties" : {
        "mapreduce.job.classloader": "true",
         "mapreduce.job.classloader.system.classes": "-javax.validation.,java.,javax.,org.apache.commons.logging.,org.apache.log4j.,org.apache.hadoop."
        },
        "ignoreInvalidRows" : true
    }
  }

解决方案2:参考Druid.io 部署&使用文档

druid.indexer.runner.javaOpts=-server -Xmx2g -Duser.timezone=UTC -Dfile.encoding=UTF-8 -Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager -Dhadoop.mapreduce.job.classloader=true
  1. 文件的路径错误。
    在各个节点启动时,其jvm.config中的-Djava.io.tmpdir=/tmp需要一个本地可访问的目录即可。

chmod error : 11

  1. 保证hdfs文件可读;
  2. 保证druid集群账户与hdfs账户一致
  3. 保证hdfs账户目录权限>=755
  4. 保证hdfs宿主机的账户权限>=755(这个好像没用)

数据文件位置

数据文件需要放置在HDFS中

参考

Druid集群配置
druid.io 从本地批(batch)导入数据与从hdfs 批导入数据的index task配置
druid.io问题记录

© 著作权归作者所有

共有 人打赏支持
哭哭吓唬你
粉丝 3
博文 99
码字总数 39553
作品 0
石景山
程序员
私信 提问
EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Ha...

xy_xind
06/01
0
0
EMR Druid 探索(一)

EMR Druid 探索(一) 什么是 Druid、Druid 使用场景 Druid 是 Metamarkets 公司(一家为在线媒体或广告公司提供数据分析服务的公司)推出的一个分布式内存实时分析系统,用于解决如何在大规...

xy_xind
06/01
0
0
刘博宇:Druid在滴滴应用实践及平台化建设

本文根据刘博宇老师在2018年5月11日【第九届中国数据库技术大会】现场演讲内容整理而成。  讲师简介:   刘博宇,滴滴出行高级软件开发工程师,就职于滴滴基础平台大数据架构部。负责Dru...

技术小能手
06/06
0
0
Druid:一个用于大数据实时处理的开源分布式系统

引言 Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机...

无寄语
2016/08/31
80
0
druid.io 从本地批(batch)导入数据与从hdfs 批导入数据的index task配置

先搭建几个节点:coordinator、historical、overlord、middleManager。并且启动服务。 前提:需要准备好mysql(http://my.oschina.net/u/2460844/blog/637334 该文中说明了mysql的配置)、h...

一只小江
2016/03/29
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

深入解析react关于事件绑定this的四种方式

这篇文章主要介绍了详解react关于事件绑定this的四种方式,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下。如有不足之处,欢迎批评指正。 在react组件中,每个方...

前端攻城小牛
8分钟前
1
0
JS正则表达式

url的正则表达式:包括IP,域名(domain),ftp,二级域名,域名中的文件,域名加上端口!用户名等等信息 `function` `IsURL(str_url) {``var` `strRegex =``"^((https|http|ftp|rtsp|mm...

前端小攻略
13分钟前
1
0
shell习题_2

find /root/ceshi1/ -type f -name "*.txt"|xargs -i mv {} {}.bak find /root/ceshi1/ -type f -name "*.txt" -exec mv {} {}.bak \; 1、批量修改文件名: n1=`echo $f|sed '#.bak##'` [ro......

芬野de博客
14分钟前
1
0
JavaScript面向对象的程序设计相关知识小结

面向对象的语言有一个标志,即拥有类的概念,抽象实例对象的公共属性与方法,基于类可以创建任意多个实例对象,一般具有封装、继承、多态的特性!但JS中对象与纯面向对象语言中的对象是不同的...

peakedness丶
18分钟前
1
0
教你React Native使用fetch实现图片上传

这篇文章主要介绍了详解react关于事件绑定this的四种方式,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下。如有不足之处,欢迎批评指正。 在react组件中,每个方...

前端攻城老湿
19分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部