文档章节

Druid集群导入hadoop数据问题

哭哭吓唬你
 哭哭吓唬你
发布于 2017/08/09 16:13
字数 318
阅读 59
收藏 1

与hadoopjar包冲突

Druid java.lang.OutOfMemoryError: unable to create new native thread

解决方案参考:Working with different versions of Hadoop

调整Druid集群所在机器的ulimit
参考:CentOS修改ulimit

io.druid.java.util.common.ISE: Job[class io.druid.indexer.IndexGeneratorJob] failed!

该问题存在两个方面的问题:

  1. druid所用的hadoop版本与hadoop集群的jar包冲突,尤其是CDH版本构建的hadoop集群。

解决方案1. 参考:Working with different versions of Hadoop
在每个数据定义文件中指定: demo:

"tuningConfig" : {
      "type" : "hadoop",
      "partitionsSpec" : {
        "type" : "hashed",
        "targetPartitionSize" : 5000000
      },
      "jobProperties" : {
        "mapreduce.job.classloader": "true",
         "mapreduce.job.classloader.system.classes": "-javax.validation.,java.,javax.,org.apache.commons.logging.,org.apache.log4j.,org.apache.hadoop."
        },
        "ignoreInvalidRows" : true
    }
  }

解决方案2:参考Druid.io 部署&使用文档

druid.indexer.runner.javaOpts=-server -Xmx2g -Duser.timezone=UTC -Dfile.encoding=UTF-8 -Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager -Dhadoop.mapreduce.job.classloader=true
  1. 文件的路径错误。
    在各个节点启动时,其jvm.config中的-Djava.io.tmpdir=/tmp需要一个本地可访问的目录即可。

chmod error : 11

  1. 保证hdfs文件可读;
  2. 保证druid集群账户与hdfs账户一致
  3. 保证hdfs账户目录权限>=755
  4. 保证hdfs宿主机的账户权限>=755(这个好像没用)

数据文件位置

数据文件需要放置在HDFS中

参考

Druid集群配置
druid.io 从本地批(batch)导入数据与从hdfs 批导入数据的index task配置
druid.io问题记录

© 著作权归作者所有

共有 人打赏支持
哭哭吓唬你
粉丝 3
博文 98
码字总数 39471
作品 0
石景山
程序员
EMR Druid 探索(一)

EMR Druid 探索(一) 什么是 Druid、Druid 使用场景 Druid 是 Metamarkets 公司(一家为在线媒体或广告公司提供数据分析服务的公司)推出的一个分布式内存实时分析系统,用于解决如何在大规...

xy_xind
06/01
0
0
EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Ha...

xy_xind
06/01
0
0
druid.io 使用hdfs作为deep storage 不能保存

前提: ---a、首先需要你自己搭建一个hadoop集群,该集群自带hdfs功能。 ---b、第二点在你的druid的集群每一台机器配置hadoop-client。并且需要修改conf,可以直接将hadoop集群的conf目录拷贝...

一只小江
2016/03/23
502
0
Druid:一个用于大数据实时处理的开源分布式系统

引言 Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机...

无寄语
2016/08/31
80
0
刘博宇:Druid在滴滴应用实践及平台化建设

本文根据刘博宇老师在2018年5月11日【第九届中国数据库技术大会】现场演讲内容整理而成。  讲师简介:   刘博宇,滴滴出行高级软件开发工程师,就职于滴滴基础平台大数据架构部。负责Dru...

技术小能手
06/06
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

这些Spring中的设计模式,你都知道吗?

设计模式作为工作学习中的枕边书,却时常处于勤说不用的尴尬境地,也不是我们时常忘记,只是一直没有记忆。 Spring作为业界的经典框架,无论是在架构设计方面,还是在代码编写方面,都堪称行...

Java填坑之路
21分钟前
1
0
Spring Aop原理之Advisor过滤

在上文(Spring Aop之Advisor解析)中我们讲到,Spring Aop对目标bean的代理主要分为三个步骤:获取所有的Advisor,过滤当前bean可应用的Advisor和使用Advisor为当前bean生成代理对象,并且上文...

爱宝贝丶
31分钟前
0
0
JMockit学习教程

1 JMockit中文网 我觉得如果仅仅是开发自测的话,把JMockit中文网认真看一遍,就可以在项目中使用JMockit了。 http://jmockit.cn/index.htm 2 JMockit中文教程 官方文档中文版。对于不喜欢看...

SuperHeroes
43分钟前
0
0
Linux服务器几乎从不采用Arch Linux?

我们见得多的Linux服务器系统一般都是什么Ubuntu Server啊,什么Cent OS啊,什么Fedora啊,或者企业采用的Red Hat啊,为什么几乎没有Arch Linux呢?下面我将从若干个方面指出Arch Linux在服务...

linux-tao
54分钟前
0
0
js 函数柯里化 闭包

参考 https://mp.weixin.qq.com/s/GEHL3jarDdAAcr5tQGjmDg 一个统计求和的函数 需要知道整个数组的信息,然后遍历求值 function countMoney() { let money = 0 // 温馨提示:arguments...

阿豪boy
57分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部