文档章节

Druid集群导入hadoop数据问题

哭哭吓唬你
 哭哭吓唬你
发布于 2017/08/09 16:13
字数 318
阅读 248
收藏 1

与hadoopjar包冲突

Druid java.lang.OutOfMemoryError: unable to create new native thread

解决方案参考:Working with different versions of Hadoop

调整Druid集群所在机器的ulimit
参考:CentOS修改ulimit

io.druid.java.util.common.ISE: Job[class io.druid.indexer.IndexGeneratorJob] failed!

该问题存在两个方面的问题:

  1. druid所用的hadoop版本与hadoop集群的jar包冲突,尤其是CDH版本构建的hadoop集群。

解决方案1. 参考:Working with different versions of Hadoop
在每个数据定义文件中指定: demo:

"tuningConfig" : {
      "type" : "hadoop",
      "partitionsSpec" : {
        "type" : "hashed",
        "targetPartitionSize" : 5000000
      },
      "jobProperties" : {
        "mapreduce.job.classloader": "true",
         "mapreduce.job.classloader.system.classes": "-javax.validation.,java.,javax.,org.apache.commons.logging.,org.apache.log4j.,org.apache.hadoop."
        },
        "ignoreInvalidRows" : true
    }
  }

解决方案2:参考Druid.io 部署&使用文档

druid.indexer.runner.javaOpts=-server -Xmx2g -Duser.timezone=UTC -Dfile.encoding=UTF-8 -Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager -Dhadoop.mapreduce.job.classloader=true
  1. 文件的路径错误。
    在各个节点启动时,其jvm.config中的-Djava.io.tmpdir=/tmp需要一个本地可访问的目录即可。

chmod error : 11

  1. 保证hdfs文件可读;
  2. 保证druid集群账户与hdfs账户一致
  3. 保证hdfs账户目录权限>=755
  4. 保证hdfs宿主机的账户权限>=755(这个好像没用)

数据文件位置

数据文件需要放置在HDFS中

参考

Druid集群配置
druid.io 从本地批(batch)导入数据与从hdfs 批导入数据的index task配置
druid.io问题记录

© 著作权归作者所有

哭哭吓唬你
粉丝 4
博文 102
码字总数 40621
作品 0
石景山
程序员
私信 提问
加载中

评论(0)

Druid.io系列(一):简介

原文链接: https://blog.csdn.net/njpjsoftdev/article/details/52955676 Druid.io(以下简称Druid)是面向海量数据的、用于实时查询与分析的OLAP存储系统。Druid的四大关键特性总结如下: ...

osc_a9fd007s
2018/06/11
7
0
apache druid 迁移过程(hdfs)insert-segment-to-db

背景 由于公司内部调整,apahce druid 集群需迁移。深度存储的路径也需要调整。 迁移hdfs中的文件 这个我们有专门的人员迁移的,具体操作不详。应该就是借助工具,在hdfs中进行 segements的迁...

潘鸿
2019/04/26
181
0
druid等 olap框架对比分析

简介 Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。 架构 整体架构 Druid集群包含不同类型的节点,而每...

hblt-j
2019/01/24
960
0
Druid.io系列(六):问题总结

原文地址: https://blog.csdn.net/njpjsoftdev/article/details/52956508 我们在生产环境中使用Druid也遇到了很多问题,通过阅读官网文档、源码以及社区提问解决或部分解决了很多问题,现将...

osc_a9fd007s
2018/06/11
5
0
【干货】一文理解Druid原理架构(时序数据库,不是ali的数据库连接池)

Druid.io(以下简称Druid)是2013年底开源出来的, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。 Druid简介: Druid是一个为在大数...

osc_yny7gjj7
2018/09/04
2
0

没有更多内容

加载失败,请刷新页面

加载更多

Python基础-04元组

4.元组     元组的主要特性为: 1.元组在创建之后,具有不可以更改的特性,因此不能直接给元组的元素赋值 2.元组的元素类型可以为任意类型,如字典、字符串、列表等 3.元组常用于在程序的整...

osc_b2jll5m6
49分钟前
22
0
怎么在流程图中插入超链接?迅捷画图带你两步解决!

怎么在流程图中插入超链接?如何在WORD中插入超链接很多人都知道,但是对于陌生的流程图,很多人在进行流程图展示和讲解的时候,都会选择提前将需要的网页打开,然后手动进行更换。 这种手动...

真不莲
49分钟前
19
0
直播中音视频处理的一般流程

数据采集→数据编码→数据传输(流媒体服务器) →解码数据→播放显示 1、数据采集: 摄像机及拾音器收集视频及音频数据,此时得到的为原始数据 涉及技术或协议: 摄像机:CCD、CMOS 拾音器:声...

图玩智能科技
50分钟前
27
0
IntelliJ中的main函数和System.out.println()快捷键

https://blog.csdn.net/shijiebei2009/article/details/44726433

诗书易经
51分钟前
19
0
python 数据可视化实战(1)折线图绘制

  本篇博客新开一个数据分析后的数据可视化的例子讲解,每一篇博客是一个例子。   这节课学习如何绘制一个折线图。题目如下:   代码如下: import matplotlib.pyplot as pltimport m...

osc_xdc1vjza
51分钟前
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部