加载中
Eventhub 使用Kafka AdminClient获取Consumer-Group offset

Azure Eventhub的eventhub api是没有lag监控提供的。我们希望通过Eventhub兼容的Kafka协议,进行offset信息的获取: public class EventhubKafkaConsumerAdminDemo { private static final S...

[转] Spark as Service 架构

Spark作为服务使用,方案有:SparkJobServer,Zepplin,Livy,Linkis。 第一:Linkis和zeepelin和Zeppelin的Interpreter再计算引擎部分是有相似之处的,Linkis的作业服务可以完全对Livy和Zep...

编译Apache Atlas 的frontend plugin踩坑

编译Apache Atlas有个比较蛋疼的地方,就是有个叫frontend-maven-plugin 的plugin依赖node.js 和 npm环境。 默认的pom配置,是需要frontend plugin在网上下载的。由于一些不可描述的原因,我...

Impala的Resource Management

https://docs.cloudera.com/documentation/enterprise/5-8-x/topics/impala_resource_management.html https://blog.csdn.net/silentwolfyh/article/details/83549202 0440-如何启用Impala的...

Cloudera Manager Service Monitor CPU高企

我的情况跟这篇blog情况几乎相似。 https://www.jianshu.com/p/d2e711862e24 后来查证结果是,由于我们的Cloudera Manager集群使用了Kudu,并对Kudu进行了监控和采集。CDH manager对于Kudu的...

Impala常用函数索引

# 增加X自然天 select days_add(now(),2) 字符串转Timestamp select to_timestamp('2019-10-14 20:00:01', 'yyyy-MM-dd HH:mm:ss'); 注意,Impala的timestamp的标准是 ISO 8601 参考:https...

Kettle 使用Impala遇到plugin id [IMPALASIMBA] couldn't be found!

这个该死的问题查了我整整3天,差点就放弃了。kettle用的人不多,文档也不太全,源码又重又大。 需求是从Impala用SQL读取数据,写入MYSQL。 环境是: pdi-ce-7.0.0.0-25 Linux: CentOS7 连接...

Kudu与Impala在字符串处理上与其他DB的迥异

Kudu的时间戳类型,在Impala建表上用的是timestamp, 有2个与众不同的地方。 1. 在Kudu里它存的时间戳是纳秒级别,所以你普通的时间戳存进去需要*1000。 2. 另外,Kudu的时间戳里面存的是,U...

Debezium 采坑2

文档中没有写的一个参数,snapshot.new.tables 可以新增snapshot表 public static final Field SNAPSHOT_NEW_TABLES = Field.create("snapshot.new.tables") ......

2019/11/06 20:49
2K
Debezium 采坑系列

Snapshot Reader 有点问题。我们在测试环境测试Snapshot 是OK的。 但是当数据量变大,以及,数据量变多,Snapshot Reader反而 没有达到预期的效果。 因此,我们将同步方案改为三步: 1. 开启...

Apache Kudu 不能删除不存在的数据

使用Apache Kudu客户端,对KafkaConnect Sink 进行扩展。 使用的Apache Kudu 的Java 客户端。突然有天发现作业无法提交,一直报错。 后来才发现这是Kudu自身的一种校验机制。为了忽略这种校验...

Azkaban Flow 2.0

都9102年,还用properties配置文件吗?非也非也。 Azkaban flow 2.0使用yaml进行作业配置: 上传的文件夹中,可以包含多个project 的yml配置文件。 Flow YAML File 关于Flow的文件有如下定义...

mysql 数据库分区

mysql , oracle 的分区表按照range分区,是强制按照顺序创建的。 否则就会报错:Error : VALUES LESS THAN value must be strictly increasing for each partition 比如说你创建201510分区,...

phantomjs 远程debug

debug教程源自Phantomjs Coock book 关于phantomjs http://phantomjs.org/ PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种W...

OSX下安装PyQt

因为要测试qtWebkit,所以我需要安装qt。 安装qt是个麻烦的工作,因为你还需要做一些编译,并不能像pip 或者brew那样简单地完成任务。 首先,你在mac上面需要安装qt,官网的qt安装包并不好用...

python 编码问题

Python 没什么不好,就是编码问题太坑爹。 只要遇到中文,就会有这个问题。尤其是python2.7 python3 已经统一变成unicode了。 解决方法,需要反复实验如下2个: sys   (sys)  sys.setde...

[转]一致性哈希

转载请说明出处:http://blog.csdn.net/cywosp/article/details/23397179 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Ho...

你真的会SQL吗?关于SQL的join和on之间的区别

写了那么多年的SQL,居然发现自己写的是错的,实在是惭愧不已。还好没出什么问题。 于是,决定痛定思痛,纠正自己对SQL的错误认识。 我们有一个SQL: SELECT sys.Netbios_Name0 as [Comp...

HDFS Java文件API示例

Java的HDFS Api使用简例: public class HDFSJavaAPIDemo {   public static void main(String[] args) throws IOException {     Configuration conf = new Configuration(); ...

2014/02/14 14:38
2.2K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部