加载中
编译Apache Atlas 的frontend plugin踩坑

编译Apache Atlas有个比较蛋疼的地方,就是有个叫frontend-maven-plugin 的plugin依赖node.js 和 npm环境。 默认的pom配置,是需要frontend plugin在网上下载的。由于一些不可描述的原因,我...

08/05 09:40
153
Impala的Resource Management

https://docs.cloudera.com/documentation/enterprise/5-8-x/topics/impala_resource_management.html https://blog.csdn.net/silentwolfyh/article/details/83549202 0440-如何启用Impala的...

07/16 16:04
80
Cloudera Manager Service Monitor CPU高企

我的情况跟这篇blog情况几乎相似。 https://www.jianshu.com/p/d2e711862e24 后来查证结果是,由于我们的Cloudera Manager集群使用了Kudu,并对Kudu进行了监控和采集。CDH manager对于Kudu的...

07/03 09:17
67
Debezium日常运维手机

关于Kafka-Connect: (1) 是否可以动态添加已有数据的新表? 不可以,Kafka-Connect需要配置先行。如果是已有数据的新表,无法通过修改已有的kafka-connect配置进行新表的Snapshot初始化。 ...

06/23 11:24
936
Impala常用函数索引

# 增加X自然天 select days_add(now(),2) 字符串转Timestamp select to_timestamp('2019-10-14 20:00:01', 'yyyy-MM-dd HH:mm:ss'); 注意,Impala的timestamp的标准是 ISO 8601 参考:https...

05/27 08:56
79
Kettle 使用Impala遇到plugin id [IMPALASIMBA] couldn't be found!

这个该死的问题查了我整整3天,差点就放弃了。kettle用的人不多,文档也不太全,源码又重又大。 需求是从Impala用SQL读取数据,写入MYSQL。 环境是: pdi-ce-7.0.0.0-25 Linux: CentOS7 连接...

Kafka-Connect Debezium 解决History Topic过大导致启动过慢的问题

解决Kafka-Connect History 数据过大的情况: 由于History存放是表结构变更的数据,而且过期时间为无限,所以时间久了,History的topic会变得非常大。 首先,配置 database.history.store.o...

在Linux上面安装Kudu-python的坑

安装kudu-python包参照官方文档: https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/kudu_development.html To install the Kudu Python client: Update all the packages...

02/11 15:14
351
Kudu与Impala在字符串处理上与其他DB的迥异

Kudu的时间戳类型,在Impala建表上用的是timestamp, 有2个与众不同的地方。 1. 在Kudu里它存的时间戳是纳秒级别,所以你普通的时间戳存进去需要*1000。 2. 另外,Kudu的时间戳里面存的是,U...

2019/12/04 09:37
1.3K
Debezium 采坑2

文档中没有写的一个参数,snapshot.new.tables 可以新增snapshot表 public static final Field SNAPSHOT_NEW_TABLES = Field.create("snapshot.new.tables") ......

2019/11/06 20:49
101
Debezium 采坑系列

Snapshot Reader 有点问题。我们在测试环境测试Snapshot 是OK的。 但是当数据量变大,以及,数据量变多,Snapshot Reader反而 没有达到预期的效果。 因此,我们将同步方案改为三步: 1. 开启...

2019/11/01 14:07
138
Apache Kudu 不能删除不存在的数据

使用Apache Kudu客户端,对KafkaConnect Sink 进行扩展。 使用的Apache Kudu 的Java 客户端。突然有天发现作业无法提交,一直报错。 后来才发现这是Kudu自身的一种校验机制。为了忽略这种校验...

2019/10/23 19:51
233
Debezium接入Mysql遇到到的Tinyint坑

问题背景: 在Debezium做数据初始化的时候,对于一些tinyint字段的值,出现0,1的值的异常。 经过源码排查,数据在JDBC上面,读取到的数据是Boolean值。 通过排查,原来是MYSQL特有的数据问题...

2019/10/22 18:53
371
Debezium 处理 mysql timestamp 的坑

使用Debezium订阅 mysql binlog Debezium对于Timestamp的处理,会变成字符串,处理的核心代码是: ZonedDateTime expectedTimestamp = ZonedDateTime.of( LocalDateTime.parse("2014-09-08T...

2019/08/23 09:17
1.7K
[翻译]Debezium如何处理异常

Debezium 是一个开源CDC工具,基于Confluent的Connect平台开发的。 这里翻译一下,官方文档是怎么描述对于异常处理的。 Debezium是一个分布式的CDC工具,可以集成各种数据库,设计来不会丢失...

2019/07/13 16:51
1K
Azkaban Flow 2.0

都9102年,还用properties配置文件吗?非也非也。 Azkaban flow 2.0使用yaml进行作业配置: 上传的文件夹中,可以包含多个project 的yml配置文件。 Flow YAML File 关于Flow的文件有如下定义...

2019/04/01 19:54
787
Guava中的EventBus

其实代码中经常会遇到跟主流程分支出去的异步逻辑,比如说: 爬虫处理逻辑中,进行心跳打点,订单处理中,需要触发用户的个人信息变更等。 这个时候就应该使用观察者模式。 EventBus是Guava...

2017/03/28 20:33
100
Kafka 入门使用

首先,kafka依赖scala和java8环境,所以安装环境。kafka依赖zookeeper作为集群配置管理服务器。 所以需要安装zookeeper。 这里使用的是kafka 0.10.1 kafka server.properties配置: 配置kaf...

2017/03/27 21:19
119
PostgreSQL优化

我们经常会遇到死锁的表,通过以下命令,可以查询到死锁的表。 PG死锁的一次处理。 --查询阻塞的sql( 死锁了,没有执行通过的sql ) select * from pg_stat_activity aa, ( select a.lockty...

2017/03/27 21:08
147
关于PostgreSQL的 Toast

当一行数据的长度超过4K or 8K(根据配置),就会使用Toast,没办法关闭。 PostgreSQL uses a fixed page size (commonly 8 kB), and does not allow tuples to span multiple pages. 也就是说...

2017/03/27 20:57
738

没有更多内容

加载失败,请刷新页面

返回顶部
顶部