加载中
如何处理Canal集群Server切换&表DDL变化造成的binlog无法解析问题

点击蓝色字关注! 本篇文章大概3976字,阅读时间大约10分钟 Canal集群在启用HA的情况下,如果配置了tsdb为内嵌的H2数据库,在Server宕机发生切换的情况下,同时MySQL的DDL发生变化,容易造成...

2020/11/20 06:00
225
如何使用kafka-eagle-2.0.2管理Kafka集群

点击蓝色字关注! 本篇文章大概2537字,阅读时间大约13分钟 Kafka产线环境需要管理的Topic和Consumser越来越多,使用命令行工具进行管理会非常繁杂。因此,大数据平台上需要一套Kafka的管理监...

2020/10/23 06:00
614
如何将Flink应用的日志发送到kafka

点击蓝色字关注! 本篇文章大概4833字,阅读时间大约13分钟 产线环境上的Flink应用是长时运行的应用,日志量较大,通过flink web页面查看任务日志会导致浏览器卡死,通过日志排查问题非常不便...

2020/09/09 06:00
219
如何使用Canal同步MySQL的Binlog到Kafka

点击蓝色字关注! 本篇文章大概5525字,阅读时间大约15分钟 Canal是阿里开源的增量解析MySQL binlog组件。通过将binlog投递到kafka,一方面可以直接进行指标计算。另一方面,可以减轻夜间离线...

Flume拦截器实现按照事件时间接入HDFS

点击上方蓝字关注我吧! 本篇文章大概6457字,阅读时间大约17分钟 Flume作为一个数据接入组件,广泛应用于Hadoop生态中。在业务时间混乱的情况下,按照机器数据在HDFS上分区会降低ETL的效率。...

如何在CDH5.16.2中部署Apache Dolphin Scheduler 1.2.0

Apache Dolphin Scheduler 组件介绍 分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 官网 : https://dolp...

Dolphin Scheduler 1.2.1部署参数分析

组件介绍 Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 官网: https:...

SparkSql读取hive表tblproperties异常

1 问题描述 集群环境 sparksql读取Parquet 格式的hive表报错 hive的parquet表,hive和impala读取正常,使用spark-sql读取则报错 异常信息 com.fasterxml.jackson.core.JsonParseException: U...

Dolphin Scheduler 1.2.0 部署参数分析

1 组件介绍 Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 官网 https:...

如何在CDH5.16.2中安装Python Impyla

文档编写目的 整理CDH5中安装Impyla的步骤 集群环境 CDH5.16.2 anaconda3 python3.7 组件介绍 Impyla:适用于分布式查询引擎的HiveServer2实现(例如Impala,Hive)的Python客户端。 Impyla...

Dolphin Scheduler秒级别工作流异常处理

1 组件介绍 Apache Dolphin Scheduler是一个分布式易扩展 的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 官网: http...

Dolphin Scheduler 1.1.0升级1.2.0避坑指南

1 组件介绍 Apache Dolphin Scheduler是一个分布式易扩展 的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 官网 https:...

Impala负载均衡异常处理

1 背景介绍 文档编写目的 记录Impala的负载均衡踩坑记录 Hue配置Impala的负载均衡 Java应用将Impala作为查询引擎 环境介绍 CDH5.16.2 HA-proxy实现impala的负载均衡 为什么impala需要负载均衡...

2020/04/27 14:50
598
Prometheus监控工具安装部署

1 组件介绍 Prometheus是一个开放性的监控解决方案,其灵感来自于Google的Borgmon,于2016年5月继k8s后加入CNCF基金会。Prometheus具备易于管理,高效,可扩展,易集成的特点。详细介绍见官网...

Grafana安装部署

1 Grafana安装部署 Prometheus+Grafana=监控全家桶 Grafana支持Cloudera Manager数据源,因此可以搞一波把大数据集群中各种组件的监控都做到Grafana上。同时,Grafana提供了对Prometheus的完...

Prometheus监控Kafka

1 背景介绍 大数据组件中,Kafka使用非常广泛。而提及Kafka的监控,历来都是个头疼的事情,Kafka的开源社区在监控框架上并没有投入太多的精力。(Cloudera倒是有一个关于Kafka独立的产品Clo...

Flume - Error while trying to hflushOrSync异常处理

文档编写目的 记录Flume的Error while trying to hflushOrSync异常处理流程 集群环境 CDH5.16.2 1 问题描述 业务场景 采用Flume消费Kafka的一个topic下沉到HDFS目录,作为一个Hive的外部表 ...

DolphinScheduler-1.3.0-dev新功能尝鲜

1 DolphinScheduler是什么 Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中...

从0-1搭建DolphinScheduler开发环境

1 文档编写目的 记录从0-1搭建DolphinScheduler开发环境的过程(mac) 便于更多有意愿贡献ds的老铁搭建开发环境参与贡献 2 所需前置条件 需要安装好-jdk maven mysql nvm github链接:https...

从0-1搭建Spark本地开发环境(idea)

1 文档编写目的 记录spark本地开发环境的搭建过程 环境依赖 操作系统 mac os idea scala 2.11.12 spark2.4.0 - 根据集群版本选择 jdk 2 Scala-2.11.12安装 下载连接 https://www.scala-lang...

2020/06/13 06:00
65

没有更多内容

加载失败,请刷新页面

返回顶部
顶部