加载中
rocketmq-connect 单机模式和分布式模式部署

rocketmq-connect运行,在运行connect之前,先要部署好rocketmq集群,mq集群的部署这里就先忽略,直接看一下部署好的集群 版本rocketmq-5.1.0 rocketmq服务启动 启动 RocketMQ nohup sh bin/...

模型设计(数据仓库、星型、雪花型、星系模式)

1.数据仓库 数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事...

2022/03/10 14:20
235
kafka生产者

Kafka Producer 就是负责向Kafka 服务端,写入数据的程序。 主要从下面几个方面 发送 分区策略 拦截器 压缩 消息丢失 限流 一.发送过程 要了解发送过程,那么我们要清楚,其实在发送过程中是存...

kafka消费者

一。消息的常用模型 队列模型(queuing)和发布-订阅模型(publish-subscribe) 队列的处理方式是一组消费者从服务器读取消息,一条消息只由其中的一个消费者来处理。 发布-订阅模型中,消息...

kafka架构和常见术语

Kafka是一个分布式系统,易于向外扩展。它同时为发布和订阅提供高吞吐量。它支持多订阅者,当失败时能自动平衡消费者。消息的持久化。 kafka架构 从图上看到主要包含三个组件,producer, con...

2021/12/31 18:43
111
flink rocketmq消费和写入数据

首先我们先来看一下rocketmq的环境搭建,下面我们采用docker来进行 首先我们创建如下目录 mkdir -p rmp/conf mkdir -p rmp/logs mkdir -p rmp/store 下面我们来看一下docker-compose.yaml文件...

flinkx同步es2hive

一.elasticsearch环境准备 elasticsearch 6.4.3 es-head elasticsearch的部署基于docker进行部署 首先我们来看一下目录结构 cd docker mkdir -p es cd es mkdir -p conf mkdir -p data mkdi...

flinkx数据同步

本文会描述如下几部分的数据同步 mysql2mysql mysql2hive flinkx的版本1.12-SNAPSHOT 1.拉取代码 git clone https://github.com/DTStack/flinkx.git 2.编译 mvn clean package -DskipTests=...

hudi同步hive出现错误java.lang.NoSuchMethodError

flink写入hudi,开启自动同步 hudi表结构如下: CREATE TABLE myhive.test.hudi_users2_m_has_s ( id BIGINT PRIMARY KEY NOT ENFORCED, name STRING, birthday TIMESTAMP(3), ts......

flink和hudi集成报io.javalin.core.CachedRequestWrapper.getContentLengthLong()J异常

异常信息如下: http-request java.lang.NoSuchMethodError: io.javalin.core.CachedRequestWrapper.getContentLengthLong()J at io.javalin.core.CachedRequestWrapper.(CachedRequestWrapp...

Flink 状态生存时间(State TTL)设置

为什么状态需要被清理 状态不需要一次存储 状态有效期有时间限制,超过时间需要重置状态(业务上) 开启状态清理: StateTtlConfig ttlConfig = StateTtlConfig .newBuilder(Time.seconds(1...

2021/10/12 15:42
3K
spark sql读取hudi表数据

这篇文章接上一篇spark submit读写hudi,上一篇spark submit写入hudi的数据这里打算通过spark sql来进行查询 这里稍作一些基本配置 1.首先把core-site.xml和hive-site.xml拷贝到spark/conf目录...

spark submit读写hudi

测试数据:hudi官方自带的batch_1.json 环境准备: mysql kafka:kafka_2.13-2.7.0 hadoop:hadoop-2.10.1 hive:hive-2.3.8 4.1.metastore 4.2hiveserver2 导入工具kafkacat 数据导入:cat...

使用Prometheus+Grafana监控Flink on YARN作业

实时作业要保证7 x 24运行,除了要在业务逻辑和编码上下功夫之外,好的监控系统也是必不可少的。Flink支持多种汇报监控指标(metrics)的reporter,如JMX、SLF4J、InfluxDB、Prometheus等。 ...

flink etl

一.Regular Joins(双流join) 这种 join 方式需要去保留两个流的状态,持续性地保留并且不会去做清除。两边的数据对于对方的流都是所有可见的,所以数据就需要持续性的存在state里面,那么 ...

2021/07/09 11:29
300
数据湖

在说数据湖之前,我们还是先来说说数仓技术的前世今生 1.传统 T+1 任务 >海量的 TB 级 T+ 1 任务延迟导致下游数据产出时间不稳定 >任务遇到故障重试恢复代价昂贵 >数据架构在处理去重和 exac...

hbase启动找不到主类

首先来说说遇到的问题 : 错误: 找不到或无法加载主类 .Library.Java.JavaVirtualMachines.jdk1.8.0_291.jdk.Contents.Home.bin.java 下面来看一下配置 //conf/hbase-env.sh export JAVA_HOME...

搭建高可用的flink JobManager HA

JobManager协调每个flink应用的部署,它负责执行定时任务和资源管理。每一个Flink集群都有一个jobManager, 如果jobManager出现问题之后,将不能提交新的任务和运行新任务失败,这样会造成单点...

2021/06/27 19:27
286

没有更多内容

加载失败,请刷新页面

返回顶部
顶部