加载中
Spark 系列教程(1)Word Count

基本概要 Spark 是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架。Spark 在 2009 年诞生于加州大学伯克利分校 AMP 实验室,2010 年开源,2014 年 2月成为 Ap...

2021/09/25 22:33
147
Elasticsearch VS ClickHouse

Clickhouse 是俄罗斯搜索巨头 Yandex 开发的完全列式存储计算的分析型数据库。ClickHouse 在这两年的 OLAP 领域中一直非常热门,国内互联网大厂都有大规模使用。 Elasticsearch 是一个近实时...

CDH 部署教程

CDH 介绍 CDH 全称 Cloudera’s Distribution Including Apache Hadoop,是 Cloudera 公司提供的一个 Apache Hadoop 发行版。CDH 将 Hadoop 与其他十几个关键的开源项目集成,并且加入了集群...

2021/07/08 22:58
219
MapReduce 原理介绍与开发实战

MapReduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发地运行在 Hadoop 集群上。 为什么需要 MapReduce 海量数...

2021/06/26 00:15
213
Pulsar 介绍与部署

Apache Pulsar 是灵活的发布-订阅消息系统(Flexible Pub/Sub messaging),采用计算与存储分离的架构。雅虎在 2013 年开始开发 Pulsar ,于 2016 年首次开源,目前是 Apache 软件基金会的顶...

kafka 连接器实现 Mysql 数据同步 Elasticsearch

为什么需要将 Mysql 数据同步到 Elasticsearch Mysql 作为传统的关系型数据库,主要面向 OLTP,性能优异,支持事务,但是在一些全文检索,复杂查询上面并不快。Elasticsearch 底层基于 Luce...

Kafka 连接器使用与开发

Kafka 连接器介绍 Kafka 连接器通常用来构建数据管道,一般有两种使用场景: 开始和结束的端点:例如,将 Kafka 中的数据导出到 HBase 数据库,或者把 Oracle 数据库中的数据导入 Kafka 中。...

2021/03/18 22:03
253
ksqlDB基本使用

基本概念 ksqlDB Server ksqlDB是事件流数据库,是一种特殊的数据库,基于Kafka的实时数据流处理引擎,提供了强大且易用的SQL交互方式来对Kafka数据流进行处理,而无需编写代码。KSQL具备高扩...

2021/03/06 17:44
1.3K
Kafka监控框架介绍

CMAK CMAK(原Kafka Manager) 是雅虎公司于 2015 年开源的一个 Kafka 监控框架。这个框架用 Scala 语言开发而成,主要用于管理和监控 Kafka 集群。 github地址:https://github.com/yahoo/...

Zookeeper集群搭建

1 集群角色 Zookeeper 集群模式一共有三种类型的角色: Leader: 处理所有的事务请求(写请求),可以处理读请求,集群中只能有一个Leader。 Follower:只能处理读请求,同时作为Leader的候选节点...

2021/01/09 18:00
271

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部