文档章节

第一章:Kafka介绍

ifnoelse
 ifnoelse
发布于 2014/11/14 03:58
字数 921
阅读 69
收藏 0

        欢迎来到Kafka的世界

        当今世界,应用程序(商业、社会、或者其他类型)不断的产生实时数据,这些数据需要通过简单的方式快速可靠的传送给各种接收者。大多数时候,这些信息的生产者与消费者彼此独立不能互相访问。有时候这一点导致需要重建信息的生产者或者消费者,用以在他们之间建立一个集成点。因此,需要一种机制,能把信息的生产者与消费者无缝的集成起来,以避免在应用程序另一端任何形式的重写。

        在当前大数据时代,第一个重大的挑战是收集这些海量数据,第二挑战是分析这些数据,这些分析通常包括以下等类型的数据。

    • 用户行为数据

    • 应用程序性能跟踪

    • 实时日志数据

    • 事件消息

  消息发布是一种在消息传递的帮助下连接各种应用程序的机制,通过一个消息代理,比如kafka,将大量实时数据快速路由到多个消费者,Kafka提供了一种生产者与消费者之间的无缝集成机制,既不需要阻塞生产者产生消息,也不需要让生产者知道谁是消费者

        Apache Kafka是一个开源的分布式消息发布订阅系统,主要的设计特点如下:

    • 持久化消息:要获取大数据的真正意义,任何类型的数据都不能丢失。Apache Kafka被设计成,存储大量消息数据,甚至TB级时,性能仍是常数时间O(1)

    • 高吞吐量:

    • 分布式:Apache Kafka在Kafka服务器上支持消息分区,并且向一组消费者发送消息时能够保证消息语义的顺序。

    • 多个客户端支持Apache Kafka系统可以非常简单的与其他不同平台整合,比如Java, .NET, PHP, Ruby, 和 Python。

    • 实时:由生产者线程产生的消息应该立刻被消费者线程看见,这对于基于事件驱动的系统,例如复杂事件处理系统(CEP),是至关重要的特性。

        Kafka提供了一个实时的发布-订阅解决方案,克服了数据量在以数量级增长的情况下实时数据的使用,Kafka同样支持在Hadoop系统中数据的平行加载。

        下图展示了一个基于Kafka消息系统的典型数据统计分析系统解决方案:

        

        在生产端有各种不同的生产者,比如以下:

    • 前端web应用程序生成的日志

    • 生产者商代理生成web分析日志

    • 生产者适配器生产的转换日志

    • 生产者服务生产的调用跟踪日志

    在消费端有各种不同的消费者,比如以下:

    • 离线消费者,在hadoop或者传统的数据仓库中使用或存储消息

    • 近似实时消费者,在NoSQL数据库中,比如:HBase或Cassandra,使用或存储消息以供实时分析

    • 实时消费者,在内存数据库过滤消息并触发后续组件相关事件

    Kafka的必要性

    大量数据由具有基于网络呈现与活动的公司生产,数据是这些基于互联网的系统的新材料之一,通常包括用户活动事件,对应有登陆、页面浏览、点击、社交网络活动(例如:喜欢、分享和评论)和操作及系统指标。

© 著作权归作者所有

共有 人打赏支持
ifnoelse
粉丝 0
博文 19
码字总数 3630
作品 0
朝阳
程序员
私信 提问
写给大数据开发初学者的话 | 附教程

导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来...

小数点
2017/12/07
0
0
深入掌握大数据Kafka的使用(基于Python开发)-张明阳-专题视频课程

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a2011480169/article/details/83583785 深入掌握大数据Kafka的使用(基于Python开发)—3人已学习 课程介绍 ...

安静的技术控
10/29
0
0
写给大数据开发初学者:如何读懂大数据平台

  其实这就是想告诉你的大数据的三个发展方向,平台搭建 优化 运维 监控、大数据开发 设计 架构、数据分析 挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。   本文将从以下十个章节介...

大数据头条
2017/12/26
0
0
干货满满,腾讯云+社区技术沙龙 Kafka Meetup 深圳站圆满结束

云加社区技术沙龙 发表于腾讯云技术沙龙订阅 56 干货满满,腾讯云+社区技术沙龙 Kafka Meetup 深圳站圆满结束 云+导语:4月22日,由腾讯云和 Kafka 社区主办、开源中国协办的腾讯云+社区技术...

腾讯云加社区
04/25
0
0
写给大数据开发初学者的话 附教程

  其实这就是想告诉你的大数据的三个发展方向,平台搭建 优化 运维 监控、大数据开发 设计 架构、数据分析 挖掘。请不要问我哪个容易,哪个前景好,哪个钱多    导读:   第一章:初识...

大数据头条
2017/12/11
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Rotate Array(leetCode189)

Given an array, rotate the array to the right by k steps, where k is non-negative. Example 1: Input: [1,2,3,4,5,6,7] and k = 3Output: [5,6,7,1,2,3,4]Explanation:rotate 1 s......

woshixin
15分钟前
0
0
给女朋友讲解什么是Optional【JDK 8特性】

前言 只有光头才能变强 前两天带女朋友去图书馆了,随手就给她来了一本《与孩子一起学编程》的书,于是今天就给女朋友讲解一下什么是Optional类。 至于她能不能看懂,那肯定是看不懂的。(学到...

Java3y
35分钟前
1
0
2019年六大新兴信息安全方向

导读 黑客攻击和网络犯罪的威胁正在不断升级,相应的技术“军备竞赛”正愈演愈烈,对于信息安全从业人员来说,掌握最新的信息安全工具,是在信息安全战争中生存下来的关键所在。 从特朗普的手...

问题终结者
42分钟前
1
0
redis扩展-自定义PropertyPlaceholderConfigurer,在spring属性注入之前,手动将properteis合并到spring容器中

背景:spring容器启动过程中,通过PropertyPlaceholderConfigurer读取properties配置文件,并将properties配置文件中的值注入spring bean的属性中, PropertyPlaceholderConfigurer使用方式多...

燃犀
44分钟前
0
0
PostgreSQL SPI 中的错误处理

PostgreSQL SPI 用于在 C 或是其他编程语言编写的扩展函数(存储过程)中调用数据库本身的解析器、规划器和执行器的功能,以及对 SQL 语句进行执行。 在最重要的一个函数 SPI_execute 的文档...

helloclia
45分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部