文档章节

Apache Flink介绍

huxihx
 huxihx
发布于 2017/05/22 10:43
字数 741
阅读 270
收藏 0

Flink:开源分布式流式处理框架

基本特性

  • 提供准确的结果,即使是面对无序或延迟数据
  • 有状态的且容错,可无缝恢复,且能维持精确一次处理语义
  • 运行在大规模多节点上,有很好的TPS和延时性能

    很多Flink特性——状态管理,无序数据处理和灵活的时间窗口都是用于实现无限数据集上的精确结果计算,当然也可以用于有限数据集上的计算。

  • 确保精确一次的处理语义用于状态计算,有状态意味着应用可以持续维护数据的聚合或汇总。Checkpointing机制确保精确一次
  • Flink支持流式处理和窗口化(基于event time)。使用event time可以很容易地得到准确的计算结果,即使事件是无序到达或是延迟到达
  • Flink支持灵活的时间窗口,可以基于时间、数量或会话以及数据驱动的时间窗口。
  • 轻量级的容错方案,允许系统维护高TPS并提供精确一次的处理语义。0数据丢失
  • 高TPS,低延时
  • Savepoint机制提供状态版本化,可以更新应用或重新处理历史数据而不造成状态丢失或停机
  • 旨在运行于大规模集群之上,节点数可达上千。同时也支持单机运行。另外Flink还支持YARN和Mesos

    Flink提供了两套API:DataStrem和DataSet,分别用于处理无限数据集和有限数据集。在Flink中,一个有限数据集被视为无限数据集的一个特例,这样就可以使用一套流式概念来处理所有的数据集。DataSet API就是这样的思想,有限数据集在Flink内部就是被当做一个有限流被处理的。总之就是一套模型衍生出两套API分别处理两种数据集合类型

Flink架构

部署模式: 可运行于云平台或普通集群环境,可由YARN或Mesos调度和管理

运行时:Flink core是一个分布式流数据流引擎,每次只处理一条事件,而不是以批的方式处理

API: 

  •     DataStream API——实现数据流转化
  • DataSet API——实现数据集合上的转化
  • Table API —— 类SQL,可集成进DataStream或DataSet
  • Streaming SQL——在流上执行SQL查询,语法类似于Apache Calcite

库:提供了很多特定用途的库,比如CEP,机器学习,图像处理以及与Storm的集成

使用场景

1 优化电子商务网站实时查询结果

2 流式处理

3 网络/传感器监控和错误检测

4 企业数据挖掘ETL

Flink程序构成

  • 数据源:提供输入数据
  • 转换:处理步骤,修改输入
  • 数据输出Sink:Flink发送处理后的数据

© 著作权归作者所有

huxihx
粉丝 1
博文 18
码字总数 30674
作品 0
东城
程序员
私信 提问
《从0到1学习Flink》目录

1、《从0到1学习Flink》—— Apache Flink 介绍 2、《从0到1学习Flink》—— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门 3、《从0到1学习Flink》—— Flink 配置文件详解 4、《从0...

火力全開
03/18
170
0
Apache Flink China Meetup · 北京站

时间:2019.06.29(周六) 10:00-18:00 地址:北京朝阳 望京浦项中心大楼b座二层W1多功能厅 报名链接:https://www.huodongxing.com/event/9492578872100 嘉宾信息 议题一:《Apache Flink 1....

apache_flink
06/06
0
0
Apache Flink 漫谈系列 - 序

Who 本人 孙金城,淘宝花名"金竹",阿里巴巴高级技术专家,Apache Flink Committer。目前就职于阿里巴巴计算平台事业部,自2015年以来一直投入于基于Apache Flink的新一代大数据计算平台Bli...

金竹
2018/11/08
0
0
Apache Flink Meetup · 北京站活动预告,直播预约开启!

时间:2019.06.29(周六) 10:00-18:00 地点:北京朝阳 望京浦项中心大楼b座二层W1多功能厅 直播现已开放预约,点此进入:https://developer.aliyun.com/live/1120 活动流程 直播预约 演讲标题...

地町
06/21
0
0
Apache Flink meetup ·北京站

活动时间:2019年6月29日 10:00 ~ 2019年6月29日 18:00 活动地点:北京朝阳 望京浦项中心大楼b座二层W1多功能厅 嘉宾介绍 演讲标题:《Apache Flink 1.9 特性解读》 戴资力(Gordon Tai) ...

Flink_China
06/03
33
0

没有更多内容

加载失败,请刷新页面

加载更多

OSChina 周日乱弹 —— 我,小小编辑,食人族酋长

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @宇辰OSC :分享娃娃的单曲《飘洋过海来看你》: #今日歌曲推荐# 《飘洋过海来看你》- 娃娃 手机党少年们想听歌,请使劲儿戳(这里) @宇辰OSC...

小小编辑
今天
462
10
MongoDB系列-- SpringBoot 中对 MongoDB 的 基本操作

SpringBoot 中对 MongoDB 的 基本操作 Database 库的创建 首先 在MongoDB 操作客户端 Robo 3T 中 创建数据库: 增加用户User: 创建 Collections 集合(类似mysql 中的 表): 后面我们大部分都...

TcWong
今天
17
0
spring cloud

一、从面试题入手 1.1、什么事微服务 1.2、微服务之间如何独立通讯的 1.3、springCloud和Dubbo有哪些区别 1.通信机制:DUbbo基于RPC远程过程调用;微服务cloud基于http restFUL API 1.4、spr...

榴莲黑芝麻糊
今天
8
0
Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
昨天
21
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
昨天
23
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部