文档章节

Apache Beam 综述

侯法超
 侯法超
发布于 2017/01/18 17:42
字数 561
阅读 338
收藏 1

原文链接:http://blog.geekidentity.com/beam/apache_beam_overview/

Apache Beam 综述

Apache Beam 是一个开源的统一编程模型,您可以使用它来创建数据处理管道pipeline。 你首先要构建一个程序,使用一个开源的Beam SDK定义管道。 然后,pipeline 由Beam支持的分布式处理后端之一执行,包括Apache Apex,Apache Flink,Apache Spark和Google Cloud Dataflow。

Beam对于尴尬的并行数据处理任务特别有用,其中问题可以分解为可以独立和并行处理的许多较小的数据束。 您还可以使用Beam 进行提取,变换和加载(ETL)任务和纯数据集成。 这些任务对于在不同存储介质和数据源之间移动数据,将数据转换为更理想的格式或将数据加载到新系统上是有用的。

 

Apache Beam SDKs

Beam SDK 提供了统一的编程模型,可以表示和变换任何大小的数据集,无论输入是来自批处理数据源的有限数据集还是来自流数据源的无限数据集。 Beam SDK使用相同的类来表示有界和无界数据,并且相同的转换操作该数据。 您使用您选择的Beam SDK构建一个定义数据处理管道的程序。

Beam目前支持以下特定语言的SDK:

语言

SDK状态

Java 积极开发中
Python 即将来临
其他 待定

Apache Beam Pipeline Runners (Beam管道运行器)

Beam 管道运行器将您用Beam程序定义的数据处理管道转换为与您选择的分布式处理后端兼容的API。 当您运行Beam程序时,您需要为要执行管道的后端指定适当的运行程序。

Beam目前支持使用以下分布式处理后端的Runners:

Runner

Status

Apache Apex 开发中
Apache Flink 开发中
Apache Spark 开发中
Google Cloud Dataflow 开发中

注意:您也可以在本地执行pipeline 以进行测试和调试。

开始 Apache Beam

开始为您的数据处理任务使用Beam。

  1. 学习Java SDK或Python SDK的快速入门。
  2. 有关介绍SDK的各种功能的示例,请参阅WordCount示例演练。

© 著作权归作者所有

侯法超
粉丝 154
博文 57
码字总数 105341
作品 0
大兴
程序员
私信 提问
Apache Beam 0.5.0 发布,大数据批处理和流处理标准

Apache Beam 0.5.0 发布了,Apache Beam 是 Google 在2016年2月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,...

王练
2017/02/10
1K
0
Apache Beam 2.0 发布,首个稳定版本

Apache Beam在官方博客上正式发布了Beam 2.0.0。这是Beam有史以来的第一个稳定版本,根据Beam社区的声明,Beam意欲为未来版本发布保持API的稳定性,并让Beam适用于企业的部署。 Beam的第一个...

李玉珏
2017/05/20
2.4K
1
Apache Beam的架构概览

 Apache Beam是一个开源的数据处理编程库,由Google贡献给Apache的项目,前不久刚刚成为Apache TLP项目。它提供了一个高级的、统一的编程模型,允许我们通过构建Pipeline的方式实现批量、流...

xiaomin0322
05/31
34
0
Apache Beam 0.6.0,大数据批处理和流处理标准

Apache Beam 0.6.0 发布了,该版本为 Python 编程语言引入了一个新的 SDK。 此外,该版本为 Apache HBase 在 Java SDK 中添加了一个新的 IO 链接器,以及一些常见的错误修复和改进。 最后,还...

局长
2017/03/18
940
0
Apache 基金会宣布 Apache Beam 成为顶级项目

1月10日,Apache 软件基金会宣布,Apache Beam 已经成功地从孵化毕业,成为基金会的一个新的顶级项目。 Apache Beam 是 Google 在2016年2月份贡献给 Apache 基金会孵化的项目。项目的名称表明...

王练
2017/01/12
3.5K
1

没有更多内容

加载失败,请刷新页面

加载更多

Executor线程池原理与源码解读

线程池为线程生命周期的开销和资源不足问题提供了解决方 案。通过对多个任务重用线程,线程创建的开销被分摊到了多个任务上。 线程实现方式 Thread、Runnable、Callable //实现Runnable接口的...

小强的进阶之路
8分钟前
1
0
maven 环境隔离

解决问题 即 在 resource 文件夹下面 ,新增对应的资源配置文件夹,对应 开发,测试,生产的不同的配置内容 <resources> <resource> <directory>src/main/resources.${deplo......

之渊
今天
8
0
详解箭头函数和普通函数的区别以及箭头函数的注意事项、不适用场景

箭头函数是ES6的API,相信很多人都知道,因为其语法上相对于普通函数更简洁,深受大家的喜爱。就是这种我们日常开发中一直在使用的API,大部分同学却对它的了解程度还是不够深... 普通函数和...

OBKoro1
今天
4
0
轻量级 HTTP(s) 代理 TinyProxy

CentOS 下安装 TinyProxy yum install -y tinyproxy 启动、停止、重启 # 启动service tinyproxy start# 停止service tinyproxy stop# 重启service tinyproxy restart 相关配置 默认...

Anoyi
今天
0
0
Linux创建yum仓库

第一步、搞定自己的光盘 #创建文件夹 mkdir -p /media/cdrom #挂载光盘 mount /dev/cdrom /media/cdrom #编辑配置文件使其永久生效 vim /etc/fstab 第二步,编辑yun源 vim /ect yum.repos.d...

究极小怪兽zzz
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部