文档章节

Kettle 与 Talend Open Studio 的 ETL 比较

ychenETL
 ychenETL
发布于 2011/06/13 18:33
字数 1238
阅读 5287
收藏 13

      Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。通过非常直观的图形化编辑器(Spoon),您可以定义以XML格式储存的流程。在Kettle运行过程中,这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte),数据库存储库(repository)(Kitchen)或者直接使用IDE(Spoon)。

      Talend Open Studio是 Talend 开发的ETL工具——Talend 是一家主营数据集成和数据管理解决方案的企业。Talend 采用用户友好型,综合性很强的IDE(类似于Pentaho Kettle 的 Spoon)来设计不同的流程。这些流程可以在IDE内部测试并编译成Java 代码。您可以随时查看并编辑生成的Java代码,同时实现强大的控制力和灵活性。

      两者都非常优秀,都属于用户友好型的交叉平台(基于Java的)工具。它们的主要差异在于Kettle 将 ELT 流程编译为 XML 格式,然而Talend Open Studio 则生成 Java 代码。

 

学习曲线、易用性以及文档

      Pentaho Kettle 和 Talend Open Studio 都是用户友好型工具。它们都拥有优秀的数据和数据库管理背景(JDBC,SQL,文件格式化,编程基础,等等),成为高产能的工具指日可待。

      Kettle 和 Talend 都提供图形化工具使工作更加简便快捷。这些工具可以帮助您迅速设计并测试出可靠的 ETL 流程。

      Pentaho Kettle 学起来十分简单,但与 Talend 的产品相比功能略少。Talend Open Studio 更难掌握,但是一旦您熟悉的它的 IDE,您就可以享受到这个工具强大的灵活与效力。使用 Talend Open Studio 的一个要求是正确定义您要处理的数据的 schema,在这个工程中,它的 IDE 大有助益。而在这一点上,Kettle 限制更少,因此您可以更快地建立起流程来。而且定义元数据对 Talend 来说是一个重要的功能,因为这会帮助您在生产环境中做出更可靠的流程。

      Talend Open Studio 和 Pentaho Kettle 都是用户友好型,拥有丰富文档和强大社区支持的产品。只不过 Talend Open Studio 需要您投入稍大的精力来熟悉。但是,一旦您入门了,您就可以享受到这个工具的强大和潜力。

 

可靠、成熟、技术支持

      Talend 和 Pentaho 都有强大的社区支持,而且都是强大、知名的的企业。开源商务智能是不断发展,而实际使用中的应用程序正变得越来越相同。
      在这个背景下,Talend 和 Pentaho 都提供了它们的开源 ETL 工具,并得到了广泛地使用。它们在实际使用中发展,同商用软件一样以任务为功能实现的核心。
      Talend 更专注于数据集成和数据管理解决方案(当然,现在还要加上 SOA),然而 Pentaho 主要集中于商务智能。Talend Open Studio 得到了 Talend 非常活跃地开发,而且该公司已经建立了一个丰富的数据集成生态系统,而 Kettle 是 Pentaho 的一个重要项目,只是比起 Talend 的产品,开发与扩展方面还稍逊一筹。

      Pentaho 和 Talend 的解决方案都非常可靠,成熟,而且发展迅速。实际运用中两者实现的功能有所趋同。经由订阅您可以获得支持服务,也可以按照需求取得直接的咨询服务。

组件、技术与功能

      Talend Open Studio 是基于 Eclipse 的 Java 工具。您在图形化编辑器中设计的流程可以使用 Java 语言编译。此时,您可以轻松地使用 Java 全部的生态系统
      Talend Open Studio 的组件种类和具有的功能非常丰富,既有通用工具,也有专用工具。在通用工具中,Talend 配备了一套 RDBMS 组件,通过它们您很快就可以掌握某个特定 DB 厂商的高级功能。您可以将用到的定义储存在多个不同的存储库(repository)中,从而在项目发展中使用这些定义。
      Pentaho Data Integration (Kettle) 使用 Java (Swing)开发。Kettle 作为编译器对 XML 格式书写的流程进行编译。这些功能和组件比起 Talend 在丰富性方面稍逊一些,但是您建立复杂 ETL 流程需要的一切元素。Kettle 的 JavaScript 引擎(和 Java 引擎)可以深层地控制对数据的处理。
      Talend 功能更加丰富,比起 Kettle 拥有更加灵活的技术特点。通过 Talend,您可以轻松地使用完整的 Java 生态和一些DB厂商提供的专用的DB功能。Kettle 工具也很优秀,同时更加专注于 ETL 功能。

© 著作权归作者所有

ychenETL
粉丝 34
博文 31
码字总数 11572
作品 0
法国
私信 提问
Talend Open Studio 5.5.0 发布,ETL 工具

Talend Open Studio 5.5.0 发布了,包括多个产品: Talend Open Studio for Data Quality 5.5.0 Talend Open Studio for Data Integration 5.5.0 Talend Open Studio for ESB 5.5.0 Talend ......

oschina
2014/06/06
4.6K
1
Talend Open Studio for MDM 5.4.1 发布

Talend Open Studio for MDM 5.4.1 发布,此版本添加了很多新特性和修复了很多 bugs。 Talend Open Studio 是一个 ETL (Extract, Transform, and Load) 工具,可执行数据仓库到数据库之间的数...

oschina
2013/12/19
885
0
Talend Open Studio for ESB 5.3.0 M1/5.1.3

Talend Open Studio for ESB 今天发布两个新版本,分别是 5.3.0 M1 和 5.1.3。官网上还没有关于这两个版本的改进说明。 下载地址:http://www.talend.com/download/esb (选择 Other Releases...

oschina
2013/01/25
845
0
Talend Open Studio for MDM 5.4.0 发布

Talend Open Studio for MDM (Master Data Management) 5.4.0 包含新特性和 bug 修复。 Talend Open Studio 是一个 ETL (Extract, Transform, and Load) 工具,可执行数据仓库到数据库之间的......

oschina
2013/10/30
748
1
开源ETL工具:Talend系列

Talend Open Studio(拓蓝开放工作室) Talend的旗舰产品,Talend Open Studio,提供了迄今市场上最为开放,最具效力并最有创造力的数据集成方案。 拥有一个多功能合一,即装即用的应用平台,...

ychenETL
2010/03/10
3.4K
0

没有更多内容

加载失败,请刷新页面

加载更多

lua web快速开发指南(7) - 高效的接口调用 - httpc库

httpc库基于cf框架都内部实现的socket编写的http client库. httpc库内置SSL支持, 在不使用代理的情况下就可以请求第三方接口. httpc支持header、args、body、timeout请求设置, 完美支持各种h...

水果糖的小铺子
51分钟前
3
0
通过四道常问面试题,带你了解什么是数据库分库分表

编者语:为了避免被误解为:「手里有把锤子,看什么都是钉子!」,说明一下不是什么业务都适合分布式数据库,更不是用了分布式数据库性能就一定能得到扩展。 其次:本文为纯干货,建议先转发...

老道士
今天
5
0
springmvc 整体流程

<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR......

architect刘源源
今天
3
0
磁盘管理

先来看两个查看的命令 查看磁盘使用情况df 用法:df, df -h, df -m, df -k 查看目录或文件大小 用法:du -sh, du -sm, du -s(默认以k为单位) 新加一块盘如何操作 步骤:分区(可选)--> 格...

wzb88
今天
3
0
在 Linux 下确认 NTP 是否同步的方法

NTP 意即网络时间协议Network Time Protocol,它通过网络同步计算机系统之间的时钟。NTP 服务器可以使组织中的所有服务器保持同步,以准确时间执行基于时间的作业。NTP 客户端会将其时钟与 ...

Linux就该这么学
今天
11
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部