数据仓库ETL

原创
2017/07/07 10:03
阅读数 190

这边用etl做数据相关工作。etl包括三个部分:ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(Data Warehousing,数据仓库)中去。

分开来讲,Extract其实最困难,Transform最麻烦,Load最容易。

常用的技术架构中,e可以说kafka,t:hadoop mapreduce,spark;l:hive做存储,es,solr做索引。整体集成工具有:Kettle

展开阅读全文
ETL
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部