文档章节

阿里巴巴资深大数据工程师:大数据处理实践

董黎明
 董黎明
发布于 01/12 21:04
字数 722
阅读 12
收藏 0

本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群722680258每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。


来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群199427210每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。

 

大数据处理和分布式技术

一.大数据处理

 

 

二.MapReduce

 

 

三.飞天和Maxcompute

 

 

四.盘古

 

 

伍.伏羲

 

 

六.Maxcompute SQL

 

阿里巴巴资深大数据工程师:大数据处理实践

 

七,案例分析

 

 

如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。

 

 

执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。

 

 

Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub

,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。

 

 

在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理

综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:

现代大数据处理使用大规模分布式系统搭建的廉价集群。
大数据处理系统不是单一系统,通常是分层的设计。
飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统

© 著作权归作者所有

共有 人打赏支持
董黎明
粉丝 18
博文 148
码字总数 333719
作品 0
深圳
私信 提问
DB&DI 数据智能技术研讨沙龙(杭州站)

活动主题:DB&DI 数据智能技术研讨沙龙(杭州站) 活动时间:2017年8月12日(周六全天09:00—18:00) 活动地点:杭州市下城区庆春路48号五洋宾馆16楼海涛厅 会议地点咨询电话:18557515566 主...

DBGeeK社群
2017/07/24
12
0
“明湖论剑”互联网技术大会暨2017J plus年终盛典

廿三日,冬至。每年这个时候,在明湖畔都会有一场属于技术人的盛典...今年,依照惯例如期而至,精选六大话题,一线与本土大咖的交织,为你呈上一份精彩的技术盛宴。 大会官网:https://www.l...

缪斯的情人
2017/12/01
24
1
Flink China社区线下 Meetup·上海站-实时计算,大有可为

7月29日 13:00-17:30,上海市杨浦区政学路77号INNOSPACE,等的就是你~ 出品人:Apache Flink Committer/阿里巴巴资深技术专家王绍翾 演讲嘉宾:阿里巴巴产品专家陈守元、携程技术中心大数据资...

Flink
2018/07/10
0
0
干货满满的大数据技术沙龙来了

豪华讲师阵容,大牛云集,云栖线下沙龙大数据专场即将开启,为你揭秘大数据与人工智能技术的最佳实践,2月24日邀您到现场,与大牛面对面。https://yq.aliyun.com/promotion/154 大数据和人工...

阿里云官方博客
2017/02/23
385
1
WWC-TalkingData专题沙龙:智能数据时代探秘

数据的积累与人工智能的发展长久以来一直互相促进,相辅相成。现在,数据已经不仅仅只是“大”,它还变得更加“智能”,深刻影响到社会的方方面面,改变了我们的生活方式、提升了我们的学习能...

TalkingData
2017/06/21
26
0

没有更多内容

加载失败,请刷新页面

加载更多

zookeeper和HBASE总结

zookeeper快速上手 zookeeper的基本功能和应用场景 zookeeper的整体运行机制 zookeeper的数据存储机制 数据存储形式 zookeeper中对用户的数据采用kv形式存储 只是zk有点特别: key:是以路径...

瑞查德-Jack
46分钟前
1
0
Oracle 查询时间在当天的数据

要实现这个功能需要用到trunc这个函数对时间的操作select trunc(sysdate) from dual --2014-12-27 今天的日期为2014-12-27select trunc(sysdate, 'mm') from dual --2014-12-1 ......

覃光林
48分钟前
1
0
阿里技术专家详解 Dubbo 实践,演进及未来规划

作者:曹胜利 链接:https://www.infoq.cn/article/IwZCAp3jo_H5fJFbWOZu?utm_source=tuicool&utm_medium=referral Dubbo 整体介绍 Dubbo 是一款高性能,轻量级的 Java RPC 框架。虽然它是以...

Java干货分享
51分钟前
1
0
深入解读阿里云数据库POLARDB核心功能物理复制技术

日志是数据库的重要组成部份,按顺序以增量的方式记录了数据库上所有的操作,日志模块的设计对于数据库的可靠性、稳定性和性能都非常重要。 可靠性方面,在有一个数据文件的基础全量备份后,...

阿里云官方博客
55分钟前
1
0
Python数据科学环境:Anaconda 了解一下

几乎所有的 Python 学习者都遇到过“安装”方面的问题。这些安装问题包括 Python 自身环境的安装、第三方模块的安装、不同版本的切换,以及不同平台、版本间的兼容问题等。当你因为这些问题而...

crossin
56分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部