文档章节

阿里的100TB Sort Benchmark排序比雅虎快了一倍还多,我的看法

laxcus
 laxcus
发布于 2015/03/15 07:14
字数 698
阅读 21
收藏 0

    如果我的判断正确,它们使用的软件和算法应该是HADOOP,MAP/REDUCE,或者类似的技术方案。如果这些条件一样,影响计算结果的还有三个因素:


1.CPU的数量和CPU的处理能力
    CPU的数量可以用一个最体力活的例子来说明:挖沙!如果阿里巴巴带着1000个民工在河里挖沙,而旁边的雅虎只有200个民工,那么挖沙的结果可想而知,肯定是阿里赢了。后者相当于一个成年人和一个儿童比体力,无论如何,一个儿童的体力是比不上成人的。


2.网络带宽
    这涉及到分布计算和集中计算的根本不同,网络!现在我们大多数的计算模式仍然是集中计算,常见的就是我们经常用的EXCLE表格。集中计算的特点是数据的存储和计算混合在一台计算机上进行。分布计算的特点是把存储和计算分开,这样就需要一批计算机参与,每台计算机成为一个节点,或者存储,或者计算,或者兼而有之。网络是将它们连接起来的纽带。假设数据存储在E节点,那么数据计算可能发生在D节点,也可能是W节点。为了能够在等量时间内传输更多的数据,网络带宽就显得非常重要了。如果把网络比喻成水管,那么带宽就是这个水管的粗细,越粗的水管流量会越大。据说阿里的机房带宽都是万兆级,这决对是目前顶级的配置了。


3.数据存储的位置
    换句话说,就是这100TB的数据放在哪里。目前的存储介质有三种:内存、固态硬盘、机械硬盘。因为这些数据无论放在哪里,都要从存储介质里读出来,再通过网络传到其它节点上计算。这个"读"本身就是一个耗时的过程。根据这些存储介质自身的特性,内存的速度远远快过固态硬盘,固态硬盘又超过机械硬盘。


综上所述,基本条件相同下的竞赛才有可比性,如果玩田忌赛马,偷换概念的比赛,即使赢了,也是胜之不武,没有什么可夸耀的。


© 著作权归作者所有

共有 人打赏支持
laxcus
粉丝 0
博文 6
码字总数 8139
作品 0
朝阳
阿里云MaxCompute被Forrester评为全球云端数据仓库领导者

参考消息网3月19日报道 日前,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了...

隐林
04/04
0
0
SAP在阿里云白皮书-第一章 了解阿里云

第一章 了解阿里云 1.1 阿里云简介 阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普...

云basis掌柜
05/08
0
0
Spark 颠覆 MapReduce 保持的排序记录

在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数 据处理上,Apache Spark比MapReduce更加高效已经得到广泛认识;...

oschina
2014/10/12
4.7K
13
2017云栖大会压轴大戏:大数据计算服务MaxCompute持续挑战极限,国家会议中心全球首次现场完成基于公共云的BigBench评测,令人期待!

不服跑个分,现场图来一张~ 阿里云总裁胡晓明在20日上午的主论坛上宣布8200QPM的跑分结果,令人振奋。真正做到“中国计算,世界能力”。 -----------------------------------------------以...

晋恒
2017/12/15
0
0
短讯:开源方案打破世界数据排序记录 

雅虎的网格计算团队在博客中称,他们使用开源方案Apache Hadoop在GraySort年 度比赛中,打破了世界数据排序记录。 Apache Hadoop在Sort Benchmark的Daytona类比赛中,分别在“Gray”和“Min...

老枪
2009/05/18
577
0

没有更多内容

加载失败,请刷新页面

加载更多

快速get到学习Linux操作系统的点

Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能够运行主要的UNIX工具软件、网络协议和应用程序。它支持32位...

linux-tao
刚刚
0
0
Docker Compose 之进阶篇

前文《Docker Compose 简介》和《Dcoker Compose 原理》两篇文章中分别介绍了 docker compose 的基本概念以及实现原理。本文我们将继续探索 docker compose,并通过 demo 介绍一些主要的用法...

Java干货分享
7分钟前
0
0
《netty入门与实战》笔记-04:pipeline 与 channelHandler

这一小节,我们将会学习 Netty 里面一大核心组件: Pipeline 与 ChannelHandler Netty 中的 pipeline 和 channelHandler 通过责任链设计模式来组织代码逻辑,并且能够支持逻辑的动态添加和删...

Funcy1122
12分钟前
0
0
知识积累

####知识积累 Q:What is the bit depth of a JPEG? A:JPEG is standardized as an 8-bit image file. This means that each color channel of a pixel has 8-bits of data allocated to repr......

-___-
24分钟前
0
0
shell学习之创建函数

函数是一个脚本代码块,你可以为其命名并在代码中任何位置重用。 在bash shell脚本中创建函数基本使用如下两种方式,第二种格式更接近于其他编程语言中定义函数的方式。 function name {com...

woshixin
36分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部