文档章节

阿里的100TB Sort Benchmark排序比雅虎快了一倍还多,我的看法

laxcus
 laxcus
发布于 2015/03/15 07:14
字数 698
阅读 21
收藏 0
点赞 0
评论 0

    如果我的判断正确,它们使用的软件和算法应该是HADOOP,MAP/REDUCE,或者类似的技术方案。如果这些条件一样,影响计算结果的还有三个因素:


1.CPU的数量和CPU的处理能力
    CPU的数量可以用一个最体力活的例子来说明:挖沙!如果阿里巴巴带着1000个民工在河里挖沙,而旁边的雅虎只有200个民工,那么挖沙的结果可想而知,肯定是阿里赢了。后者相当于一个成年人和一个儿童比体力,无论如何,一个儿童的体力是比不上成人的。


2.网络带宽
    这涉及到分布计算和集中计算的根本不同,网络!现在我们大多数的计算模式仍然是集中计算,常见的就是我们经常用的EXCLE表格。集中计算的特点是数据的存储和计算混合在一台计算机上进行。分布计算的特点是把存储和计算分开,这样就需要一批计算机参与,每台计算机成为一个节点,或者存储,或者计算,或者兼而有之。网络是将它们连接起来的纽带。假设数据存储在E节点,那么数据计算可能发生在D节点,也可能是W节点。为了能够在等量时间内传输更多的数据,网络带宽就显得非常重要了。如果把网络比喻成水管,那么带宽就是这个水管的粗细,越粗的水管流量会越大。据说阿里的机房带宽都是万兆级,这决对是目前顶级的配置了。


3.数据存储的位置
    换句话说,就是这100TB的数据放在哪里。目前的存储介质有三种:内存、固态硬盘、机械硬盘。因为这些数据无论放在哪里,都要从存储介质里读出来,再通过网络传到其它节点上计算。这个"读"本身就是一个耗时的过程。根据这些存储介质自身的特性,内存的速度远远快过固态硬盘,固态硬盘又超过机械硬盘。


综上所述,基本条件相同下的竞赛才有可比性,如果玩田忌赛马,偷换概念的比赛,即使赢了,也是胜之不武,没有什么可夸耀的。


© 著作权归作者所有

共有 人打赏支持
laxcus
粉丝 0
博文 6
码字总数 8139
作品 0
朝阳
阿里云MaxCompute被Forrester评为全球云端数据仓库领导者

参考消息网3月19日报道 日前,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了...

隐林 ⋅ 04/04 ⋅ 0

SAP在阿里云白皮书-第一章 了解阿里云

第一章 了解阿里云 1.1 阿里云简介 阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普...

云basis掌柜 ⋅ 05/08 ⋅ 0

Spark 颠覆 MapReduce 保持的排序记录

在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数 据处理上,Apache Spark比MapReduce更加高效已经得到广泛认识;...

oschina ⋅ 2014/10/12 ⋅ 13

2017云栖大会压轴大戏:大数据计算服务MaxCompute持续挑战极限,国家会议中心全球首次现场完成基于公共云的BigBench评测,令人期待!

不服跑个分,现场图来一张~ 阿里云总裁胡晓明在20日上午的主论坛上宣布8200QPM的跑分结果,令人振奋。真正做到“中国计算,世界能力”。 -----------------------------------------------以...

晋恒 ⋅ 2017/12/15 ⋅ 0

短讯:开源方案打破世界数据排序记录 

雅虎的网格计算团队在博客中称,他们使用开源方案Apache Hadoop在GraySort年 度比赛中,打破了世界数据排序记录。 Apache Hadoop在Sort Benchmark的Daytona类比赛中,分别在“Gray”和“Min...

老枪 ⋅ 2009/05/18 ⋅ 0

CloudSort 夺冠,阿里云打破 AWS 保持的记录

2016 年 11 月 10 日,Sort Benchmark 在官方网站公布了2016 年排序竞赛 CloudSort 项目的最终成绩。阿里云以$1.44/TB 的成绩获得 Indy(专用目的排序)和Daytona(通用目的排序) 两个子项的...

达尔文 ⋅ 2016/11/11 ⋅ 48

双11剁手幕后的阿里“黑科技”

2015天猫双11全球狂欢节拉开帷幕,阿里巴巴的工程师们又忙碌了起来。在力保全球“剁手党”顺畅购物的同时,他们还拿双11来验证多项开创性技 术。阿里巴巴双11技术总指挥刘振飞表示:“双11不...

huwenchi111 ⋅ 2015/11/15 ⋅ 0

各种排序方法总结

代码全部重新编写,去掉了一些很dirty的地方,并增加了几种排序方法。 现在一共收录了插入,选择,冒泡,归并,希尔,堆排,快排,计数等八种常用的排序方法,并做了效率比较,其中对1万个随...

扶殊88 ⋅ 2011/11/29 ⋅ 0

大数据Benchmark

Benchmark在计算机领域应用最成功的就是性能测试,主要测试负载的执行时间、传输速度、吞吐量、资源占用率等。 数据库领域,TPC的Bench已经成为开发数据库的主流Benchmark。开发者在开发的过...

bigsloth ⋅ 2016/10/06 ⋅ 0

顶级数据库会议Percona阿里云全面解析云数据库

几年前,数据库管理系统的企业市场似乎还如同铜墙铁壁,除了老牌厂商外,其他厂商休想打进来。 随着移动互联、物联网技术的发展,多终端应用的时代悄然而至。结构化与非结构化数据的爆发,推...

桐碧2018 ⋅ 04/23 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

火狐浏览器各版本下载及插件httprequest

各版本下载地址:http://ftp.mozilla.org/pub/mozilla.org//firefox/releases/ httprequest插件截至57版本可用

xiaoge2016 ⋅ 12分钟前 ⋅ 0

Java学习路径及练手项目合集

Java学习路径及练手项目合集

颖伙虫 ⋅ 27分钟前 ⋅ 0

Docker系列教程28-实战:使用Docker Compose运行ELK

原文:http://www.itmuch.com/docker/28-docker-compose-in-action-elk/,转载请说明出处。 ElasticSearch【存储】 Logtash【日志聚合器】 Kibana【界面】 答案: version: '2'services: ...

周立_ITMuch ⋅ 53分钟前 ⋅ 0

使用快嘉sdkg极速搭建接口模拟系统

在具体项目研发过程中,一旦前后端双方约定好接口,前端和app同事就会希望后台同事可以尽快提供可供对接的接口方便调试,而对后台同事来说定好接口还仅是个开始、设计流程,实现业务逻辑,编...

fastjrun ⋅ 今天 ⋅ 0

PXE/KickStart 无人值守安装

导言 作为中小公司的运维,经常会遇到一些机械式的重复工作,例如:有时公司同时上线几十甚至上百台服务器,而且需要我们在短时间内完成系统安装。 常规的办法有什么? 光盘安装系统 ===> 一...

kangvcar ⋅ 昨天 ⋅ 0

使用Puppeteer撸一个爬虫

Puppeteer是什么 puppeteer是谷歌chrome团队官方开发的一个无界面(Headless)chrome工具。Chrome Headless将成为web应用自动化测试的行业标杆。所以我们很有必要来了解一下它。所谓的无头浏...

小草先森 ⋅ 昨天 ⋅ 0

Java Done Right

* 表示难度较大或理论性较强。 ** 表示难度更大或理论性更强。 【Java语言本身】 基础语法,面向对象,顺序编程,并发编程,网络编程,泛型,注解,lambda(Java8),module(Java9),var(...

风华神使 ⋅ 昨天 ⋅ 0

Linux系统日志

linux 系统日志 /var/log/messages /etc/logrotate.conf 日志切割配置文件 https://my.oschina.net/u/2000675/blog/908189 logrotate 使用详解 dmesg 命令 /var/log/dmesg 日志 last命令,调......

Linux学习笔记 ⋅ 昨天 ⋅ 0

MVC——统一报文格式的异常处理响应

在我们写controller层的时候,常常会有这样的困惑,如果需要返回一个数据是,可能为了统一回去构造一个类似下列的数据格式: { status:true, msg:"保存成功!", data:[]} 而且在写...

alexzhu592 ⋅ 昨天 ⋅ 0

android -------- 打开本地浏览器或指定浏览器加载,打电话,打开第三方app

开发中常常有打开本地浏览器加载url或者指定浏览器加载, 还有打开第三方app, 如 打开高德地图 百度地图等 在Android程序中我们可以通过发送隐式Intent来启动系统默认的浏览器。 如果手机本身...

切切歆语 ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部