变而不变:我看分布式系统发展和阿里实践

2017/03/25 20:50
阅读数 101

大数据计算服务(MaxCompute)是一种快速、完全托管的PB/EB级数据仓库解决方案。具备万台服务器扩展能力和跨地域容灾能力,是阿里巴巴内部核心大数据平台,支撑每日百万级作业规模。

MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

相对而言,Reshuffle数据需要落盘,因为Resuffle把多个机器联系起来,出错概率大大增加。但是落盘大大降低了系统的性能,如果只是简单用network的方式来Shuffle数据,则不能容错。

而MaxCompute采用Network-Disk的可自适应性的channel来进行Data-Shuffle。

在MaxComputeAPI取舍中,二八原则体现得十分明显。流计算用户80%对latency更为看重,批处理用户80%对throughput更为看重,我们BI系统希望服务好高频的20%的数据,使得80%的访问都达到毫秒级。

系统设计中常用方法有:空间换时间、时间换空间、API层次设计、系统中层次法。MaxCompute数仓采用层次化设计方法。一致性变强,容量变小,吞吐性能变小,成本变高,问题规模变小。

ef5d695002eb7ff952e034eb1cbd727d5841ce81

5635b4a976e31c6cd65b25b9b833c9a9832d1619

350c90d3cafda246105a23e4ce880c7a11057c07

09da68535be24c6376c7e0762cfb2576121c429d

 

9e4d8bba47a5f3c39a2f9333b92f3bb1ec1ef36b

95344366390c20783d9134fb8c01b290bda9921e

 

3c61f453bb3221d23d1ff4477c969b2b52e63bf9

bcbc2899ee952eaa19b58f209a0093447dfcf37f

7bb70c788588a436d8ce6e2413bc37bd27b84661

9f1d9ecb072e58b70d7b0b40498d6f8ef225aaa7

10e7a614e0be35969bb75436f7d57c7642f4cfe1

38aeadff2a2fdcc6c0c1e170414aba3c387020b1

67bfe4028d5b02c9799f7f59b9ccf7bc2cecdb1b

 

5724339e6626a1ffda0a548e51d2c41f7f472ae3

075feba2cf3fda481ac7bcc9a52ddd586a5e0ed9

7b0b8f7b330800e8f996f44c33daf14c702b7ef7

5c35a5116988e68214d387d44287634d8b316bc2

 

040208ec591b757c494dc25fe86de8bf55203508

0dc3a1726bd6fb6c7f0de55506800d0b48b0c403

acf0de941280ce414d2529a54e6b299a99618058

 

c8ef10508da363c35681d76115dd1ac731d383b9

acf0de941280ce414d2529a54e6b299a99618058

cd549c6110a87a775204d3801a133ad1e4789fa9

acf0de941280ce414d2529a54e6b299a99618058

998463a3d22c3bbedd3926bc2beeadfcb5f7a388

ac3e38cdefd667a3abb3d58807858d161f9b88f7

bb037015affae33c7bcc860000133d5639f2b989

ff927e8973c31a6b873f0b439778b60faa6d9886

238605b6dce7f21eab8202293148bd4949622987

9f949ccab874585f11cdb83f36ba10f8b0d7a23d

3ed587ad77e28d6db660fd36be7851e01d804c0b

展开阅读全文
打赏
0
0 收藏
分享
加载中
更多评论
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部