一个计算框架
优点:分布式、可靠、可伸缩
主要使用领域:搜索引擎、海量数据存储
hadoop 主要用于处理海量数据。
1. 存储
分布式文件系统:HDFS,hadoop distributed file system
2. 运算
mapreduce,map() + reduce
数据量单位进制:
1byte = 8 bit
kb —— M —— G —— T —— P —— E —— Z —— Y
数据存储:
1. 分割:分布式, dfs distributed file system
2. 运算:mapreduce:map(映射)→ reduce(化简)