Hadoop学习笔记2 Google与Hadoop
博客专区 > iamblake 的博客 > 博客详情
Hadoop学习笔记2 Google与Hadoop
iamblake 发表于9个月前
Hadoop学习笔记2 Google与Hadoop
  • 发表于 9个月前
  • 阅读 31
  • 收藏 1
  • 点赞 0
  • 评论 0

新睿云服务器60天免费使用,快来体验!>>>   

google面对的数据与计算问题

1、大量的网页怎么存储?

由于存储性格与性能成指数的增长,购买高性能的存储成本昂贵。Google的服务器没有硬盘,把网页放到内存里,为了防止掉电丢失数据,Google采用了冗余的方案。

hdfs会把数据写到几个节点,形成冗余,当一个节点的数据损坏,数据可以从其他节点读取。

2、搜索算法

根据关键字检索网页,怎么快速从数亿个网站中找到想要的网站,给出响应结果。

对应map-reduce

3、查询结果的排序问题

当根据关键字例如北京,查询到网页中包含北京的站点也能有几百万个,哪个是你想要的呢。

  • 倒排索引
  • map-reduce

下面这段话是网上其他人用最简短的语言解释MapReduce:

  We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.

  我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

  Now we get together and add our individual counts. That’s reduce.

  现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

  • 打赏
  • 点赞
  • 收藏
  • 分享
共有 人打赏支持
粉丝 0
博文 2
码字总数 817
×
iamblake
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: