文档章节

Hadoop学习笔记2 Google与Hadoop

i
 iamblake
发布于 2017/05/25 23:05
字数 349
阅读 31
收藏 1

google面对的数据与计算问题

1、大量的网页怎么存储?

由于存储性格与性能成指数的增长,购买高性能的存储成本昂贵。Google的服务器没有硬盘,把网页放到内存里,为了防止掉电丢失数据,Google采用了冗余的方案。

hdfs会把数据写到几个节点,形成冗余,当一个节点的数据损坏,数据可以从其他节点读取。

2、搜索算法

根据关键字检索网页,怎么快速从数亿个网站中找到想要的网站,给出响应结果。

对应map-reduce

3、查询结果的排序问题

当根据关键字例如北京,查询到网页中包含北京的站点也能有几百万个,哪个是你想要的呢。

  • 倒排索引
  • map-reduce

下面这段话是网上其他人用最简短的语言解释MapReduce:

  We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.

  我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

  Now we get together and add our individual counts. That’s reduce.

  现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

© 著作权归作者所有

共有 人打赏支持
i
粉丝 0
博文 2
码字总数 817
作品 0
《BIG DATA大数据日知录 架构和算法》读书笔记

1.数据分片和路由 Hash Hash H(Key) = hash(key) mod K 虚拟桶(Virtual Buckets) 先hash到桶,在Hash,多加一层Hash便于扩展 一致性Hash 分布式Hash表(DHT),P2P对等网络,构成环,节点加...

selfless
2016/06/18
163
4
Hadoop简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很...

晨曦之光
2012/03/09
168
0
全栈数据,主要技术点

生命之源 0. 缘起 本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。 列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。 本文...

云戒
2017/06/25
0
0
Hadoop学习笔记(1):概念和整体架构

hadoop简介和历史   Hadoop架构体系   Master和Slave节点   数据分析面临的问题和Hadoop思想   由于工作原因,必须学习和深入一下Hadoop,特此记录笔记。   什么是hadoop?   Apa...

ugali
06/26
0
0
Hadoop家族学习路线图

权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增...

_Mr_Computer_
2016/07/13
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

iOS开发用到的图片尺寸汇总

启动图 型号 竖屏 横屏 iPhone SE 640px × 1136px 1136px × 640px iPhone 6s 750px × 1334px 1334px × 750px iPhone 6s Plus 1242px × 2208px 2208px × 1242px iPhone 7 750px × 1334......

业界小白
18分钟前
0
0
浅谈redis

redis是一个开源,内存式的健值存储数据库,也被称为健值存储的字典服务器。健值类型有字符串,hash(哈希类型),set(集合),list(列表) 和有序集合 特征细节: 内存式:redis将健值存储在主...

拐美人
25分钟前
0
0
无限扩容,按需使用!ZStack推出基于阿里云NAS的文件存储服务

日前,ZStack发布2.6.0版本,正式宣布推出基于阿里云NAS的文件存储服务。得益于业界领先的阿里云分布式存储架构,融合NAS后的ZStack 2.6.0拥有高性能、高可靠、容量无限扩展、一键操作、按需...

ZStack社区版
28分钟前
1
0
崛起于Springboot2.X之Mongodb多数据源处理(35)

多数据源:4个mongodb库! 目录结构图: 1、添加pom依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-mongodb</artifactId>......

木九天
33分钟前
0
0
如何获取显示器的EDID信息

Q1: 为什么要写这篇文章? A1:在最近的工作中遇到了不少问题,其中很多都是和EDID相关的。可以说,作为一家以“显示”为生的企业,我们时时刻刻在与EDID打交道。EDID这东西很简单,但是如果...

DB_Terrill
34分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部