文档章节

Hadoop学习笔记2 Google与Hadoop

i
 iamblake
发布于 2017/05/25 23:05
字数 349
阅读 32
收藏 1

google面对的数据与计算问题

1、大量的网页怎么存储?

由于存储性格与性能成指数的增长,购买高性能的存储成本昂贵。Google的服务器没有硬盘,把网页放到内存里,为了防止掉电丢失数据,Google采用了冗余的方案。

hdfs会把数据写到几个节点,形成冗余,当一个节点的数据损坏,数据可以从其他节点读取。

2、搜索算法

根据关键字检索网页,怎么快速从数亿个网站中找到想要的网站,给出响应结果。

对应map-reduce

3、查询结果的排序问题

当根据关键字例如北京,查询到网页中包含北京的站点也能有几百万个,哪个是你想要的呢。

  • 倒排索引
  • map-reduce

下面这段话是网上其他人用最简短的语言解释MapReduce:

  We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.

  我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

  Now we get together and add our individual counts. That’s reduce.

  现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

© 著作权归作者所有

共有 人打赏支持
上一篇: 开始Hadoop
下一篇: 开始Hadoop
i
粉丝 0
博文 2
码字总数 817
作品 0
私信 提问
Hadoop简要介绍

本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很...

晨曦之光
2012/03/09
202
0
《BIG DATA大数据日知录 架构和算法》读书笔记

1.数据分片和路由 Hash Hash H(Key) = hash(key) mod K 虚拟桶(Virtual Buckets) 先hash到桶,在Hash,多加一层Hash便于扩展 一致性Hash 分布式Hash表(DHT),P2P对等网络,构成环,节点加...

selfless
2016/06/18
163
4
Hdoop 学习笔记

简介:Hadoop分布式系统体系结构的核心: HDFS和MapReduce 。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作...

james_lz
2016/03/08
25
0
Hadoop学习笔记(1):概念和整体架构

hadoop简介和历史   Hadoop架构体系   Master和Slave节点   数据分析面临的问题和Hadoop思想   由于工作原因,必须学习和深入一下Hadoop,特此记录笔记。   什么是hadoop?   Apa...

ugali
2018/06/26
0
0
全栈数据,主要技术点

生命之源 0. 缘起 本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。 列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。 本文...

云戒
2017/06/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Linux下端口转发工具rinetd介绍

linux下简单好用的工具rinetd,实现端口映射/转发/重定向,针对TCP协议,不支持UDP。 官网地址 http://www.boutell.com/rinetd 里面介绍及使用齐全。 使用场景举例: 阿里云内网Redis连接问题...

ouhoo
8分钟前
0
0
Oracle学习日志-5(算数运算符,比较运算符和逻辑运算符)

因为有编程基础,所以对于这一章还是很好理解,只需要注意对NULL的运算。 操作的表格 算数运算符 查询商品名字和商品售价,并商品售价乘2 SELECT product_name,sale_price * 2 AS "sale_pri...

白话
21分钟前
0
0
搜索引擎(Lucene介绍、分词器详解)

Lucene介绍 Lucene简介 最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简...

这很耳东先生
26分钟前
0
0
quartz详细介绍

quartz常用api Scheduler 调度程序交互的主要API。 Job 希望由调度程序执行的组件实现的接口。 JobDetail 用于定义作业的实例。 JobDataMap 可以包含不限量的序列化数据,在job运行的时候可以...

大笨象会跳舞吧
26分钟前
0
0
kotlin使用jackson序列化enum

默认情况下,我们序列化与反序列化enum是它的name,事实上大部分情况下我们需要序列化的是我们自定义的value,那应该怎么做呢? 这种情况下我们就需要@JsonValue与@JsonCreator data class U...

weidedong
30分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部