加载中
2-Hadoop学习之旅-MapReduce

Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们...

2016/09/10 23:42
119
4-Hadoop1.x VS Hadoop2.x

Hadoop 2.0 产生背景 Hadoop 1.0 中HDFS和MapReduce在高可用、扩展性等方面存在问题 HDFS 存在的问题 NameNode单点故障,难以应用于在线场景; NameNode压力过大,且内存受限,影响系统扩展性...

2016/09/11 00:52
24
Hadoop HA 高可用集群搭建配置(经过测试)

集群环境 准备 参考资料 High Avaliability With QJM http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html zookeeper http://zookeepe...

2016/09/15 13:39
64
8-Storm

storm是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,由Twitter开源官网http://storm.apache.org/。Sto...

2016/10/08 22:03
36
1-Hadoop学习之旅-HDFS

Hadoop简介(2.5.1版本) 分布式存储系统HDFS(Hadoop Distributed File System) 分布式存储系统 提高了高可靠性、高扩展性和高吞吐率的数据存储服务 分布式计算框架MapReduce 分布式计算框...

2016/09/10 22:03
24
5-Hadoop之旅-Hive(一)

Hive能做什么? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低...

2016/09/12 22:11
93
【袋鼠云内推】杭州-高级java开发-3~5以及5年以上

袋鼠云是杭州玳数科技有限公司旗下品牌,成立于2016年,是一家由多名前阿里巴巴资深技术人士创立的技术服务公司,主要业务聚焦大数据使用场景研发,深耕DI(Data Intelligence数据智能)领域,...

3-MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越...

2016/09/09 13:29
18
7-Hadoop之旅-Hbase

Hadoop生态系统 HBase简介 HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的...

2016/09/25 00:20
18
搜索引擎-Luncene

什么是lucene? Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/或者googleDesktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 lucene能做什么...

2016/09/22 21:39
85
Impala(多图手机用户慎入,理论+实践)

Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分...

2016/09/21 23:11
1K

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部