加载中
大数据教程(10.7)Mapreduce的其他补充(计数器、多job串联、参数优化等)

上一篇文章分析了自定义inputFormat(小文件合并)的实现,在此博主将继续Mapreduce的其他补充(计数器、多job串联、参数优化等)内容的分享。 一、计数器应用 在实际生产代码中,常常需要将...

大数据教程(10.6)自定义inputFormat(小文件合并)

上一篇文章分析了运营商流量日志解析增强的实现,至此,mapreduce的组件中除了inputFormat全都自定义写过了!博主今天将继续分享自定义inputFormat。 一、需求 无论hdfs还是mapreduce,对于小...

大数据教程(10.5)运营商流量日志解析增强

上一篇文章分析了如何使用hadoop来实现sql中group by 并且取每组中最大值的需求--订单中成交金额最大的订单项分析,本篇博客博主将继续分享一个mapreduce实战例子--运营商流量日志解析增强;...

大数据教程(10.4)订单中成交金额最大的订单项分析

上一篇博客分享了日志清洗的实现,本篇文章博主将为小伙伴们分享"订单中成交金额最大的订单项分析"的案例。 一、需求 分析出下图中每个订单中成交金额最大的订单项 #订单号,商品号,成交金额 ...

大数据教程(10.3)web日志数据清洗

上一篇博客分享了QQ共同好友的实现方案,本篇博客博主将继续为小伙伴们分享web日志清洗案例。 一、需求 在实际生产的日志文件中,有可能某些日志数据并不规整,我们需要对其进行清洗,然后用...

大数据教程(10.2)计算类似QQ、粉丝共同好友

博主上一篇文章介绍了使用hadoop来建立倒排索引的算法实现,本篇文章我们继续来看看QQ、粉丝共同好友如何使用hadoop来实现。 一、背景 数据库中有很多个QQ、且这些QQ的好友都能够查询到;结果...

大数据教程(10.1)倒排索引建立

前面博主介绍了sql中join功能的大数据实现,本节将继续为小伙伴们分享倒排索引的建立。 一、需求 在很多项目中,我们需要对我们的文档建立索引(如:论坛帖子);我们需要记录某个词在各个文...

大数据教程(9.6)map端join实现

上一篇文章讲了mapreduce配合实现join,本节博主将讲述在map端的join实现; 一、需求 实现两个“表”的join操作,其中一个表数据量小,一个表很大,这种场景在实际中非常常见,比如“订单日志...

大数据教程(9.5)用MR实现sql中的jion逻辑

上一篇博客讲解了使用jar -jar的方式来运行提交MR程序,以及通过修改YarnRunner的源码来实现MR的windows开发环境提交到集群的方式。本篇博主将分享sql中常见的join操作。 一、需求 订单数据表...

大数据教程(9.4)用java -jar的方式运行mr程序

上一篇博客分享了mapreduce在yarn上的运行流程,本篇博主将分享 1.如何使用:jar -jar的方式运行mr程序、2.如何在本地提交mapreduce程序到集群上去运行; 一、使用:jar -jar的方式运行mr程序(...

大数据教程(9.3)MR运行在yarn集群流程分析&&本地模式调试MR程序_

mapreduce在yarn集群中流程分析: 在windows本地环境的调试需要先安装好windows环境,具体请看windows安装篇; 最后寄语,以上是博主本次文章的全部内容,如果大家觉得博主的文章还不错,请点...

大数据教程(9.2)MR内部的shuffle过程详解&combiner的运行机制及代码实现

之前的文章已经简单介绍过mapreduce的运作流程,不过其内部的shuffle过程并未深入讲解;本篇博客将分享shuffle的全过程。 一、mapreduce运作流程长卷图(其中[深]朱红色代表是可以用户自定义...

大数据教程(9.1)流量汇总排序的mr实现

上一章我们有讲到一个mapreduce案例——移动流量排序,如果我们要将最后的输出结果按总流量大小逆序输出,该怎么实现呢?本节博主将分享这个实现的过程。 一、分析 首先,要实现这个功能,我...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部