文档章节

Spark API编程动手实战-06-对搜狗日志文件深入实战操作

stark_summer
 stark_summer
发布于 2015/02/04 11:05
字数 484
阅读 325
收藏 3

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html

我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:


上传到服务器后,解压并查看:





查看Sogou文件内容:


该文件的格式如下所示:

访问时间 \t 用户ID \t 查询词 \t 该URL在返回结果中的排名 \ t用户点击的顺序号 \t 用户点击的URL


把解压后的文件上传到hdfs的data目录下:



查看web控制台:


大功告成,文件上传hdfs成功


接下来 我们使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量,也就是第四列值为1同时第五列的值也为1的总共的记录的个数。

先读取SogouQ.mini文件:



count操作后:


count之后有2000条记录

首先过滤出有效的数据:


可以发现该文件中的数据都是有效数据。

下面使用spark获得搜索结果排名第一同时点击结果排名也是第一的数据量:


可以发现搜索结果排名第一同时点击结果排名也是第一的数据量为794条;

使用toDebugString查看一下其lineage:


HadoopRDD->MappedRDD->MappedRDD->FilteredRDD->FilteredRDD->FilteredRDD


下面看用户ID查询次数排行榜:


对sortedSogouQRdd进行collect操作:(不要乱collect 会出现OOM的)


结果:



把结果保存在hdfs上:



hdfs命令行查询:

part-0000:


part-00001:



web控制台查询:



我们通过hadoop命令把上述两个文件的内容合并起来:



查看一下合并后的本地文件:



使用head命令查看其具体内容:

© 著作权归作者所有

stark_summer
粉丝 61
博文 75
码字总数 51050
作品 0
朝阳
CEO
私信 提问
加载中

评论(0)

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地...

Spark亚太研究院
2014/08/29
1.7K
0
【Spark】SparkStreaming-流处理-规则动态更新-解决方案

SparkStreaming-流处理-规则动态更新-解决方案 image2017-10-2711-10-53.png (1067×738) elasticsearch-head Elasticsearch-sql client spark streaming reload百度搜索 基于spark streami......

osc_qvqynsub
2018/01/11
21
0
spark 学习路线及参考课程

一、Scala编程详解: 第1讲-Spark的前世今生 第2讲-课程介绍、特色与价值 第3讲-Scala编程详解:基础语法 第4讲-Scala编程详解:条件控制与循环 第5讲-Scala编程详解:函数入门 第6讲-Scala编...

osc_s5wa3ebb
2018/05/07
24
0
以某课网日志分析为例 进入大数据 Spark SQL 的世界

第1章 初探大数据 本章将介绍为什么要学习大数据、如何学好大数据、如何快速转型大数据岗位、本项目实战课程的内容安排、本项目实战课程的前置内容介绍、开发环境介绍。同时为大家介绍项目中...

osc_f5e60qdm
2018/06/06
9
0
Hadoop之HDFS文件操作

如何终止spark集群 stop-all.sh Hadoop之HDFS文件操作 hadoop fs -cat /user/hadoop/output #查看文件内容 http://blog.csdn.net/flyfish111222/article/details/51995523 可参考 HDFS Web界......

qq_28088259
03/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

检查键是否存在于JavaScript对象中? - Checking if a key exists in a JavaScript object?

问题: How do I check if a particular key exists in a JavaScript object or array? 如何检查JavaScript对象或数组中是否存在特定键? If a key doesn't exist, and I try to access it, ......

fyin1314
39分钟前
21
0
jasypt-spring-boot提示Failed to bind properties

1 问题描述 在Spring Boot中使用jasypt-spring-boot进行加密,但是提示: Description:Failed to bind properties under 'spring.datasource.password' to java.lang.String: Reason:......

氷泠
今天
29
0
在git 2.13之前,只保存多个已更改的文件中的一个文件

问题: 如何在我的分支上只隐藏多个已更改文件中的一个? 解决方案: 参考一: https://stackoom.com/question/Cl3h/在git-之前-只保存多个已更改的文件中的一个文件 参考二: https://oldb...

技术盛宴
今天
30
0
SQL笔记:把Excel的数据导入MySQL中作运算

很多Excel用户都知道,Excel单个工作簿单张表存储的数据量很有限(旧版本月60多万条记录,新版本也才104万条不到),而且Excel中,因为自带各种格式与公式,兼之高度封装性等原因,导致Excel...

tengyulong
今天
15
0
Qt创建Application的文件依赖浅析

在使用QtCreator创建Application程序时,会自动创建***.ui文件,在文件夹“build-***-Desktop_Qt_***-Debug”中生成ui_***.h,***.ui可以通过QtDesigner进行调整,同时还会在***.ui的文件夹内...

qwz185_堡垒
今天
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部