文档章节

Pig安装和简单使用(31)

肖鋭
 肖鋭
发布于 2014/04/02 22:44
字数 312
阅读 47
收藏 0

        Pig是一个利用mapreduce进行计算的框架。有自己的一套语法Pig latin,可以非常方便的书写计算代码。

1、如何使用Pig?

     解压缩之后,修改文件conf/pig.properties,增加两行内容,如下:

            fs.default.name=hdfs://hadoop0:9000

            mapred.job.tracker=hadoop0:9001

            保存退出后,执行bin/pig进行命令行.

2、使用pig完成电信手机号码统计流量例子:

      #加载hdfs中的数据

      这里的A是别名

      A = LOAD '/Kpi' AS (f0:chararray,f1:chararray,f2:chararray,f3:chararrayf4:chararray);

      DUMP A; //查看结果A

      #过滤A中有用的字段

      B = FOREACH A GENERATE f1,f2,f3,f4;

      DUMP B; //查看结果B

      #对B中的记录按照f1进行分组

      C = GROUP B BY f1;

      DUMP C; //查看结果C

      #对分组后的记录,按照分组字段进行累加

      D = FOREACH C GENERATE group , SUM(B.f1),SUM(B.f2),SUM(B.f3);

      DUMP D; //查看结果D

      #把最后的结果保存到HDFS中

      STORE D INTO '/out';

3、以上的Pig命令可以放到一个文件中执行文件内容是如下,执行方式pig kpi.pig

     内容如同上面一样。      


                                                                                                                    Name:Xr

                                                                                                                    Date:2014-04-02 22:44

© 著作权归作者所有

上一篇: Hbase介绍(32)
下一篇: Pig介绍(30)
肖鋭
粉丝 10
博文 62
码字总数 29531
作品 0
朝阳
程序员
私信 提问
Pig安装及本地模式测试,体验

Pig是Apache的一个开源项目,用于简化MapReduce的开发。研究了一段时间,略有心得。系废话不多说,我们直接步入实际测试。 Pig的运行有两种模式,本地单击模式和集群模式。我目前只是测试学习...

震秦
2013/04/14
3.8K
3
在Apache Felix中运行bundle

在前面搭建了一个Apache Felix的运行环境,下面就写一个简单的bundle,测试测试。 1、新建一个插件工程,如下图: 点击下一步。 2、给插件工程命名一个名字,这里叫pig1。This plug-in is t...

银月光海
2015/11/30
93
0
Apache Pig 执行

在上一章中,我们解释了如何安装Apache Pig。在本章中,我们将讨论如何执行Apache Pig。 Apache Pig执行模式 你可以以两种模式运行Apache Pig,即Local(本地)模式和HDFS模式。 Local模式 ...

h8b6pk7m7r8
2017/11/25
0
0
使用 Apache Pig 处理数据

Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pi...

IBMdW
2012/03/30
1K
2
Pig On Tez, Pig 换 Tez 执行引擎

Tez 安装件上一篇文章: https://my.oschina.net/zhzhenqin/blog/781670 Tez On Yarn 安装成功后,是为了给 Hive 或者 Pig 提供执行引擎。 安装 Pig 下载地址: http://apache.fayea.com/pi...

震秦
2016/11/21
158
0

没有更多内容

加载失败,请刷新页面

加载更多

【0918】正则介绍_grep

【0918】正则介绍_grep 9.1 正则介绍_grep上 9.2 grep中 9.3 grep下 一、正则介绍 正则是一串有规律的字符串,它使用单个字符串来描述或匹配一系列符合某个语法规则的字符串。 二、grep工具 ...

飞翔的竹蜻蜓
15分钟前
4
0
为什么要在网站中应用CDN加速?

1. 网页加载速度更快 在网站中使用CDN技术最直接的一个好处就是它可以加快网页的加载速度。首先,CDN加速的内容分发是基于服务器缓存的,由于CDN中缓存了不少数据,它能够给用户提供更快的页...

云漫网络Ruan
52分钟前
8
0
亚玛芬体育(Amer Sports)和信必优正式启动合作开发Movesense创新

亚玛芬体育和信必优正式启动合作开发Movesense创新,作为亚玛芬体育的完美技术搭档,信必优利用Movesense传感器技术为第三方开发移动应用和服务。 Movesense基于传感器技术和开放的API,测量...

symbiochina88
今天
4
0
创龙TI AM437x ARM Cortex-A9 + Xilinx Spartan-6 FPGA核心板规格书

SOM-TL437xF是一款广州创龙基于TI AM437x ARM Cortex-A9 + Xilinx Spartan-6 FPGA芯片设计的核心板,采用沉金无铅工艺的10层板设计,适用于高速数据采集和处理系统、汽车导航、工业自动化等领...

Tronlong创龙
今天
4
0
好程序员Java学习路线分享MyBatis之线程优化

  好程序员Java学习路线分享MyBatis之线程优化,我们的项目存在大量用户同时访问的情况,那么就会出现大量线程并发访问数据库,这样会带来线程同步问题,本章我们将讨论MyBatis的线程同步问...

好程序员官方
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部