文档章节

在Hadoop-1.2.1中跑著名的wordcount例程

悟空太多啦
 悟空太多啦
发布于 2014/07/31 16:02
字数 952
阅读 1738
收藏 2

1、在主目录下创建两个文本文件

[wukong@bd01 ~]$ mkdir test
[wukong@bd01 ~]$  cd test
[wukong@bd01 test]$ ls
[wukong@bd01 test]$ echo "hello world" >text1
[wukong@bd01 test]$ echo "hello hadoop" >text2
[wukong@bd01 test]$ cat text1
hello world
[wukong@bd01 test]$ cat text2
hello hadoop

2、启动Hadoop

[wukong@bd01 bin]$ ./start-all.sh
starting namenode, logging to /home/wukong/a_usr/hadoop-1.2.1/libexec/../logs/ha doop-wukong-namenode-bd01.out
bd02: starting datanode, logging to /home/wukong/a_usr/hadoop-1.2.1/libexec/../l ogs/hadoop-wukong-datanode-bd02.out
bd01: starting secondarynamenode, logging to /home/wukong/a_usr/hadoop-1.2.1/lib exec/../logs/hadoop-wukong-secondarynamenode-bd01.out
starting jobtracker, logging to /home/wukong/a_usr/hadoop-1.2.1/libexec/../logs/ hadoop-wukong-jobtracker-bd01.out
bd02: starting tasktracker, logging to /home/wukong/a_usr/hadoop-1.2.1/libexec/. ./logs/hadoop-wukong-tasktracker-bd02.out
[wukong@bd01 bin]$ jps
1440 Jps
1132 NameNode
1280 SecondaryNameNode
1364 JobTracker

3、把新建的文件夹放到hdfs上

[wukong@bd01 ~]$ a_usr/hadoop-1.2.1/bin/hadoop fs -put ./test test_in
[wukong@bd01 ~]$ a_usr/hadoop-1.2.1/bin/hadoop fs -ls ./test_in
Found 2 items
-rw-r--r--   1 wukong supergroup         12 2014-07-31 15:38 /user/wukong/test_i n/text1
-rw-r--r--   1 wukong supergroup         13 2014-07-31 15:38 /user/wukong/test_i n/text2
[wukong@bd01 ~]$ a_usr/hadoop-1.2.1/bin/hadoop fs -ls
Found 1 items
drwxr-xr-x   - wukong supergroup          0 2014-07-31 15:38 /user/wukong/test_i n

4、跑wordcount程序

[wukong@bd01 hadoop-1.2.1]$ bin/hadoop jar hadoop-examples-1.2.1.jar wordcount t est_in test_out
14/07/31 15:43:44 INFO input.FileInputFormat: Total input paths to process : 2
14/07/31 15:43:44 INFO util.NativeCodeLoader: Loaded the native-hadoop library
14/07/31 15:43:44 WARN snappy.LoadSnappy: Snappy native library not loaded
14/07/31 15:43:46 INFO mapred.JobClient: Running job: job_201407311530_0001
14/07/31 15:43:47 INFO mapred.JobClient:  map 0% reduce 0%
14/07/31 15:44:11 INFO mapred.JobClient:  map 100% reduce 0%
14/07/31 15:44:27 INFO mapred.JobClient:  map 100% reduce 100%
14/07/31 15:44:29 INFO mapred.JobClient: Job complete: job_201407311530_0001
14/07/31 15:44:29 INFO mapred.JobClient: Counters: 29
14/07/31 15:44:29 INFO mapred.JobClient:   Job Counters
14/07/31 15:44:29 INFO mapred.JobClient:     Launched reduce tasks=1
14/07/31 15:44:29 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=43406
14/07/31 15:44:29 INFO mapred.JobClient:     Total time spent by all reduces wai ting after reserving slots (ms)=0
14/07/31 15:44:29 INFO mapred.JobClient:     Total time spent by all maps waitin g after reserving slots (ms)=0
14/07/31 15:44:29 INFO mapred.JobClient:     Launched map tasks=2
14/07/31 15:44:29 INFO mapred.JobClient:     Data-local map tasks=2
14/07/31 15:44:29 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=14688
14/07/31 15:44:29 INFO mapred.JobClient:   File Output Format Counters
14/07/31 15:44:29 INFO mapred.JobClient:     Bytes Written=25
14/07/31 15:44:29 INFO mapred.JobClient:   FileSystemCounters
14/07/31 15:44:29 INFO mapred.JobClient:     FILE_BYTES_READ=55
14/07/31 15:44:29 INFO mapred.JobClient:     HDFS_BYTES_READ=239
14/07/31 15:44:29 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=176694
14/07/31 15:44:29 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=25
14/07/31 15:44:29 INFO mapred.JobClient:   File Input Format Counters
14/07/31 15:44:29 INFO mapred.JobClient:     Bytes Read=25
14/07/31 15:44:29 INFO mapred.JobClient:   Map-Reduce Framework
14/07/31 15:44:29 INFO mapred.JobClient:     Map output materialized bytes=61
14/07/31 15:44:29 INFO mapred.JobClient:     Map input records=2
14/07/31 15:44:29 INFO mapred.JobClient:     Reduce shuffle bytes=61
14/07/31 15:44:29 INFO mapred.JobClient:     Spilled Records=8
14/07/31 15:44:29 INFO mapred.JobClient:     Map output bytes=41
14/07/31 15:44:29 INFO mapred.JobClient:     Total committed heap usage (bytes)= 417439744
14/07/31 15:44:29 INFO mapred.JobClient:     CPU time spent (ms)=2880
14/07/31 15:44:29 INFO mapred.JobClient:     Combine input records=4
14/07/31 15:44:29 INFO mapred.JobClient:     SPLIT_RAW_BYTES=214
14/07/31 15:44:29 INFO mapred.JobClient:     Reduce input records=4
14/07/31 15:44:29 INFO mapred.JobClient:     Reduce input groups=3
14/07/31 15:44:29 INFO mapred.JobClient:     Combine output records=4
14/07/31 15:44:29 INFO mapred.JobClient:     Physical memory (bytes) snapshot=41 8050048
14/07/31 15:44:29 INFO mapred.JobClient:     Reduce output records=3
14/07/31 15:44:29 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=217 4017536
14/07/31 15:44:29 INFO mapred.JobClient:     Map output records=4

      跑完之后可以查看一下

[wukong@bd01 hadoop-1.2.1]$ bin/hadoop fs -ls
Found 2 items
drwxr-xr-x   - wukong supergroup          0 2014-07-31 15:38 /user/wukong/test_in
drwxr-xr-x   - wukong supergroup          0 2014-07-31 15:44 /user/wukong/test_out
[wukong@bd01 hadoop-1.2.1]$ a_usr/hadoop-1.2.1/bin/hadoop fs -ls ./test_out
-bash: a_usr/hadoop-1.2.1/bin/hadoop: No such file or directory
[wukong@bd01 hadoop-1.2.1]$ bin/hadoop fs -ls ./test_out
Found 3 items
-rw-r--r--   1 wukong supergroup          0 2014-07-31 15:44 /user/wukong/test_out/_SUCCESS
drwxr-xr-x   - wukong supergroup          0 2014-07-31 15:43 /user/wukong/test_out/_logs
-rw-r--r--   1 wukong supergroup         25 2014-07-31 15:44 /user/wukong/test_out/part-r-00000

5、最终的结果就在part-r-00000中!

[wukong@bd01 hadoop-1.2.1]$ bin/hadoop fs -cat ./test_out/part-r-00000
hadoop  1
hello   2
world   1


© 著作权归作者所有

悟空太多啦
粉丝 20
博文 86
码字总数 72074
作品 1
南京
项目经理
私信 提问
第一个程序HelloMapReduce

启动Eclipse 2. 配置DFS location 在Eclipse3.6.2+Hadoop-0.20.203.1, 一切似乎很顺利,可以链接到Hadoop server 在Eclipse3.7.1+Hadoop-1.0.2, 提示错误: An internal error occurred d......

woodo
2012/05/06
248
0
eclipse中运行wordcount任务后在hadoop监控页面没有显示该job

问题描述: eclipse中运行wordcount任务后在hadoop监控页面没有显示该job,并且查看集群资源的使用情况,集群计算节点cpu和内存基本没用,而装有eclipse的电脑cpu和内存使用量却达到了100%,...

闵开慧
2014/04/28
2K
2
大话大数据(一)

大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖...

提广乾
2016/11/25
52
0
Hadoop实战之WordCount统计单词数目

一.Hadoop实战之WordCount统计单词数目 1.前言: 上一篇文章MapReducer项目结构分析 分析了hadoop的计算模型MapReducer的项目结构,下面就仿照先做一个WordCount统计单词数目的实战,便于理解...

itbiggod
2018/05/06
0
0
hadoop-002-Eclipse 运行WordCount 案例

1、如过提示 eclipse 无法编译 文件 ,提示对某文件无权限。 chmod -R 777 workspace 2、在eclipse中跑Hadoop测试用例时,出现这样的错误 Exception in thread "main" org.apache.hadoop.m...

jxlgzwh
2016/01/24
164
0

没有更多内容

加载失败,请刷新页面

加载更多

Netty整合Protobuffer

现在我们都知道,rpc的三要素:IO模型,线程模型,然后就是数据交互模型,即我们说的序列化和反序列化,现在我们来看一下压缩比率最大的二进制序列化方式——Protobuffer,而且该方式是可以跨...

算法之名
26分钟前
16
0
如何用C++实现栈

栈的定义 栈(stack)又名堆栈,它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压...

BWH_Steven
45分钟前
5
0
编程作业20190210900169

1编写一个程序,提示用户输入名和姓,然后以“名,姓”的格式打印出来。 #include <stdio.h>#include <stdlib.h> int main(){ char firstName[20]; char lastName[20]; print......

1李嘉焘1
57分钟前
12
0
补码的优点及原理分析

只讨论整数 1.计算机内部为什么没有减法器? 减法运算本身其实就是加法,如x - y即x +(-y),所以只需要将负数成功表示出来并可以参加加法运算,那加法器就可同时实现“+”和“-”的运算。这...

清自以敬
今天
76
0
Docker 可视化管理 portainer

官网安装指南: https://portainer.readthedocs.io/en/latest/deployment.html docker-compose.yml 位置,下载地址:https://downloads.portainer.io/docker-compose.yml...

Moks角木
今天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部