文档章节

运行Hadoop WordCount

HiMrLiu
 HiMrLiu
发布于 2017/02/06 15:01
字数 671
阅读 15
收藏 0

运行Hadoop WordCount

1.启动Hadoop

./root/hadoop/hadoop-2.6.0/sbin/start-all.sh
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
或者使用:
./root/hadoop/hadoop-2.6.0/sbin/start-dfs.sh
./root/hadoop/hadoop-2.6.0/sbin/start-yarn.sh

2.准备测试文件,在某个目录创建测试文件

[root@localhost /]# mkdir /root/testFile
[root@localhost /]# echo "Hello Hadoop" > /root/testFile/hello.txt
[root@localhost /]# echo "Hello Java" > /root/testFile/hello2.txt

3.在HDFS上创建输入文件夹目录 input

/root/hadoop/hadoop-2.6.0/bin
[root@localhost bin]# hadoop fs -mkdir /input
  1. 把本地硬盘上创建的文件传进input里面
[root@localhost bin]# hadoop fs -put /root/testFile/hello*.txt /input
  1. hadoop自带的wordcount jar包位置 WordCount类代码
/root/hadoop/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar
  1. 开始运行 wordcount
[root@localhost bin]# hadoop jar /root/hadoop/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /input/ /output/wordcount1
17/02/05 19:48:34 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
17/02/05 19:48:39 INFO input.FileInputFormat: Total input paths to process : 2
17/02/05 19:48:39 INFO mapreduce.JobSubmitter: number of splits:2
17/02/05 19:48:39 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1486108015974_0001
17/02/05 19:48:43 INFO impl.YarnClientImpl: Submitted application application_1486108015974_0001
17/02/05 19:48:44 INFO mapreduce.Job: The url to track the job: http://localhost:8099/proxy/application_1486108015974_0001/
17/02/05 19:48:44 INFO mapreduce.Job: Running job: job_1486108015974_0001
17/02/05 19:49:20 INFO mapreduce.Job: Job job_1486108015974_0001 running in uber mode : false
17/02/05 19:49:20 INFO mapreduce.Job:  map 0% reduce 0%
17/02/05 19:49:47 INFO mapreduce.Job:  map 50% reduce 0%
17/02/05 19:49:49 INFO mapreduce.Job:  map 100% reduce 0%
17/02/05 19:49:58 INFO mapreduce.Job:  map 100% reduce 100%
17/02/05 19:49:59 INFO mapreduce.Job: Job job_1486108015974_0001 completed successfully
17/02/05 19:49:59 INFO mapreduce.Job: Counters: 49
	File System Counters
		FILE: Number of bytes read=54
		FILE: Number of bytes written=316700
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=229
		HDFS: Number of bytes written=24
		HDFS: Number of read operations=9
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=2
	Job Counters 
		Launched map tasks=2
		Launched reduce tasks=1
		Data-local map tasks=2
		Total time spent by all maps in occupied slots (ms)=52251
		Total time spent by all reduces in occupied slots (ms)=6032
		Total time spent by all map tasks (ms)=52251
		Total time spent by all reduce tasks (ms)=6032
		Total vcore-seconds taken by all map tasks=52251
		Total vcore-seconds taken by all reduce tasks=6032
		Total megabyte-seconds taken by all map tasks=53505024
		Total megabyte-seconds taken by all reduce tasks=6176768
	Map-Reduce Framework
		Map input records=2
		Map output records=4
		Map output bytes=40
		Map output materialized bytes=60
		Input split bytes=205
		Combine input records=4
		Combine output records=4
		Reduce input groups=3
		Reduce shuffle bytes=60
		Reduce input records=4
		Reduce output records=3
		Spilled Records=8
		Shuffled Maps =2
		Failed Shuffles=0
		Merged Map outputs=2
		GC time elapsed (ms)=679
		CPU time spent (ms)=9280
		Physical memory (bytes) snapshot=707444736
		Virtual memory (bytes) snapshot=2677784576
		Total committed heap usage (bytes)=516423680
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=24
	File Output Format Counters 
		Bytes Written=24
[root@localhost bin]#
  1. 查看运行结果
[root@localhost bin]# hdfs dfs -cat /output/wordcount1/*
Hadoop	1
Hello	2
Java	1

参考:http://www.itnose.net/detail/6197823.html

© 著作权归作者所有

HiMrLiu

HiMrLiu

粉丝 1
博文 4
码字总数 1675
作品 0
成都
程序员
私信 提问
一步一步编译运行wordcount.java

WordCount是学习Hadoop的经典入门范例。下面通过一步步的操作,来编译、打包、运行WordCount程序。 1、在Hadoop 1.0.4的解压目录的如下位置可以找到WordCount.java的源文件 src/examples/org...

dreaminthewind
2013/10/12
0
0
eclipse上搭建hadoop开发环境

一、概述 1.实验使用的Hadoop集群为伪分布式模式,eclipse相关配置已完成; 2.软件版本为hadoop-2.7.3.tar.gz、apache-maven-3.5.0.rar。 二、使用eclipse连接hadoop集群进行开发 1.在开发主...

一语成谶灬
2017/09/07
0
0
hadoop运行wordcount

hadoop版本为2.7.2 部署请参考:https://my.oschina.net/u/3052784/blog/790004 准备工作需要如下:1.hadoop环境 2.example.jar 3.指定输入输出目录 (一)example.jar位置 hadoop-mapreduce...

thelastday
2016/11/17
39
0
Hadoop示例程序WordCount运行及详解

最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了。 运行方法: 假设: /home/cq/w...

dreaminthewind
2013/09/09
0
0
基于Eclipse的Hadoop应用开发环境配置

基于Eclipse的Hadoop应用开发环境配置 我的开发环境: 操作系统centos5.5 一个namenode 两个datanode Hadoop版本:hadoop-0.20.203.0 Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.g...

cookqq
2014/01/03
83
0

没有更多内容

加载失败,请刷新页面

加载更多

只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
今天
59
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
今天
27
0
全世界到底有多少软件开发人员?

埃文斯数据公司(Evans Data Corporation) 2019 最新的统计数据(原文)显示,2018 年全球共有 2300 万软件开发人员,预计到 2019 年底这个数字将达到 2640万,到 2023 年达到 2770万。 而来自...

红薯
今天
61
0
Go 语言基础—— 通道(channel)

通过通信来共享内存(Java是通过共享内存来通信的) 定义 func service() string {time.Sleep(time.Millisecond * 50)return "Done"}func AsyncService() chan string {retCh := mak......

刘一草
今天
57
0
Apache Flink 零基础入门(一):基础概念解析

Apache Flink 的定义、架构及原理 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速...

Vincent-Duan
今天
59
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部