文档章节

eclipse配置hadoop开发环境并运行WordCount小程序

奔跑的菜菜
 奔跑的菜菜
发布于 2016/07/12 16:43
字数 761
阅读 95
收藏 1

本篇博客讲述如何用eclipse配置hadoop的开发环境,并且建立第一个小程序,WordCount。

本篇博客一些配置选项基于上一篇博客hadoop环境的配置。

环境说明:eclipse3.7,插件hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar,

cygwin

下载eclipse3.7,安装插件

根据其他博主推荐,3.7是百分百可行的,其他版本不保证,包括3.7.x,

亲测确实3.7绝对可行,将下载好的插件放入plugins文件夹下,重启即可。重启后如下图所示即表示成功。另外,hadoop0.20版本比较底,最好使用jdk1.6。

这里写图片描述

配置hadoop信息

Window – Preferences – Hadoop Map/Reduce

指向之前在本地解压的hadoop文件地址,例:

D:\developPath\hadoop

Window -Show View – Other - Map/Reduce Locations

这里写图片描述
右击 – New Hadoop – Location

这里写图片描述

Advanced
parameters重要配置如下,其他可以不管,配置好后重启会自动修改。其中hadoop是我的用户名,其他配置是基于上一篇博客的配置。

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

编写程序

WordCount测试程序我就不贴上来了,网上有很多,如果有需要,我会在文章结尾处和eclipse3.7压缩包及插件一起打包分享。

运行测试

在测试前,先把hadoop启动。如果配置成功会有如下显示:

这里写图片描述

将测试文件上传到hadoop服务器上,命令如下:

hadoop fs –mkdir /input

hadoop fs –put /usr/download/test.txt /input

hadoop fs -ls /input

命令表示:

在hadoop中创建input目录

将linux下/usr/download/test.txt文件放入到hadoop的input目录下

查看input目录下文件信息

在运行前,通常要传入两个参数,一个是输入文件参数,一个是输出文件参数,输入文件参数就是刚才的input文件夹,输出参数则是output文件夹,而output文件夹不用事先建好,会自动生成,事前建好反而会报错,参数传递方式可以写在java文件里,也可以在运行时传递。

hdfs://192.168.1.130:54310/input/test.txt

hdfs://192.168.1.130:54310/output

右击WordCount类,Run As – Run On Hadoop

问题解答

a) hadoop配置后没有DFS Locations具体显示,一直在connect

查看配置是否正确,用户是否正确,免登录是否成功,端口是否开放,防火墙是不是关闭了。

CentOS 7用的是firewall,开启端口命令如下:

firewall-cmd –add-port=1-60000/tcp

表示从1到60000的端口都开放了,可以用tcp协议访问,如果关闭防火墙,反而会访问不了,建议开启端口即可。

a) 程序无法运行

如果DFS Locations已经有显示了,表示配置成功,如果提示Exception in
thread “main” java.io.IOException: Cannot run program “chmod”:
CreateProcess error=2

那么安装cygwin软件,并将其bin目录配置到Path环境下即可,过程同window下配置JAVA_HOME一样,

如果其他问题,则注意是否是端口写错了。

附带资源下载:
http://download.csdn.net/detail/feiepuhuo001/9573478

如有错误,还望指出,共同进步;手敲累抽搐,装载注出处。

© 著作权归作者所有

奔跑的菜菜
粉丝 7
博文 10
码字总数 10088
作品 0
马鞍山
程序员
私信 提问
基于Eclipse的Hadoop应用开发环境配置

基于Eclipse的Hadoop应用开发环境配置 我的开发环境: 操作系统centos5.5 一个namenode 两个datanode Hadoop版本:hadoop-0.20.203.0 Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.g...

cookqq
2014/01/03
83
0
eclipse上搭建hadoop开发环境

一、概述 1.实验使用的Hadoop集群为伪分布式模式,eclipse相关配置已完成; 2.软件版本为hadoop-2.7.3.tar.gz、apache-maven-3.5.0.rar。 二、使用eclipse连接hadoop集群进行开发 1.在开发主...

一语成谶灬
2017/09/07
0
0
实战 windows7 下 eclipse 远程调试 linux hadoop

恩,之所以有这篇博客,是因为最近又有童鞋咨询怎么在 windows 7 下用eclipse远程调试部署在linux下的hadoop,其实我自己不这么混搭的,既然有童鞋这么问了,那我就索性随着折腾一把了。 首先...

大数据之路
2013/04/15
18.6K
13
hadoop 开发环境搭建

hadoop 开发环境搭建 (ubuntu + idea ) @(hadoop笔记)[idea 开发环境] 基于ubuntu 和 idea 搭建 hadoop开发环境,其实是搭建MR的开发环境。这里简单说一下为什么采用idea,就因为一点,ide...

OttoWu
2016/12/13
101
0
windows 环境下Eclipse开发MapReduce环境设置

1、Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i5......

加油_张
2013/11/30
13.6K
0

没有更多内容

加载失败,请刷新页面

加载更多

TCP/IP学习——IP协议的辅助协议

在TCP/IP网络模型中,网络层仅凭借IP协议是无法实现通信功能,还需要其他技术或者协议辅助实现。比如在进行web页面访问时,不会直接输入IP地址进行通信,而是输入网址,那么就需要一种技术将...

江左煤郎
16分钟前
5
0
在Ignite中自定义身份认证安全插件

Ignite集群搭建完成之后,应用就可以接入集群进行各种操作了,但是默认的集群,没有安全保护机制,任何应用、支持JDBC的客户端,只要知道集群节点的IP地址,都可以接入集群,这造成了一定的安...

李玉珏
59分钟前
28
0
浅谈proxy代理模式

一、前言 代理是代替服务器去接受请求者的请求的中间人。我们也听说过代理服务器,它的作用的帮助客户端去请求客户端想要的资源,为什么要通过代理呢,那是因为客户端直接访问服务器会被拒绝...

青衣霓裳
今天
5
0
Java多线程之原子操作类

在并发编程中很容易出现并发安全问题,最简单的例子就是多线程更新变量i=1,多个线程执行i++操作,就有可能获取不到正确的值,而这个问题,最常用的方法是通过Synchronized进行控制来达到线程...

全菜工程师小辉
今天
8
0
arcgis arcpy 克里金插值 掩膜 配置符号系统 自动生成图片

整体思路,最后要加载到mxd文件中,然后导出图片 首先加载mxd文件 mxd = mapping.MapDocument(r"./11.mxd") 然后读取数据 并加载到图层中 sr = arcpy.SpatialReference(4326) # 读取csv...

可达鸭Go
今天
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部