hadoop伪集群作业及hadoop-eclipse-pluging

原创
2017/02/24 18:56
阅读数 118

首先介绍下基本信息:

  • hadoop版本:2.7.1
  • 服务器:Ubuntu 16.04.1 LTS    JDK1.7 
  • 开发环境:Win10    JDK1.7    Eclipse4.5.1

1.如何安装配置

这部分内容强烈建议查看官网文档[1]。基本就是下载(wget),解压(tar),配置环境变量(export)。

这样就可以本地独立模式(Local (Standalone) Mode)运行了。官网文档中跑的例子是grep,当然你也可以跑著名的wordcount。

  $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount input output

接下来是伪集群的配置:

涉及三个配置文件:

etc/hadoop/core-site.xml:(配置namenode的位置,用ip进行配置,我还更改了tmp目录

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://10.1.13.2:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/dev1/hadoop</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

etc/hadoop/mapred-site.xml(JobTracker的配置,这个文件我没有按照官网的yarn配置):

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>10.1.13.2:9001</value>
    </property>
</configuration>

*有些特别注意事项:

  • 需要对HDFS进行格式化(如果更改过hadoop.tmp.dir,使用前也要重新格式化)
      $ bin/hdfs namenode -format

    需要在HDFS中创建 /user/<username>文件夹(<username>要替换成真实的用户名)

  •   $ hdfs dfs -mkdir -p /user/<username>
  • 需要实现ssh的免密码登录
  •   $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
      $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
      $ chmod 0600 ~/.ssh/authorized_keys

完成这些,就可以启动hadoop了。

  $ sbin/start-all.sh

启动后,可以通过 http://10.1.13.2:50070/dfshealth.html 查看dfs的情况。

2.在windows下开发环境配置

接下来转到windows,使用hadoop-eclipse-plugin连接hadoop。

我没找到插件的官方地址,只有个github地址:https://github.com/winghc/hadoop2x-eclipse-plugin

1)下载插件,放到eclipse/plugins目录下,然后重启,插件就安装好了。

2)下载hadoop-2.7.1,解压到指定目录(我是解压到d:\dev\env中),然后在Window-->Preferences中设置hadoop安装路劲。

3)需要注意的一点,windows下需要一个hadoop.dll文件【2】,下载后放到C:\Window\System32下。

4)配置HADOOP_HOME环境变量,否则运行时会报错。

5)新建hadoop location

如果一切顺利就可以连接到hdfs了

6)run on hadoop

参考:

【1】官网伪集群文档 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

【2】hadoop2.7.1对应的hadoop.dll,winutils.exe等 http://blog.csdn.net/n1007530194/article/details/49473667

【3】hadoop github地址 https://github.com/apache/hadoop

展开阅读全文
打赏
2
1 收藏
分享
加载中
感谢博主分享,受益匪浅!
2017/02/28 21:02
回复
举报
感谢博主分享,受益匪浅!
2017/02/28 21:02
回复
举报
更多评论
打赏
2 评论
1 收藏
2
分享
返回顶部
顶部