文档章节

Hadoop初步体验(安装与测试)

扬州炒饭
 扬州炒饭
发布于 2015/02/12 16:29
字数 535
阅读 147
收藏 8

简述:Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。

物理主机、虚拟机、虚拟主机这三个就不多说了。我们先在ubuntu里添加一个叫hadoop的用户

1:安装jdk

下载jdk: jdk-7u75-linux-x64.tar.gz

安装jdk: 

#切换到root用户
su root

#进入用户编译的目录
cd /usr/local/lib
#将jdk压缩包解压到当前路径
tar -zxvf [jdk文件路径]/java-jdk-1.7/jdk-7u75-linux-x64.tar.gz

#编辑linux配置文件
gedit /etc/profile
#添加如下文字
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75    
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
#保存文件

#将jdk1.7.0_75目录的拥有者改为root组的root用户
chown root:root -R /usr/local/lib/jdk1.7.0_75
#更改目录和文件的模式
chmod 755 -R /usr/local/lib/jdk1.7.0_75
#生效
source /etc/profile

#测试jdk,这条命令检查jdk安装是否成功。运行这条命令,只要没有报错就表明安装成功了。
java -version

2:在虚拟机中安装hadoop

下载hadoop:hadoop-1.2.1.tar.gz

安装hadoop:

#切换到hadoop用户
su hadoop

#进入第三方包目录
cd /opt
tar -xvzf [hadoop文件路径]/hadoop-1.2.1.tar.gz

#进入hadoop目录,配置几个文件

#core-site.xml
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

#mapred-site.xml
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>

#hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

#在hadoop-env.sh文件里添加如下一条语句:
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75

3:安装rsync和ssh

sudo apt-get install ssh rsync
ssh-keygen -t dsa -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
ssh localhost

4:启动hadoop

#进入hadoop目录
cd /opt/hadoop-1.2.1

#格式化hadoop_namenode
./bin/hadoop namenode -format

#启动hadoop所有节点
./bin/start-all.sh

5:测试(词频统计)

#进入hadoop目录
cd /opt/hadoop-1.2.1

#将当前目录下的README.txt放到hadoop进行测试
./bin/hadoop fs -put README.txt readme.txt

#运行hadoop 的examples 的wordcount,测试hadoop 的执行。
./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount readme.txt output

#这条命令查看处理结果
./bin/hadoop fs -cat output/part-r-00000



© 著作权归作者所有

共有 人打赏支持
扬州炒饭
粉丝 41
博文 93
码字总数 24585
作品 0
程序员
CentOS6.6搭建Hadoop2.5.2伪分布式环境

Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。 首先准备一个C...

爱兔一生
2015/07/07
0
0
编译安装spark

1.官网下载未编译的spark的jar包,选择下载的时候选择source code 2.安装jdk,maven。 3.修改spark根目录下的pom.xml文件(这一步不要做,做了反而会导致编译不过,因为使用-Phadoop-2.3参数...

cjun1990
2015/09/17
111
0
Hadoop初体验:快速搭建Hadoop伪分布式环境

0.前言 本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境。 对使用的系统环境作...

xpleaf
2017/08/30
0
0
Hadoop MapReduce下一代 - 命令行Mini集群

目的: 使用命令行接口运行Mini集群,用户可以使用一个简单的命令启动或者停止一个单节点的Hadoop集群,不需要设置任何环境变量和管理配置文件。这个CLI Mini集群将会启动Yarn/MapReduce和H...

chapin
2014/10/31
0
0
在Windows下安装Hadoop 图文教程

Windows下运 行Hadoop,通常有两种方式:一种是用VM方式安装一个Linux操作系统,这样基本可以实现全Linux环境的Hadoop运行;另一种是通过 Cygwin模拟Linux环境。后者的好处是使用比较方便,安...

小帅帅丶
2015/01/08
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Bash重定向详解

Bash重定向详解 Bash的重定向指的是将命令的输入和输出导向不同地方,而不是默认的标准输入、标准输出和标准错误。Bash的重定向实际上是对标准输入、标准输出和标准错误的重置,进而将所需输...

小陶小陶
今天
3
0
EventBus原理深度解析

一、问题描述 在工作中,经常会遇见使用异步的方式来发送事件,或者触发另外一个动作:经常用到的框架是MQ(分布式方式通知)。如果是同一个jvm里面通知的话,就可以使用EventBus。由于Event...

yangjianzhou
今天
14
0
OpenCV图像处理实例:libuv+cvui显示摄像头视频

#include <iostream>#include <opencv2/opencv.hpp>#define CVUI_IMPLEMENTATION#include <cvui.h>extern "C"{#include <uv.h>}using namespace std;#define WINDOW_NAM......

IOTService
今天
3
0
openJDK之JDK9的String

1.openJDK8的String 先来看下openJDK8的String的底层,如下图1.1所示: 图1.1 底层上使用的是char[],即char数组 每个char占16个bit,Character.SIZE的值是16。 2.openJDK9中的String 图2.1...

克虏伯
今天
4
0
UEFI 模式下如何安装 Ubuntu 16.04

作者:知乎用户 链接:https://www.zhihu.com/question/52092661/answer/259583475 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 针对UEFI模式下安装U...

寻知者
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部