文档章节

Hadoop初步体验(安装与测试)

扬州炒饭
 扬州炒饭
发布于 2015/02/12 16:29
字数 535
阅读 147
收藏 8

简述:Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。

物理主机、虚拟机、虚拟主机这三个就不多说了。我们先在ubuntu里添加一个叫hadoop的用户

1:安装jdk

下载jdk: jdk-7u75-linux-x64.tar.gz

安装jdk: 

#切换到root用户
su root

#进入用户编译的目录
cd /usr/local/lib
#将jdk压缩包解压到当前路径
tar -zxvf [jdk文件路径]/java-jdk-1.7/jdk-7u75-linux-x64.tar.gz

#编辑linux配置文件
gedit /etc/profile
#添加如下文字
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75    
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
#保存文件

#将jdk1.7.0_75目录的拥有者改为root组的root用户
chown root:root -R /usr/local/lib/jdk1.7.0_75
#更改目录和文件的模式
chmod 755 -R /usr/local/lib/jdk1.7.0_75
#生效
source /etc/profile

#测试jdk,这条命令检查jdk安装是否成功。运行这条命令,只要没有报错就表明安装成功了。
java -version

2:在虚拟机中安装hadoop

下载hadoop:hadoop-1.2.1.tar.gz

安装hadoop:

#切换到hadoop用户
su hadoop

#进入第三方包目录
cd /opt
tar -xvzf [hadoop文件路径]/hadoop-1.2.1.tar.gz

#进入hadoop目录,配置几个文件

#core-site.xml
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

#mapred-site.xml
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>

#hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

#在hadoop-env.sh文件里添加如下一条语句:
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75

3:安装rsync和ssh

sudo apt-get install ssh rsync
ssh-keygen -t dsa -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
ssh localhost

4:启动hadoop

#进入hadoop目录
cd /opt/hadoop-1.2.1

#格式化hadoop_namenode
./bin/hadoop namenode -format

#启动hadoop所有节点
./bin/start-all.sh

5:测试(词频统计)

#进入hadoop目录
cd /opt/hadoop-1.2.1

#将当前目录下的README.txt放到hadoop进行测试
./bin/hadoop fs -put README.txt readme.txt

#运行hadoop 的examples 的wordcount,测试hadoop 的执行。
./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount readme.txt output

#这条命令查看处理结果
./bin/hadoop fs -cat output/part-r-00000



© 著作权归作者所有

共有 人打赏支持
扬州炒饭
粉丝 42
博文 93
码字总数 24585
作品 0
程序员
私信 提问
CentOS6.6搭建Hadoop2.5.2伪分布式环境

Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。 首先准备一个C...

爱兔一生
2015/07/07
0
0
编译安装spark

1.官网下载未编译的spark的jar包,选择下载的时候选择source code 2.安装jdk,maven。 3.修改spark根目录下的pom.xml文件(这一步不要做,做了反而会导致编译不过,因为使用-Phadoop-2.3参数...

cjun1990
2015/09/17
111
0
Scala之初步认识与环境准备

了解 Scala 1.1. 什么是 Scala Scala 是 Scalable Language 的简写,是一门多范式的编程语言。 Scala设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟...

飞鱼说编程
2018/12/19
0
0
Hadoop初体验:快速搭建Hadoop伪分布式环境

0.前言 本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境。 对使用的系统环境作...

xpleaf
2017/08/30
0
0
Hadoop MapReduce下一代 - 命令行Mini集群

目的: 使用命令行接口运行Mini集群,用户可以使用一个简单的命令启动或者停止一个单节点的Hadoop集群,不需要设置任何环境变量和管理配置文件。这个CLI Mini集群将会启动Yarn/MapReduce和H...

chapin
2014/10/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

虚拟化 - KVM 和 Xen 比较

Linux虚拟化技术的用户目前有两种免费的开源管理程序可以选择:Xen和KVM。 作为较早出现的虚拟化技术,Xen是“第一类”运行在裸机上的虚拟化管理程序(Hypervisor),也是当前相当一部分商业...

临江仙卜算子
9分钟前
0
0
给windows server中的“未识别的网络”或“无法识别的网络”设置网络位置类型

在windows server中,如果网络没有被正确的识别,那么就需要手工设置一下网络位置类型。 将“公用网络”指定设置为“专用网络“ 【控制面板】--【系统和安全】--【管理工具】--【本地安全策略...

gugudu
今天
1
0
阿里强制要求的21条Java开发规范,可以避免很多坑

1. 【强制】避免通过一个类的对象引用访问此类的静态变量或静态方法,无谓增加编译器解析成本,直接用类名来访问即可。 2. 【强制】所有的覆写方法,必须加@Override注解。 说明:getObject...

天王盖地虎626
今天
8
0
oracle dg 备库未设置convert参数导致ORA-01111,ORA-01110

查看trace 文件: MRP0: Background Managed Standby Recovery process started (amls) started logmerger process Sun Jan 20 07:55:53 2019 Managed Standby Recovery starting Real Time ......

hnairdb
今天
2
0
乱入Linux界的我是如何学习的

欢迎来到建哥学Linux,咳!咳!咳!开个玩笑哈,我是一个IT男,IT界的入门选手,正在学习Linux。 在之前,一直想进军IT界,学习IT技术,但是苦于没有人指导,也不知道学什么,最开始我自己在...

linux-tao
今天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部