文档章节

Hadoop初步体验(安装与测试)

扬州炒饭
 扬州炒饭
发布于 2015/02/12 16:29
字数 535
阅读 146
收藏 8
点赞 0
评论 0

简述:Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。

物理主机、虚拟机、虚拟主机这三个就不多说了。我们先在ubuntu里添加一个叫hadoop的用户

1:安装jdk

下载jdk: jdk-7u75-linux-x64.tar.gz

安装jdk: 

#切换到root用户
su root

#进入用户编译的目录
cd /usr/local/lib
#将jdk压缩包解压到当前路径
tar -zxvf [jdk文件路径]/java-jdk-1.7/jdk-7u75-linux-x64.tar.gz

#编辑linux配置文件
gedit /etc/profile
#添加如下文字
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75    
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
#保存文件

#将jdk1.7.0_75目录的拥有者改为root组的root用户
chown root:root -R /usr/local/lib/jdk1.7.0_75
#更改目录和文件的模式
chmod 755 -R /usr/local/lib/jdk1.7.0_75
#生效
source /etc/profile

#测试jdk,这条命令检查jdk安装是否成功。运行这条命令,只要没有报错就表明安装成功了。
java -version

2:在虚拟机中安装hadoop

下载hadoop:hadoop-1.2.1.tar.gz

安装hadoop:

#切换到hadoop用户
su hadoop

#进入第三方包目录
cd /opt
tar -xvzf [hadoop文件路径]/hadoop-1.2.1.tar.gz

#进入hadoop目录,配置几个文件

#core-site.xml
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

#mapred-site.xml
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>

#hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

#在hadoop-env.sh文件里添加如下一条语句:
export JAVA_HOME=/usr/local/lib/jdk1.7.0_75

3:安装rsync和ssh

sudo apt-get install ssh rsync
ssh-keygen -t dsa -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
ssh localhost

4:启动hadoop

#进入hadoop目录
cd /opt/hadoop-1.2.1

#格式化hadoop_namenode
./bin/hadoop namenode -format

#启动hadoop所有节点
./bin/start-all.sh

5:测试(词频统计)

#进入hadoop目录
cd /opt/hadoop-1.2.1

#将当前目录下的README.txt放到hadoop进行测试
./bin/hadoop fs -put README.txt readme.txt

#运行hadoop 的examples 的wordcount,测试hadoop 的执行。
./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount readme.txt output

#这条命令查看处理结果
./bin/hadoop fs -cat output/part-r-00000



© 著作权归作者所有

共有 人打赏支持
扬州炒饭
粉丝 41
博文 92
码字总数 24585
作品 0
程序员
CentOS6.6搭建Hadoop2.5.2伪分布式环境

Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。 首先准备一个C...

爱兔一生 ⋅ 2015/07/07 ⋅ 0

编译安装spark

1.官网下载未编译的spark的jar包,选择下载的时候选择source code 2.安装jdk,maven。 3.修改spark根目录下的pom.xml文件(这一步不要做,做了反而会导致编译不过,因为使用-Phadoop-2.3参数...

cjun1990 ⋅ 2015/09/17 ⋅ 0

Hadoop初体验:快速搭建Hadoop伪分布式环境

0.前言 本文旨在使用一个全新安装好的Linux系统从0开始进行Hadoop伪分布式环境的搭建,以达到快速搭建的目的,从而体验Hadoop的魅力所在,为后面的继续学习提供基础环境。 对使用的系统环境作...

xpleaf ⋅ 2017/08/30 ⋅ 0

Hadoop MapReduce下一代 - 命令行Mini集群

目的: 使用命令行接口运行Mini集群,用户可以使用一个简单的命令启动或者停止一个单节点的Hadoop集群,不需要设置任何环境变量和管理配置文件。这个CLI Mini集群将会启动Yarn/MapReduce和H...

chapin ⋅ 2014/10/31 ⋅ 0

在Windows下安装Hadoop 图文教程

Windows下运 行Hadoop,通常有两种方式:一种是用VM方式安装一个Linux操作系统,这样基本可以实现全Linux环境的Hadoop运行;另一种是通过 Cygwin模拟Linux环境。后者的好处是使用比较方便,安...

小帅帅丶 ⋅ 2015/01/08 ⋅ 0

APM 代理环境部署之 Hadoop 篇

面对企业中越来越复杂且相互依赖的 IT 环境和应用。IBM Cloud Application Performance Management (APM) 不仅是一个监控工具。更是可视化,可控性和自动化的解决方案。它是您身边的职能管家...

牛 凤枝 ⋅ 05/02 ⋅ 0

Impala入门笔记

问题背景: 初步了解Impala的应用 重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍 写作目的: 了解Impala的安装过程 初步了解Impala的使用 比较Impala与Hive的性能测试 适合阅读...

SANSOM ⋅ 2014/04/02 ⋅ 0

Apache Kylin v2.0.0 Beta 尝鲜版上线

Apache Kylin 社区于日前宣布:Apache Kylin v2.0.0 Beta 版发布。 此次 Apache Kylin v2.0.0 Beta 升级的功能有: (KYLIN-1875)支持雪花数据模型 (KYLIN-2467)支持TPC-H查询 (KYLIN-2...

王练 ⋅ 2017/02/28 ⋅ 11

工作日记:Hadoop客户端配置需与集群节点保持一致

昨天因为datanode出现大规模离线的情况,初步判断是dfs.datanode.max.transfer.threads参数设置过小。于是将所有datanode节点的hdfs-site.xml配置文件都作了调整。重启集群后,为了验证,试着...

alexanda2000 ⋅ 2017/01/07 ⋅ 0

hadoop 分布式集群初步搭建

一、配置环境 1.设置主机名和对应的地址映射 [root@master ~]# cat /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.loc......

一语成谶灬 ⋅ 2017/07/26 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

磁盘管理—逻辑卷lvm

4.10-4.12 lvm 操作流程: 磁盘分区-->创建物理卷-->划分为卷组-->划分成逻辑卷-->格式化、挂载-->扩容。 磁盘分区 注: 创建分区时需要更改其文件类型为lvm(代码8e) 分区 3 已设置为 Linu...

弓正 ⋅ 23分钟前 ⋅ 0

Spring源码解析(六)——实例创建(上)

前言 经过前期所有的准备工作,Spring已经获取到需要创建实例的 beanName 和对应创建所需要信息 BeanDefinition,接下来就是实例创建的过程,由于该过程涉及到大量源码,所以将分为多个章节进...

MarvelCode ⋅ 43分钟前 ⋅ 0

a href="#"

<a href="#">是链接到本页,因为你有的时候需要有个链接的样式,但是又不希望他跳转,这样写,你可以把这个页面去试试

颖伙虫 ⋅ 50分钟前 ⋅ 0

js模拟栈和队列

栈和队列 栈:LIFO(先进后出)一种数据结构 队列:LILO(先进先出)一种数据结构 使用的js方法 1.push();可以接收任意数量的参数,把它们逐个推进队尾(数组末尾),并返回修改后的数组长度。 2....

LIAOJIN1 ⋅ 50分钟前 ⋅ 0

180619-Yaml文件语法及读写小结

Yaml文件小结 Yaml文件有自己独立的语法,常用作配置文件使用,相比较于xml和json而言,减少很多不必要的标签或者括号,阅读也更加清晰简单;本篇主要介绍下YAML文件的基本语法,以及如何在J...

小灰灰Blog ⋅ 59分钟前 ⋅ 0

IEC60870-5-104规约传送原因

1:周期循环2:背景扫描3:自发4:初始化5:请求6:激活7:激活确认8:停止激活9:停止激活确认10:激活结束11:远程命令引起的返送信息12:当地命令引起的返送信息13:文件传送20:响应总召...

始终初心 ⋅ 今天 ⋅ 0

【图文经典版】冒泡排序

1、可视化排序过程 对{ 6, 5, 3, 1, 8, 7, 2, 4 }进行冒泡排序的可视化动态过程如下 2、代码实现    public void contextLoads() {// 冒泡排序int[] a = { 6, 5, 3, 1, 8, 7, 2, ...

pocher ⋅ 今天 ⋅ 0

ORA-12537 TNS-12560 TNS-00530 ora-609解决

oracle 11g不能连接,卡住,ORA-12537 TNS-12560 TNS-00530 TNS-12502 tns-12505 ora-609 Windows Error: 54: Unknown error 解决方案。 今天折腾了一下午,为了查这个问题。。找了N多方案,...

lanybass ⋅ 今天 ⋅ 0

IDEA反向映射Mybatis

1.首先在pom文件的plugins中添加maven对mybatis-generator插件的支持 ` <!-- mybatis逆向工程 --><plugin><groupId>org.mybatis.generator</groupId><artifactId>mybatis-generator-ma......

lichengyou20 ⋅ 今天 ⋅ 0

4.10/4.11/4.12 lvm讲解 4.13 磁盘故障小案例

准备磁盘分区 fdisk /dev/sdb n 创建三个新分区,分别1G t 改变分区类型为8e 准备物理卷 pvcreate /dev/sdb1 pvcreate /dev/sdb2 pvcreate /dev/sdb3 pvdisplay/pvs 列出当前的物理卷 pvremo...

Linux_老吴 ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部