文档章节

大数据系列1:在win7上安装配置Hadoop伪分布式集群

杨尚川
 杨尚川
发布于 2015/04/06 19:04
字数 581
阅读 77
收藏 0

1、  安装虚拟机和操作系统

VMware-workstation-full-10.0.0  或 VirtualBox-4.2.18-88781-Win  下载VMware  下载VirtualBox

ubuntu-13.04-server-amd64.iso 下载ubuntu

2、  设置root用户密码

sudo passwd root

3、  上传文件

利用WinSCP上传JDK和HADOOP文件,利用putty连接虚拟机中的ubuntu,下载WinSCP, 下载putty,  下载jdk下载hadoop

4、  配置JDK和HADOOP

tar -xzvf jdk-7u40-linux-x64.tar.gz

tar -xzvf hadoop-1.2.1.tar.gz

sudo vi /etc/profile

增加:

export JAVA_HOME=/home/ysc/jdk1.7.0_40

export PATH=$PATH:$JAVA_HOME/bin: /home/ysc/hadoop-1.2.1/bin

source /etc/profile

5、配置HADOOP

配置主机名称及网络

vi /etc/hostname

指定名称为host001

vi /etc/hosts

替换内容为:192.168.137.128 host001

同时加入C:\Windows\System32\drivers\etc\hosts文件

查看是否启用IPV6

cat /proc/sys/net/ipv6/conf/all/disable_ipv6

显示0说明ipv6开启,1说明关闭

关闭ipv6的方法:

sudo vi /etc/sysctl.conf

增加下面几行,并重启

#disable IPv6

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

配置SSH

cd /home/ysc

sudo apt-get install openssh-server

ssh-keygen -t rsa(密码为空,路径默认)

cp .ssh/id_rsa.pub .ssh/authorized_keys

ssh host001

yes

cd hadoop-1.2.1

配置HADOOP环境变量

vi conf/hadoop-env.sh

增加:

export JAVA_HOME=/home/ysc/jdk1.7.0_40

配置HADOOP运行参数

vi conf/masters

localhosthost001

 

vi conf/slaves

localhosthost001

 

vi conf/core-site.xml

 

<property>

<name>fs.default.name</name>

<value>hdfs://host001:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/ysc/tmp</value>

</property>

 

vi conf/hdfs-site.xml

 

<property>

  <name>dfs.name.dir</name>

  <value>/home/ysc/dfs/filesystem/name</value>

</property>

<property>

  <name>dfs.data.dir</name>

  <value>/home/ysc/dfs/filesystem/data</value>

</property>

<property>

  <name>dfs.replication</name>

  <value>1</value>

</property>

 

vi conf/mapred-site.xml

                   

<property>

  <name>mapred.job.tracker</name>

  <value>host001:9001</value>

</property>

<property>

  <name>mapred.tasktracker.map.tasks.maximum</name>

  <value>4</value>

</property>

<property>

  <name>mapred.tasktracker.reduce.tasks.maximum</name>

  <value>4</value>

</property>

<property>

  <name>mapred.system.dir</name>

  <value>/home/ysc/mapreduce/system</value>

</property>

<property>

  <name>mapred.local.dir</name>

  <value>/home/ysc/mapreduce/local</value>

</property>

格式化名称节点并启动集群

hadoop  namenode  -format

启动集群并查看WEB管理界面

start-all.sh

访问http://host001:50030可以查看 JobTracker 的运行状态

访问http://host001:50060可以查看 TaskTracker 的运行状态

访问http://host001:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 

hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -inputinput -output output-streaming  -mapper/bin/cat -reducer /usr/bin/wc

hadoop  jar  hadoop-1.2.1/hadoop-examples-1.2.1.jar  wordcount  input  output

停止集群

stop-all.sh

 

 

APDPlat旗下十大开源项目

 

 

 

 

 

© 著作权归作者所有

杨尚川

杨尚川

粉丝 1103
博文 220
码字总数 1624053
作品 12
东城
架构师
私信 提问
好程序员大数据笔记之:Hadoop集群搭建

在学习大数据的过程中,我们接触了很多关于Hadoop的理论和操作性的知识点,尤其在近期学习的Hadoop集群的搭建问题上,小细节,小难点拼频频出现,所以,今天集中总结以下笔记,希望对各位同学...

好程序员IT
05/21
17
0
Apache Hadoop 入门教程第四章

运行在单节点的 YARN 您可以通过设置几个参数,另外运行 ResourceManager 的守护进程和 NodeManager 守护进程以伪分布式模式在 YARN 上运行 MapReduce job。 以下是运行步骤。 (1)配置 et...

哈斗篷
2018/05/10
0
0
Apache Hadoop 入门教程第二章

Apache Hadoop 单节点上的安装配置 下面将演示快速完成在单节点上的 Hadoop 安装与配置,以便你对 Hadoop HDFS 和 MapReduce 框架有所体会。 先决条件 支持平台: GNU/Linux:已经证实了 Ha...

哈斗篷
2018/05/10
0
0
大数据教程(一)—— Hadoop集群坏境搭建配置

前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到...

biubiubiu!
2017/05/02
0
0
大数据(hadoop-Hadoop2.7.3伪分布搭建)

安装准备: vmware10 Centos6.5 64位版本 JDK1.8linux32位版 Hadoop2.7.3版本 安装过程讲解:  字符界面安装centos6.5,网络设置为主机模式或者桥连接  配置静态ip 并测试能不能...

这很耳东先生
04/16
35
0

没有更多内容

加载失败,请刷新页面

加载更多

Java FOR-EACH循环

FOR-EACH循环使得代码更加的简短,也让代码更加易懂,其实他并没有加入什么新的功能。他的功能完全可以用简单的FOR循环代替。 for-each的用法: int a[] = {1,2,3,4,5,6} for(int s:a){ Syst...

无名氏的程序员
27分钟前
3
0
使用HTML5的History API

本文转载于:专业的前端网站➣使用HTML5的History API   HTML5 History API提供了一种功能,能让开发人员在不刷新整个页面的情况下修改站点的URL。这个功能很有用,例如通过一段JavaScript代...

前端老手
29分钟前
4
0
JAVA 编写redisUtils工具类,防止高并发获取缓存出现并发问题

import lombok.extern.slf4j.Slf4j;import org.springframework.data.redis.core.BoundHashOperations;import org.springframework.data.redis.core.BoundValueOperations;import org.......

huangkejie
今天
7
0
JMM内存模型(一)&volatile关键字的可见性

在说这个之前,我想先说一下计算机的内存模型: CPU在执行的时候,肯定要有数据,而数据在内存中放着呢,这里的内存就是计算机的物理内存,刚开始还好,但是随着技术的发展,CPU处理的速度越...

走向人生巅峰的大路
今天
101
0
你对AJAX认知有多少(2)?

接着昨日内容,我们几天继续探讨ajax的相关知识点 提到ajax下面几个问题又是必须要了解的啦~~~ 8、在浏览器端如何得到服务器端响应的XML数据。 通过XMLHttpRequest对象的responseXMl属性 9、 ...

理性思考
今天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部