文档章节

Hadoop cluster on Cubieboards

cubieboard
 cubieboard
发布于 2014/08/10 17:06
字数 1102
阅读 44
收藏 0

             hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。 
            我用8块A10搭建了一个集群,经过测试性能还是很不错的。去官网看hadoop,这里还有一些高清的大图。打算在上面做一些应用:HDFS写读文件,mapreduce并行计算,hadoop编程.....感兴趣的朋友可以自己搭建一个简单的集群,单机版,双核版都可以,下面有些资源:

         1. Hadoop-CB定制  镜像文件这个适用于CB-A10,集成了集群搭建需要的JDKOpenssh,其中JDK的路径为exportJAVA_HOME=/lib/jdk
         2. Hadoop软件下载 hadoop 0.20.203 , 集群搭建教程 ,我见过集群搭建详细的教程,绝对要分享。



         结合CB的具体情况,搭建集群说明如下:


1.先配置 master,其他的节点大同小异。就那么几个要求:JDK环境、任意slave 和master 无密码相互登录、 hadoop参数配置。

2.完全可以在自己电脑上完成每一块CB的配置,用ssh登录 linaro 用户,我是在自己熟悉的ubuntu12.04上用vim 配置hadoop. 也可为CB 配置输入输出,直接配置CB。可以更新一下CB的vi 到 vim ,个人习惯用vim。

3.创建用户:

$sudo addgroup hadoop

$sudo adduser -ingroup hadoop hadoop

$sudo vim ./etc/sudoers :

hadoop ALL=(ALL:ALL) ALL

4.修改Hostname&添加hosts:

sudo vim ./etc/hosts

192.168.1.40 master

192.168.1.41 slave1

192.168.1.42 slave2

192.168.1.43 slave3

192.168.1.44 slave4

192.168.1.45 slave5

192.168.1.46 slave6

192.168.1.47 slave7

sudo vim ./etc/hostname

cubieboard => master 或 slave

5.静态IP设置

sudo vim ./etc/network/interfaces //资源位置

#auto lo
# iface lo inet loopback
#iface lo eth0 dhcp // 让原来配置失效
auto eth0
iface eth0 inet static
address 192.168.1.40
gateway 192.168.1.1
netmask 255.255.255.0
network 192.168.1.0
broadcast 192.168.1.255 //

sudo vim ./etc/resolvconf/resolv.conf.d/base

nameserver 192.168.1.1 //网关

sudo /etc/init.d/networking restart //重启network

6..SSH 双方无密码登录:

教程讲的很详细,归纳一下: A <=>B : A&B 的authorized_keys 要同时有双方的 id_rsa.pub

A:

ssh-keygen –t rsa –P '' // 获得密钥

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys //追加

chmod 600 ~/.ssh/authorized_keys

ssh localhost //验证

scp ~/.ssh/id_rsa.pub hadoop@192.168.1.40:~/

B:

mkdir ~/.ssh

chmod 700 ~/.ssh

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

rm –r ~/id_rsa.pub

7.JDK 路径: #export JAVA_HOME=/lib/jdk ,记得把“#”去掉。

8.参数配置:

1. core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://master:9000</value>

</property>

</configuration>

2.hdfs-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>dfs.name.dir</name>

<value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

</configuration>

3.mapred-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>master:9001</value>

</property>

</configuration>

9.基本命令:

在hadoop 根目录:

bin/hadoop namenode -format //格式化

bin/hadoop dfsadmin -report //文件报告

bin/start-all.sh // 开启所有进程

bin/stop-all.sh // 结束所有进程

./bin/hadoop jar hadoop-examples-0.20.203.0.jar pi 100 100 //计算pi

10.要是节点多的话,可采用shell脚本减少工作量,希望可以看到shell脚本教程。后续会在集群上做一些应用,再更新吧。

原文作者:aaron
原文链接:http://forum.cubietech.com/forum.php?mod=viewthread&tid=852&highlight=hadoop

本文转载自:http://forum.cubietech.com/forum.php?mod=viewthread&tid=852&highlight=hadoop

cubieboard
粉丝 11
博文 64
码字总数 2651
作品 1
珠海
私信 提问
what is Edge Note of MapR

In my opinion, edge nodes in a Hadoop cluster are typically nodes that are responsible for running the client-side operations of a Hadoop cluster. Typically edge-nodes are kept ......

我是彩笔
2014/11/07
45
0
Hadoop运维操作

1. 处理hadoop的namenode宕机 处理措施: 进入hadoop的bin目录,重启namenode服务 操作命令: cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode 2. 处理hadoop的jobtacker宕机 处理...

长征2号
2017/11/01
0
0
Ironfan在大数据集群部署、配置管理中的应用

Ironfan介绍 在Serengeti中,有二个最重要最关键的功能:一是虚拟机管理,即在vCenter中为一个Hadoop集群创建和管理所需要的虚拟机;另一个是集群软件安装配置管理,即在已安装好操作系统的虚...

vBigData
2013/12/09
0
0
hbase集群间数据迁移

HBase迁移数据方案一(集群互联) 一、需要在hbase集群停掉的情况下迁移 步骤: (1)执行Hadoop distcp -f filelist "hdfs://new cluster ip:9000/hbasetest" (2)在new cluster执行./hbase o......

张欢19933
2016/04/18
945
0
hadoop2集群搭建过程

在这里我选用4台机器进行示范,各台机器的职责如下表格所示 (说明: 1. ZooKeepe使用其它节点的 2. Hadoop0节点安装所有的master, ha的matster全部是worker, 以达到较高的资源利用率,又对m...

zouqingyun
2016/03/22
0
0

没有更多内容

加载失败,请刷新页面

加载更多

java通过ServerSocket与Socket实现通信

首先说一下ServerSocket与Socket. 1.ServerSocket ServerSocket是用来监听客户端Socket连接的类,如果没有连接会一直处于等待状态. ServetSocket有三个构造方法: (1) ServerSocket(int port);...

Blueeeeeee
今天
6
0
用 Sphinx 搭建博客时,如何自定义插件?

之前有不少同学看过我的个人博客(http://python-online.cn),也根据我写的教程完成了自己个人站点的搭建。 点此:使用 Python 30分钟 教你快速搭建一个博客 为防有的同学不清楚 Sphinx ,这...

王炳明
昨天
5
0
黑客之道-40本书籍助你快速入门黑客技术免费下载

场景 黑客是一个中文词语,皆源自英文hacker,随着灰鸽子的出现,灰鸽子成为了很多假借黑客名义控制他人电脑的黑客技术,于是出现了“骇客”与"黑客"分家。2012年电影频道节目中心出品的电影...

badaoliumang
昨天
16
0
很遗憾,没有一篇文章能讲清楚线程的生命周期!

(手机横屏看源码更方便) 注:java源码分析部分如无特殊说明均基于 java8 版本。 简介 大家都知道线程是有生命周期,但是彤哥可以认真负责地告诉你网上几乎没有一篇文章讲得是完全正确的。 ...

彤哥读源码
昨天
18
0
jquery--DOM操作基础

本文转载于:专业的前端网站➭jquery--DOM操作基础 元素的访问 元素属性操作 获取:attr(name);$("#my").attr("src"); 设置:attr(name,value);$("#myImg").attr("src","images/1.jpg"); ......

前端老手
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部