文档章节

Hadoop学习记录

傅小水water
 傅小水water
发布于 2017/04/07 16:12
字数 1231
阅读 3
收藏 0
点赞 0
评论 0

#第一章、安装Linux服务器 本教程安装的是CentOS系统。 安装完VMware虚拟机后,运行虚拟机,点击“创建新的虚拟机”,选择典型安装模式,点机下一步。 输入图片说明
选择下载的镜像文件,点下一步。 输入图片说明
用户名不能使用root,root是Linux保留的最高权限用户,填写完成点下一步。 输入图片说明
选择虚拟机保存出的路径,点下一步。 输入图片说明
配置虚拟机硬盘大小,点下一步。 输入图片说明
在这一步,点击自定义硬件,可以自定义配置虚拟机的各项数据,配置完点完成,启动虚拟机开始安装。 输入图片说明

#第二章、Hadoop的伪分布安装 伪分布安装的环境是:CentOS系统和Windows 7系统,在VMware上安装CentOS系统与Windows通过host-only的方式组网。 ##Linux环境配置
Host-only方式组网需要在Windows上开启VM虚拟网卡,并设置静态IP。
CentOS的用户名:root,密码:tank
Windows的网络,VMware Network Adapter VMnet1

  • 1、在CentOS上设置静态IP。
    在System菜单下选择Network Connections,双击System ech0,选择IPv4 Settings选项卡,Method选择Manual(静态),然后新增一条IP记录,填写IP地址、子网掩码、网关,点击应用。
    输入图片说明
  • 2、打开CentOS终端,重启网卡。
    输入命令:service network restart。
    验证:使用ifconfig查看IP地址是否更改生效。
    输入图片说明
    输入图片说明
  • 3、修改主机名,主机名相当于域名,用来访问该主机的名字。
    查看主机名,命令:hostname。
    修改主机名有两种方法:
    A: 修改当前会话主机名,命令是hostname <主机名>。
    B: 修改配置文件,是永久性的修改,在vi /etc/sysconfig/network,把hostname改成hadoop。
    输入图片说明
    输入图片说明
  • 4、把hostname与ip绑定。
    执行命令vi /etc/hosts,在最下面新增一行内容,如下:192.168.40.100 hadoop,保存退出。
    验证:ping hadoop,如果有包返回则修改成功。
    输入图片说明
    输入图片说明
    输入图片说明
  • 5、关闭防火墙和关闭防火墙的自动启动。
    <1> 查看防火墙命令:service iptables status。
    <2> 关闭防火墙命令:service iptables stop。
    验证是否关闭:service iptables status。

    <3> 查看防火墙是否自动启动:chkconfig --list | grep iptables。
    <4> 关闭防火墙自动启动:chkconfig iptables off。
    验证防火墙是否自动启动:chkconfig --list | grep iptables,全部是off则为成功。
  • 6、设置SSH(Secure Shell)的免密码登陆。首先生成密钥,然后把密钥复制一份,名字为authorized_keys【必须为该名字,登录时会读取该文件】。
    <1> 执行命令 ssh-keygen –t rsa 产生密钥,一直回车即可,密钥位于 ~/.ssh/id_rsa.pub
    <2> 执行命令 cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
    验证:ssh localhost
    输入图片说明
    输入图片说明
    输入图片说明
    ##安装JDK <1> 执行命,rm -rf /usr/local/* 删除所有内容。
    <2> 使用WinSCP工具把jdk-6u45-linux-x64.bin传送到CentOS的/user/local文件夹下。
    <3> 执行命令,chmod u+x jdk-6u45-linux-x64.bin,给jdk-6u45-linux-x64.bin文件赋予执行权限。
    <4> 执行命令,./ jdk-6u45-linux-x64.bin 解压缩。
    <5> 执行命令,mv jdk-6u45-linux-x64.bin jdk 重命名
    <6> 执行命令,vi /etc/profile 设置环境变量,在空白处增加两行内容
    export JAVA_HOME=/usr/local/jdk
    export PATH=.:$JAVA_HOME/bin:$PATH
    <7> 执行命令,source /etc/profile 让该设置立即生效
    验证:执行命令,java –version
    输入图片说明
    输入图片说明
    输入图片说明
    输入图片说明
    输入图片说明
    输入图片说明
    输入图片说明
    输入图片说明

安装Hadoop

<1> 使用WinSCP工具把jdk-6u45-linux-x64.bin传送到CentOS的/user/local文件夹下。
<2> 执行命令,tar -zxvf hadoop-1.2.1.tar.gz 解压缩Hadoop。
<3> 执行命令,mv hadoop-1.2.1 hadoop,修改文件名称
<3> 执行命令,vi /etc/profile 设置环境变量

export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

<4> 执行命令,source /etc/profile 让配置立即生效
<5> 修改hadoop的配置文件,位于$HADOOP_HOME/conf文件夹下。

【注:可以用WinSCP工具直接进行修改】  
【注:配置文件中不允许出现中文,否则无法执行】   
【hadoop 环境变量脚本文件hadoop-env.sh】  
        A: 把行首的‘#’号删掉  
        B: export JAVA_HOME=/usr/local/jdk。  

【hadoop 核心配置文件core-site.xml】

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop:9000</value>
    </property>
</configuration>

【hdfs 配置文件hdfs-site.xml】

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

【MapReduce 配置文件mapred-site.xml】

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>hadoop:9001</value>
    </property>
</configuration>

<6> 执行命令,hadoop namenode -format 对hadoop进行格式化。
<7> 执行命令,start-all.sh,启动hadoop,总共有五个进程启动。分别是namenode、datanode、secondarynamenode、jobtracker、tasktracker。
验证:执行命令,jps,显示上面五个进程就启动成功了。
<8> 通过Linux浏览器访问:http://hadoop:50070http://hadoop:50030
【windows下访问,需要修改C:\Windows\System32\drivers\etc\hosts文件,对IP和域名进行绑定】。
<9> NameNode进程没有启动成功。

(1)	没有格式化。
(2)	配置文件只copy,不修改。
(3)	Hostname和ip没有绑定。
(4)	SSH免密码登录没有配置成功 

<10> 多次格式化hadoop也是错误的。
方法:删除/usr/local/hadoop/tmp文件夹,重新格式化。
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明
输入图片说明

© 著作权归作者所有

共有 人打赏支持
傅小水water
粉丝 1
博文 15
码字总数 9373
作品 0
杭州
Hadoop是什么

本节和大家一起学习一下Hadoop,主要介绍一下Hadoop的概念以及它的特点,欢迎大家一起来学习Hadoop的知识。 1.Hadoop是什么 Hadoop原来是ApacheLucene下的一个子项目,它最初是从Nutch项目中...

闵开慧 ⋅ 2012/08/01 ⋅ 0

Mahout安装与配置笔记

一、硬件环境 操作系统:Linux ubuntu-13.04-desktop-i386 jdk安装版本:jdk-7u51-linux-i586 Hadoop版本:Hadoop-1.1.1(一个Namenode,三个Datanode部署) 二、安装步骤 在Mahout安装之前读...

kartik ⋅ 2014/06/01 ⋅ 0

eclipse编译hadoop源码

由于开发mapreduce的时候,有时需要看源码,再次down下来,编译了下,仅作为学习记录 首先需要安装ant,svn(我用的是eclipse的插件); svn地址:http://svn.apache.org/repos/asf/hadoop/co...

东岸往事 ⋅ 2013/01/05 ⋅ 0

Hadoop家族学习路线图

权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增...

_Mr_Computer_ ⋅ 2016/07/13 ⋅ 0

Linux命令行下运行Hadoop单元测试

最近在学习Hadoop,在虚拟机上面的Centos系统下搭建了一个单机的Hadoop系统,对照《Hadoop权威指南》一边看一边运行里面的例子。由于大部分程序员都是用Eclipse来开发Hadoop程序,但我习惯于...

chyileon ⋅ 2013/05/29 ⋅ 0

Hadoop家族学习路线图(转)

Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN,...

冯辉 ⋅ 2016/11/03 ⋅ 0

我们正在开发中,如果你对机器学习、深度学习感兴趣,希望你加入我们的团队!

我们正在开发中,如果你对机器学习、深度学习感兴趣,希望你加入我们的团队! 我们的打算: 构建一个企业级的推荐系统,支持100亿条偏好处理能力; 使用的技术:a) 推荐算法:SVD、matrix fa...

wuawua ⋅ 2014/04/24 ⋅ 26

京东大数据工程师教你怎样用Sqoop

Sqoop是什么 Sqoop:SQL-to-Hadoop 连接 传统关系型数据库 和 Hadoop 的桥梁 把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中; 把数据从 Hadoop 系统里抽取并导出到关...

JAVA丶学习 ⋅ 04/16 ⋅ 0

『 Spark 』1. spark 简介

原文链接:『 Spark 』1. spark 简介 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了...

litaotao ⋅ 2016/04/16 ⋅ 0

求指教!!!Hadoop的乱码问题如何解决?

今天本来打算写java虚拟机的学习记录的。 但是在工作室里做任务时,出现了一个乱码问题,现在也还没有很好的解决办法,所以写出来让大家交流一下,以求好办法。 我们搭建了个由5台机器的Had...

seng ⋅ 2013/06/26 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用TfJob导出分布式模型训练模型。 第一篇:阿里云上使用JupyterHub 第二篇:阿里云上小试TFJob 第三篇:利用TFJob运行...

全部原谅 ⋅ 14分钟前 ⋅ 0

007. 深入JVM学习—老年代

老年代空间的主要目的是用于存储由Eden发送来的对象,一般在经历好几次“Minor GC”还会保存下来的对象,才会被复制到老年代,这样就可以存放更多的对象,同时在老年代中执行GC的次数也相对较...

影狼 ⋅ 15分钟前 ⋅ 0

常见的一些C#开源框架或者开源项目

原:https://blog.csdn.net/qq_27825451/article/details/70666044 Json.NET http://json.codeplex.com/ Json.Net 是一个读写Json效率比较高的.Net框架.Json.Net 使得在.Net环境下使用Json更......

whoisliang ⋅ 15分钟前 ⋅ 0

设计模式基本原理

刚开始接触编程这行的时候看过设计模式,当时感觉学这些模式没有太大的用处,当时也看不太懂。但是随着慢慢接触这一行,经过一段时间的编程以后,再回过头来看设计模式,发现设计模式的确是太...

王子城 ⋅ 19分钟前 ⋅ 0

阿里云全面支持IPv6!一文揽尽4位大咖精彩演讲

摘要: 自从去年11月以来,阿里巴巴高度重视数据中心的网络改造、云产品改造、应用及网络改造等多个维度,经过半年以来的建设,阿里云已经完成了域名解析等关键产品的分析,现在阿里云已经完...

传授知识的天使 ⋅ 29分钟前 ⋅ 0

windows Android sdk 配置

1、下载Android SDK,点击安装,直接默认路径即可! 下载地址:http://developer.android.com/sdk/index.html 2、默认路径安装后,安装完成,开始配置环境变量。 3、打开计算机属性——高级系...

阿豪boy ⋅ 32分钟前 ⋅ 0

bash shell script 简明教程

User <--> bash <--> kernel shell is not kernel or part of kernel various shells: tcsh, csh, bash, ksh find the using shell: echo $SHELL find all the shells: cat /etc/shells what......

mskk ⋅ 34分钟前 ⋅ 0

Service Mesh简史

William Morgan Service Mesh是一个相当新的概念,讲它的“历史”似乎有些勉强。就目前而言,Service Mesh已经在部分企业生产环境中运行了超过18个月,它的源头可以追溯到2010年前后互联网公...

好雨云帮 ⋅ 35分钟前 ⋅ 0

10个免费的服务器监控工具

监控你的WEB服务器或者WEB主机运行是否正常与健康是非常重要的。你要确保用户始终可以打开你的网站并且网速不慢。服务器监控工具允许你收集和分析有关你的Web服务器的数据。 有许多非常好的服...

李朝强 ⋅ 47分钟前 ⋅ 0

压缩工具之zip-tar

zip 支持目录压缩。使用yum安装zip包,使用yum安装unzip包 zip 1.txt.zip 1.txt #将1.txt文件压缩,新生成的压缩文件为1.txt.zip,原文件保留 zip -r 123.zip 123/ #-r对目录操作。将123/目录...

ZHENG-JY ⋅ 48分钟前 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部