文档章节

Hadoop学习笔记(一):初识Hadoop与配置

出场自带BGM
 出场自带BGM
发布于 2017/01/29 17:01
字数 1650
阅读 10
收藏 0

一、Hadoop是什么?

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

    用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

二、Hadoop有什么优点?

  1. 高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

  2. 高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  3. 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

  4. 高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

  5. 低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

三、Hadoop适用于那些项目?

    随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型数据计算的框架,但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop:

    1、低延迟的数据访问

Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的。但是如果你真的想要取代一个实时数据库,可以尝试一下HBase来实现数据库实时读写。

    2、结构化数据

Hadoop不适用于结构化数据,却非常适用于半结构化和非结构化数据。Hadoop和RDBMS不同,一般采用分布式存储,因此在查询处理的时候将会面临延迟问题。

    3、数据量并不大的时候

Hadoop一般适用于多大的数据量呢?答案是:TB 或者PB。当你的数据只有几十GB时,使用Hadoop是没有任何好处的。按照企业的需求有选择性的的使用Hadoop,不要盲目追随潮流。Hadoop很强大。但企业在使用Hadoop或者大数据之前,首先要明确自己的目标,再确定是否选对了工具。

    4、大量的小文件

小文件指的是那些size比HDFS的block size(默认64M)小得多的文件。如果在HDFS中存储大量的小文件,每一个个文件对应一个block,那么就将要消耗namenode大量的内存来保存这些block的信息。如果小文件规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限。

    5、太多的写入和文件更新

HDFS是采用的一些多读方式。当有太多文件更新需求,Hadoop没有办法支持。

    6、MapReduce可能不是最好的选择

MapReduce是一个简单的并行编程模型。是大数据并行计算的利器,但很多的计算任务、工作及算法从本质上来说就是不适合使用MapReduce框架的

四、准备Linux环境

这里选用centos7。

五、Hadoop下载

官网下载,稳定版即可。

六、Hadoop的准备工作

    1、设置静态ip地址:

1、$ ip addr   如果无法获取ip时记录下网卡名称。
2、$ cd /etc/sysconfig/network-scripts/ 回车确定,ls查看文件
3、$ vim ifcfg-网卡名称  回车确定

4、将最后一项“ONBOOT=no”改为“ONBOOT=yes” (a键进入编辑模式,完成后“ESC”键退出编辑模式,输入wq保存退出)

5、$ service network restart   重启服务  也可输入  $ systemctl restart netwrok  
6、$ ip addr 查看是否可以自动获取IP地址。
7、$ vim /etc/sysconfig/network-scripts/ifcfg-网卡名称
修改如下:
BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.0.20
NETMASK=255.255.255.0
GATEWAY=192.168.0.1
完成后保存退出。
8、$ service network restart 启动服务

    2、修改主机名

1、$ Vim  /etc/sysconfig/network 
修改如下
NETWORKING=yes
HOSTNAME=aaa01(主机名)
保存退出
2、$ vim  /etc/hosts
修改主机名和ip的映设关系,修改如下:
192.168.0.103  aaa01
保存退出

    3、关闭防火墙

$ sudo systemctl stop firewalld.servicechkconfig iptables off   关闭防火墙
$ sudo systemctl disable firewalld.service  关闭开机启动

 

    七、Hadoop配置

(懒得一个个写代码块了。。。。见谅。)

    1、core-site.xml

<configuration>

指定HDFS老大(nameNode地址)

<property>

<name>fs.defaultFS</name>

<value>hdfs://aaa01:9000</value>(或者IP地址:端口)

</property>

指定Hadoop运行时产生文件的存放地址

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop-2.7.3/tmp </value>

</property>

</configuration>

 

    2、hdfs-site.xml

<configuration>

配置分布式存放数量

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

 

    3、mapred-site.xml(mv mapred-site.xml.template mapred-site.xml 修改文件)

<configuration>

告诉hadoop以后RM运行在yarn上

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

 

    4、yarn-site.Xml

<configuration>

Nodemanager获取数据的方式是shuffle的方式

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

指定yarn的老大(resourcemanager)的地址

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

 

    5、Hadoop-env.sh

添加jiava_home

    八 、运行Hadoop(伪分布式)

$ ./start-all-sh   启动全部服务 脚本在sbin目录下

    九、SSH免登陆

这时你会发现需要输入好几次ssh的密码,其实是可以实现免密登录的只需要几步操作。

1、进入 ~ 目录

2、$ ssh-keygen -t rsa 设置钥匙 RSA 给定加密算法 运行后生成两个文件  公钥跟私钥。
3、$ cp id_rsa.pub authorized_keys  或者 ssh-copy-id fengyang01   copy公钥  一直回车
4、$ ssh-copy-id  192.168.0.106   copy公钥给192.168.0.106  一直回车 实现免登陆

 

    这时再次启动就不在需要输入ssh密码了。另外这时本人第一次写技术博客。。。。如果有不对的地方欢迎指出,毕竟写博客也就为了学习交流,如有不懂的也可留言,看到的话会回的。

 

 

 

 

© 著作权归作者所有

出场自带BGM
粉丝 1
博文 2
码字总数 1676
作品 0
黄浦
私信 提问
十小时入门大数据学习笔记(二)

第二章 初识Hadoop 2.1Hadoop概述 名称由来:项目作者的孩子对黄色大象玩具的命名 开源、分布式存储与分布式计算的平台 在这里还是要推荐下我自己建的大数据学习群:199427210,群里都是学大数...

董黎明
03/02
16
0
大数据学习~Hadoop初识一

今天趁着端午节的最后一天假期,把想看的视频看了下。也走了一遍Hadoop的安装步骤。总的来说流程也明白了很多。这次文章简单的介绍知识点。具体安装步骤大家可以先看网上的。后面有时间的时候...

super糖
2018/06/18
0
0
初识Hadoop

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。 《Hadoop基础教程》是我读的第一...

Emilypz
2015/10/09
798
5
大话大数据(一)

大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖...

提广乾
2016/11/25
38
0
Apache Flink实战(一) - 简介

1 功能 2 用户 国际 国内 3 特点 ◆ 结合Java、Scala两种语言 ◆ 从基础到实战 ◆ 系统学习Flink的核心知识 ◆ 快速完成从入门到上手企业开发的能力提升 4 安排 ◆ 初识Flink ◆ 编程模型及核...

javaedge
04/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

64.监控平台介绍 安装zabbix 忘记admin密码

19.1 Linux监控平台介绍 19.2 zabbix监控介绍 19.3/19.4/19.6 安装zabbix 19.5 忘记Admin密码如何做 19.1 Linux监控平台介绍: 常见开源监控软件 ~1.cacti、nagios、zabbix、smokeping、ope...

oschina130111
今天
9
0
当餐饮遇上大数据,嗯真香!

之前去开了一场会,主题是「餐饮领袖新零售峰会」。认真听完了餐饮前辈和新秀们的分享,觉得获益匪浅,把脑子里的核心纪要整理了一下,今天和大家做一个简单的分享,欢迎感兴趣的小伙伴一起交...

数澜科技
今天
7
0
DNS-over-HTTPS 的下一代是 DNS ON BLOCKCHAIN

本文作者:PETER LAI ,是 Diode 的区块链工程师。在进入软件开发领域之前,他主要是在做工商管理相关工作。Peter Lai 也是一位活跃的开源贡献者。目前,他正在与 Diode 团队一起开发基于区块...

红薯
今天
5
0
CC攻击带来的危害我们该如何防御?

随着网络的发展带给我们很多的便利,但是同时也带给我们一些网站安全问题,网络攻击就是常见的网站安全问题。其中作为站长最常见的就是CC攻击,CC攻击是网络攻击方式的一种,是一种比较常见的...

云漫网络Ruan
今天
11
0
实验分析性专业硕士提纲撰写要点

为什么您需要研究论文的提纲? 首先当您进行研究时,您需要聚集许多信息和想法,研究论文提纲可以较好地组织你的想法, 了解您研究资料的流畅度和程度。确保你写作时不会错过任何重要资料以此...

论文辅导员
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部