文档章节

Hadoop - 企业级大数据管理平台CDH(介绍和准备工作)

喵了_个咪
 喵了_个咪
发布于 08/13 09:13
字数 1400
阅读 641
收藏 11

哈喽大家好呀,仅经过了一段时间大数据相关的博文又和大家见面了,笔者之前有写过一套Hadoop大数据相关的博客,为什么今天又要开坑呢?当然是有原因,随着不断的学习了解,慢慢意识到之前做法存在很多缺陷,最终对比了比较成熟的解决方案EMR和CDH,最终选择了使用CDH来搭建大数据管理平台,那么我们就开始新的一趴,企业级大数据管理平台CDH的学习吧!

附上:

喵了个咪的博客:w-blog.cn

cloudera官网: https://www.cloudera.com/

官方文档地址: https://www.cloudera.com/documentation/enterprise/latest.html

一 , CDN介绍和解决的问题

CDH是由cloudera进行开发的大数据一站式平台管理解决方案,基于Hadoop生态的第三方发行版本,这样的描述相信大家还是挺难理解的,我们一起来梳理下CDH带来的改观.

作坊和工厂有什么区别? 一个是做出来东西就好了,一个是精细化流水线生产

用这个来对比自建Hadoop和CDH再好不过,要理解其中的区别我们需要先对CDH有个基础的认知,先从了解CDH解决了常见的什么问题

组件兼容

  • 复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。
  • CDH每个版本都会有兼容认证都是经过严格的测试之后公布的,理论上来说只要统一CDH版本就不会出现兼容问题

稳定安全

  • 不同的版本会有不同的漏洞很容易被被利用,又不敢轻易更新
  • 版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch

安装配置管理

  • 复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下,还需要大量的查阅资料文档。
  • 统一的网页进行安装配置,非常详细的文档以及配置的分类注解以及推荐配置(基本都已经是最优配置)

资源监控管理运维

  • 复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如ganglia,nagois等,运维难度较大。
  • 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

企业服务

  • 只能求助社区的帮助,响应差,解决问题需要碰运气.
  • 代码基于Apache协议,100%开源。同时提供企业付费服务一对一支持,作为保障的后盾

PS: 使用CDH部署集群不能代替对各个组件进行单独的学习了解的工作,非常推荐大家从单个组件安装部署开始最后在统一使用CDH部署

二 , 准备工作

环境准备

  • CentOS 7.4 64位
  • JDK 1.8
  • Cloudera Manager 5.15.0

需要准备一台cm服务器 两台master服务器 使用三台节点服务器

服务器最低要求 4核心8G

所有节点修改hostname

> hostnamectl --static set-hostname cm
> hostnamectl --static set-hostname master-1
> hostnamectl --static set-hostname master-2
> hostnamectl --static set-hostname slave-1
> hostnamectl --static set-hostname slave-2
> hostnamectl --static set-hostname slave-3

修改节点的hosts可以直接通过主机名进行访问

> vim /etc/hosts
# 修改为大家自己服务器的IP地址
192.168.3.10 cm 
192.168.3.21 master-1
192.168.3.22 master-2
192.168.3.31 slave-1
192.168.3.32 slave-2
192.168.3.33 slave-3

依赖文件安装包准备

> mkdir -p  /app/install
> cd /app/install
> wget http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.15.0_x86_64.tar.gz
> wget http://archive.cloudera.com/cdh5/parcels/5.15.0/CDH-5.15.0-1.cdh5.15.0.p0.21-el7.parcel
> wget http://archive.cloudera.com/cdh5/parcels/5.15.0/CDH-5.15.0-1.cdh5.15.0.p0.21-el7.parcel.sha1
> wget http://pic.w-blog.cn/mysql-connector-java.jar

JDK1.8需要自行下载 jdk-8u101-linux-x64.tar.gz

最终我们可以看到有如下文件:

下载慢可选多线程下载工具 axel

cd /app/install
wget http://www.ha97.com/code/axel-2.4.tar.gz
tar zxvf axel-2.4.tar.gz
cd axel-2.4
./configure
make
make install
cd ..

所有节点关闭防火墙和selinux

关闭防火墙:

systemctl stop firewalld.service
systemctl disable firewalld.service
firewall-cmd --state

关闭selinux:

vim /etc/selinux/config

找到SELINUX改为:
SELINUX=disabled

所有节点ssh免密码登录

先在cm 上执行:

ssh-keygen -t rsa   #一路回车到完成
ssh-copy-id -i ~/.ssh/id_rsa.pub root@cm   #将公钥拷贝到本机的authorized_keys上

再在其他节点分别执行以下命令:

注意此处不变,将公钥拷贝到cm的authorized_k

ssh-keygen -t rsa
ssh-copy-id -i ~/.ssh/id_rsa.pub root@cm  

在CM上,将authorized_keys分发到其他节点服务器:

scp ~/.ssh/authorized_keys root@master-1:~/.ssh/
scp ~/.ssh/authorized_keys root@master-2:~/.ssh/
scp ~/.ssh/authorized_keys root@slave-1:~/.ssh/
scp ~/.ssh/authorized_keys root@slave-2:~/.ssh/
scp ~/.ssh/authorized_keys root@slave-3:~/.ssh/

© 著作权归作者所有

共有 人打赏支持
喵了_个咪
粉丝 317
博文 150
码字总数 199180
作品 4
杨浦
技术主管
私信 提问
Apache Kylin 首批入驻微软 Azure 镜像市场

2016年9月21日,微软企业技术决策论坛在北京召开。在该论坛上,微软和世纪互联宣布在中国推出认知服务和 Azure 镜像市场,为中国Azure客户和软件开发商搭建起了一站式门户,方便中国Azure客户...

宣屹
2016/09/21
1K
3
Cloudera CDH 、Hortonworks DHP和MapR比较

目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。   手工部署呢,需配置太多参数,但是,好理解其原理,建议初学这...

hblt-j
08/13
0
0
Hadoop专业解决方案-第一章 大数据和Hadoop生态圈

一、前言:   非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在...

张子良
2014/01/21
0
0
什么是hadoop大数据?我又为什么要写这篇文章?

点击链接 https://my.oschina.net/ijj/blog 关注我的博客。学习更多hadoop知识。 这些天,有很多人咨询我大数据相关的一些信息,觉得大数据再未来会是一个朝阳行业,希望能尽早学会、入行,借...

隐姓埋名啊
2017/03/16
494
1
揭秘即将亮相 HadoopCon 2016 的大数据新星

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利。在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支...

局长
2016/09/09
1K
0

没有更多内容

加载失败,请刷新页面

加载更多

Caffe(二)-Python-自定义网络

这里我们用一个例子先来体验一下 首先定义一下我们的环境变量 $PYTHONPATH,我这儿是Windows开发环境,至于Windows Caffe怎么编译由读者自己下去搞定 我使用的控制台是 Windows PowerShell 添...

Pulsar-V
35分钟前
3
0
ActiveMQ从入门到精通(二)之可靠性机制

ActiveMQ的可靠性机制 缘由( 确认JMS消息) 只要消息被确认之后,才认为消息被成功消费了。消息的成功消费包括三个阶段:客户端接收消息、客户端处理消息以及客户端确认消息。在事务性会话中...

一看就喷亏的小猿
43分钟前
1
0
源码分析 Mybatis 的 foreach 为什么会出现性能问题

背景 最近在做一个类似于综合报表之类的东西,需要查询所有的记录(数据库记录有限制),大概有1W条记录,该报表需要三个表的数据,也就是根据这 1W 个 ID 去执行查询三次数据库,其中,有一...

TSMYK
今天
7
0
IC-CAD Methodology企业实战之openlava

在云计算解决安全问题并成为IC界主流运算平台之前,私有的服务器集群系统仍然是各大IC公司的计算资源平台首选。 现在主流的服务器集群管理系统包括lsf,openlava,SkyForm,三者都属于lsf一系...

李艳青1987
今天
7
0
http response stream 字节流 接收与解码

在接收图片、音频、视频的时候,需要用到二进制流。 浏览器会发给客户端 字节Byte流,一串串的发过来_int8格式 -128~127(十进制),也就是8bit(位)。 客户端接收的时候,对接收到的字节收集,...

大灰狼wow
今天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部