文档章节

一个助Hadoop集群数据快速上云工具

大大梁
 大大梁
发布于 2017/05/08 17:24
字数 1252
阅读 10
收藏 0

背景

越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上。

当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上。

在阿里云上使用最广泛的存储服务是OSS对象存储。OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这是一个单机版的程序,无法发挥Hadoop分布式的特点。并且因为工具只支持本地文件,所以需要将HDFS上的文件先下载到本地,再通过工具上传,整个过程耗时又耗力。

工具介绍

本文介绍一个从Hadoop集群直接迁移数据到OSS上的工具,该工具由阿里云E-MapReduce团队开发,基于Hadoop社区中常用的DistCp工具,并从E-MapReduce产品中剥离出了一个常见的功能,做成工具开放给全体阿里云客户使用。

1) 下载和安装:
下载附件中的emr-tools.tar.gz工具,并解压缩到本地目录:
tar jxf emr-tools.tar.bz2

2) HDFS数据复制到OSS上:
cd emr-tools
./hdfs2oss4emr.sh /path/on/hdfs oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss

其中accessKeyId和accessKeySecret是你访问阿里云API(包括OSS等云产品)的密钥,bucket-name.oss-cn-hangzhou.aliyuncs.com是OSS的访问域名,包括bucket名称和所在Region的endpoint地址。如果参数都正确,则会启动一个Hadoop MapReduce任务(DistCp),作业运行完毕之后会打印本次数据迁移的信息:

17/05/04 22:35:08 INFO mapreduce.Job: Job job_1493800598643_0009 completed successfully
17/05/04 22:35:08 INFO mapreduce.Job: Counters: 38
File System Counters
FILE: Number of bytes read=0
FILE: Number of bytes written=859530
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=263114
HDFS: Number of bytes written=0
HDFS: Number of read operations=70
HDFS: Number of large read operations=0
HDFS: Number of write operations=14
OSS: Number of bytes read=0
OSS: Number of bytes written=258660
OSS: Number of read operations=0
OSS: Number of large read operations=0
OSS: Number of write operations=0
Job Counters
Launched map tasks=7
Other local map tasks=7
Total time spent by all maps in occupied slots (ms)=60020
Total time spent by all reduces in occupied slots (ms)=0
Total time spent by all map tasks (ms)=30010
Total vcore-milliseconds taken by all map tasks=30010
Total megabyte-milliseconds taken by all map tasks=45015000
Map-Reduce Framework
Map input records=10
Map output records=0
Input split bytes=952
Spilled Records=0
Failed Shuffles=0
Merged Map outputs=0
GC time elapsed (ms)=542
CPU time spent (ms)=14290
Physical memory (bytes) snapshot=1562365952
Virtual memory (bytes) snapshot=17317421056
Total committed heap usage (bytes)=1167589376
File Input Format Counters
Bytes Read=3502
File Output Format Counters
Bytes Written=0
org.apache.hadoop.tools.mapred.CopyMapper$Counter
BYTESCOPIED=258660
BYTESEXPECTED=258660
COPY=10
copy from /path/on/hdfs to oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss does succeed !!!

作业完成后,可以用osscmd等工具查看OSS上数据情况:

osscmd ls oss://bucket-name/path/on/oss

3) OSS数据复制到HDFS:
同样的,如果已经在阿里云上搭建了Hadoop集群,可以方便的把数据从OSS上迁移到新的Hadoop集群

./hdfs2oss4emr.sh oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss /path/on/new-hdfs

4) 其他说明:
这个工具同时兼容Hadoop 2.4.x、2.5.x、2.6.x、2.7.x等版本,如果有其他Hadoop版本兼容性的需求,可以直接联系我们。

更多使用场景

除了线下的集群,阿里云ECS上搭建的Hadoop集群也可以用这个工具,借助它可以很方便的将自建集群迁移到阿里云E-MapReduce服务上。E-MapReduce是由阿里云专业的大数据团队提供的Hadoop/Spark服务,提供了包括集群管理、作业管理、Hive表管理、监控报警等丰富的功能,将客户从繁琐的Hadoop集群运维工作中解放出来。当前阿里云E-MapReduce服务在ECS机器费用之外并没有额外收费,可以直接创建集群使用。

如果你现有集群已经在阿里云上ECS上,但是在经典网络中,无法和VPC中的服务做很好的互操作,所以想把集群迁移到VPC中。此时,你可以先用本工具迁移数据到OSS上,然后需在VPC环境中新建一个集群(自建或使用E-MapReduce服务),再将数据从OSS上迁移到新的HDFS集群中。

如果你使用E-MapReduce服务,还可以直接在Hadoop集群中通过SparkMapReduceHive等组件访问OSS,这样不仅可以减少一次数据复制(从OSS到HDFS),还可以极大的降低存储成本(详见云栖社区博客

附件下载:  emr-tool...[hadoop].1493942285.bz2

本文为云栖社区原创内容,未经允许不得转载,如需转载请发送邮件至yqeditor@list.alibaba-inc.com

 

原文链接

本文转载自:http://click.aliyun.com/m/19881/

大大梁
粉丝 0
博文 225
码字总数 0
作品 0
私信 提问
腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

在这篇文章中: 资源准备 数据准备 ES-Hadoop关键配置项说明 在hive中创建ES外部表 通过MapReduce任务向ES写入数据 结语 ES-Hadoop 是 Elastic 官方推出的一个用于对接 Hadoop 生态的工具,使...

ethanzhang
2018/12/11
0
0
Docker 将 Hadoop 带到云端

一周前我们发布并开源了Cloudbreak--首个基于hadoop的docker service API。本文将为您展示其技术细节和架构组成。 Cloudbreak 建立于Apache Ambari, Docker containers, Serf 和 dnsmasq ...

oschina
2014/07/28
4.9K
0
2014年值得关注的十个Hadoop大数据创业公司

开源大数据框架Apache Hadoop已经成了大数据处理的事实标准,同时也几乎成了大数据的代名词,虽然这多少有些以偏概全。 根据Gartner的估计,目前的Hadoop生态系统市场规模在7700万美元左右,...

oschina
2014/04/24
8.1K
12
新数仓系列:Hbase周边生态梳理(1)

大数据前几年各种概念争论很多,NoSQL/NewSQL,CAP/BASE概念一堆堆的,现在这股热潮被AI接过去了。大数据真正落地到车联网,分控,各种数据分析等等具体场景。 概念很高大上,搞得久了就会发...

znzqhb07nr
2017/12/01
0
0
Hadoop基础之初识大数据与Hadoop

前言     从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢?   学习Hadoop有一个8020原则,8...

董黎明
02/21
13
0

没有更多内容

加载失败,请刷新页面

加载更多

Spring Boot + Mybatis-Plus 集成与使用(二)

前言: 本章节介绍MyBatis-Puls的CRUD使用。在开始之前,先简单讲解下上章节关于Spring Boot是如何自动配置MyBatis-Plus。 一、自动配置 当Spring Boot应用从主方法main()启动后,首先加载S...

伴学编程
昨天
7
0
用最通俗的方法讲spring [一] ──── AOP

@[TOC](用最通俗的方法讲spring [一] ──── AOP) 写这个系列的目的(可以跳过不看) 自己写这个系列的目的,是因为自己是个比较笨的人,我曾一度怀疑自己的智商不适合干编程这个行业.因为在我...

小贼贼子
昨天
7
0
Flutter系列之在 macOS 上安装和配置 Flutter 开发环境

本文为Flutter开发环境在macOS下安装全过程: 一、系统配置要求 想要安装并运行 Flutter,你的开发环境需要最低满足以下要求: 操作系统:macOS(64位) 磁盘空间:700 MB(不包含 IDE 或其余...

過愙
昨天
6
0
OSChina 周六乱弹 —— 早上儿子问我他是怎么来的

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @凉小生 :#今日歌曲推荐# 少点戾气,愿你和这个世界温柔以待。中岛美嘉的单曲《僕が死のうと思ったのは (曾经我也想过一了百了)》 《僕が死の...

小小编辑
昨天
2.5K
16
Excption与Error包结构,OOM 你遇到过哪些情况,SOF 你遇到过哪些情况

Throwable 是 Java 中所有错误与异常的超类,Throwable 包含两个子类,Error 与 Exception 。用于指示发生了异常情况。 Java 抛出的 Throwable 可以分成三种类型。 被检查异常(checked Exc...

Garphy
昨天
42
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部