文档章节

hadoop分布式文件系统——导入和导出数据(二)

23fss
 23fss
发布于 2014/03/19 23:05
字数 339
阅读 762
收藏 0

列表

要求

weblog_20140319.txt文件从本地文件系统复制到HDFS得一个指定文件夹下

操作步骤

1.在HDFS中创建一个存放目标文件的文件夹:hadoop fs -mkdir /data/weblogs.

2.将目标文件从本地系统复制到刚才新建的文件夹下:hadoop fs -copyFromLocal weblog_20140319.txt /data/weblogs

3.列出HDFS上weblog_20140319.txt文件的信息:hadoop fs -ls /data/weblogs/weblog_20140319.txt

4.将HDFS上的weblog_20140319.txt复制到本地系统的当前文件夹下:hadoop fs -copyToLocal /data/weblogs/weblog_20140319.txt ./weblog_20140319.txt

在Hadoop上处理的一些结果数据可能直接被外部系统使用,也可能需要其他系统进一步处理,或者MapReduce框架根本不符合应用场景,任何类似的情形都需要从HDFS上导出数据,下载数据最简单的方式就是Hadoop Shell.

从HDFS复制文件到本地系统时,需注意: 1.具有足够的可用空间 2.网络连接速度(HDFS中的文件大小在几个TB到几十个TB非常常见的,在1Gbit网络环境下,从HDFS中导出10TB数据到本地文件系统,最好也要消耗23个小时,当然前提还是具有足够的可用空间)

© 著作权归作者所有

23fss
粉丝 8
博文 53
码字总数 26893
作品 0
青岛
程序员
私信 提问
HDFS Everywhere——RDBMS on HDFS

关系型数据库和HDFS的结合 ** 目录 ** 简介: – 题目: – 摘要: – 背景: 思路和计划: – 目标: 分工: 已有解决方案: – Sqoop: Solution: sqoop与loading对比: 项目简介: – 题目...

dukeke
2015/06/25
0
0
mysql导入导出数据中文乱码解决方法小结

linux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题。 解决mysql导入导出数据乱码问题 首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加...

bengozhong
2016/05/11
266
0
Cloudera Apache Hadoop 管理员培训

本次培训将于2017年12月28日至31日在上海举办,Cloudera Apache Hadoop 管理员培训报名平台活动家。 Cloudera 大学为期4 天的Hadoop 管理员培训将帮助学员综合理解并全 面掌握通过Cloudera ...

活动家
2017/10/13
37
0
上海Cloudera Apache Hadoop 管理员培训(CCA131)

Cloudera 大学为期4 天的Hadoop 管理员培训将帮助学员综合理解并全 面掌握通过Cloudera Manager对Hadoop机群的运维管理,包括:安装,配置、 负载平衡及性能调优等。通过该培训,Hadoop 系统...

活动家
2017/08/01
17
0
hive(02)、数据仓库Hive的基本使用

在上篇《 hive(01)、基于hadoop集群的数据仓库Hive搭建实践 》一文中我们搭建了分布式的数据仓库Hive服务,本文主要是在上文的基础上结合Hadoop分布式文件系统,将结构化的数据文件映射为一张...

MaxBill
2018/01/10
260
0

没有更多内容

加载失败,请刷新页面

加载更多

如何标记电话号码?

我想在HTML文档中将电话号码标记为可调用链接。 我已经阅读了微格式方法 ,我知道, tel:方案将是标准的,但实际上没有实现。 据我所知,Skype定义了skype:和callto: ,后者已经获得了一些人气...

javail
20分钟前
26
0
单击手机网页中的链接时如何触发电话

我需要为移动设备构建一个网页。 只有一件事我还没弄明白:如何通过点击文字来触发电话? 是否有一个特殊的URL我可以输入,如mailto:标签的电子邮件? 设备特定解决方案不是优选的。 我知道i...

技术盛宴
36分钟前
54
0
[读书笔记] 大型网站性能优化实战-服务端性能优化

1 QPS (吞吐量) 1.1 RT (Response Time,响应时间) 服务器端 RT+网络开销 ≈ 客户端 RT。对于网络来讲,常见的优化方式有 CDN、 AND和专线, 分别适用于不同的场景。 服务器端 RT = Thread ...

QingHuo
54分钟前
21
0
concurrently 启动多个serve时命令行输出混乱

在script中配置中加入参数 -r "start": "npx concurrently -r \"npm:serve\" \"npm:web\"" 输出比较整洁 输出混乱, 会将有用的信息冲掉...

阿豪boy
今天
48
0
每天AC系列(三):电话号码的字母组合

1 题目 Leetcode第17题。 数字2-9映射字母,给出一个包含字符串的数字,列出字母的所有组合。 2 递归 拿到这样的题目想到了递归实现,创建一个Map映射对应的字母,然后把它传给递归函数,同时...

Blueeeeeee
今天
44
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部