文档章节

Hadoop文件系统和文件命令

cookqq
 cookqq
发布于 2013/04/16 09:13
字数 781
阅读 226
收藏 0
点赞 0
评论 0

转载:http://www.cookqq.com/lookBlog.action?id=8ab30321-35f1-4764-b4bd-ec127ab5bcf2


Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,而且有几个具体实现,如表 

文件系统

URI
方案

Java

(全部在
org.apache.hadoop)

描述

Local

file

fs.LocalFileSystem

针对有客户端校验和

的本地连接磁盘使用

的文件系统。针对没

有校验和的本

地文件系统使用

RawLocalFileSystem

详情参见第4

HDFS

hdfs

hdfs.Distributed-

FileSystem

Hadoop的分布式

文件系统。HDFS

被设计为结合使用

Map-Reduce实现高

效工作

HFTP

hftp

hdfs.HftpFileSystem

一个在HTTP上提

供对HDFS只读访

问的文件系统(虽然

其名称为HFTP,但

它与FTP无关)。通

常与distcp结合使用

(参见第3),在运

行不同版本HDFS

集群间复制数据

HSFTP

hsftp

hdfs.Hsftp-
FileSystem

HTTPS上提供对

HDFS只读访问的

文件系统(同上,与

FTP无关)

HAR

har

fs.HarFileSystem

一个构建在其他文

件系统上来存档文

件的文件系统。Hadoop

存档一般在HDFS

的文件存档时使用,

以减少名称节点内存的使用

KFS(Cloud-Store)

kfs

fs.kfs.Kosmos-
FleSystem

cloudstore(其前身是

Kosmos文件系统)

是相似于HDFS或是

GoogleGFS的文件

系统,用C++

写。详

情可参见http://kosmosfs.
sourceforge.net/

FTP

ftp

fs.ftp.FTP-
FileSystem

FTP服务器支持的

文件系统

S3(本地)

s3n

fs.s3native.Native-
S3FileSystem.

Amazon S3

持的文件

系统。可参见

http://wiki.apache.org
/hadoop/AmazonS3

S3(基于
)

s3

fs.s3.S3FileSystem

 Amazon S3

持的文件系统

以块格式存储文件

(HDFS很相似)

来解决S35 GB

文件大小限制

Hadoop提供了许多文件系统的接口,它一般使用URI 方案来选取合适的文件系统实例交互。举例来说,我们在前一小节中研究的文件系统shell可以操作所有的Hadoop文件系统。列出本地文件系统根目录下的文件,输入以下命令:

% hadoop fs -ls file:///

尽管运行那些可访问任何文件系统的MapReduce程序是可行的(有时也很方便),但在处理大量数据时,仍然需要选择一个有最优本地数据的分布式文件系统。

 * 文件操作
 * 查看目录文件
 * $ hadoop dfs -ls /user/cl
 *
 * 创建文件目录
 * $ hadoop dfs -mkdir /user/cl/temp
 *
 * 删除文件
 * $ hadoop dfs -rm /user/cl/temp/a.txt
 *
 * 删除目录与目录下所有文件
 * $ hadoop dfs -rmr /user/cl/temp
 *
 * 上传文件
 * 上传一个本机/home/cl/local.txt到hdfs中/user/cl/temp目录下
 * $ hadoop dfs -put /home/cl/local.txt /user/cl/temp
 *
 * 下载文件
 * 下载hdfs中/user/cl/temp目录下的hdfs.txt文件到本机/home/cl/中
 * $ hadoop dfs -get /user/cl/temp/hdfs.txt /home/cl
 *
 * 查看文件
 * $ hadoop dfs –cat /home/cl/hdfs.txt
 *
 * Job操作

 * 提交MapReduce Job, Hadoop所有的MapReduce Job都是一个jar包

 * $ hadoop jar <local-jar-file> <java-class> <hdfs-input-file> <hdfs-output-dir>

 * $ hadoop jar sandbox-mapred-0.0.20.jar sandbox.mapred.WordCountJob /user/cl/input.dat /user/cl/outputdir
 *
 * 杀死某个正在运行的Job
 * 假设Job_Id为:job_201207121738_0001
 * $ hadoop job -kill job_201207121738_0001


参考《hadoop权威指南》


© 著作权归作者所有

共有 人打赏支持
cookqq

cookqq

粉丝 115
博文 268
码字总数 156096
作品 0
海淀
技术主管
Hadoop实战读书笔记(5)

HDFS文件操作 你可以把一个大数据集(100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节...

祥林会跟你远走高飞 ⋅ 2014/12/08 ⋅ 0

Hadoop2.2.0 入门教程(三)之HDFS SHELL脚本

HDFS Shell hadoop fs -help: HDFS的帮助命令 hadoop fs -ls:查看文件或目录的命令 for example: hadoop fs -ls / 查看/(根目录下得文件或目录)for example: hadoop fs -lsr / 递归查看/(根目...

残风vs逝梦 ⋅ 2014/07/02 ⋅ 2

hadoop的体系结构 hadoop hdfs 命令

hadoop的体系结构 NameNode - 主节点主服务器 SecondaryNameNode– 是辅助nameNode DataNode -数据保存用的 TaskTracker – 接收任务 JobTracker - 分数据 -100M Datanode1,DataNode2,DataNo...

八戒_o ⋅ 2015/12/03 ⋅ 0

hadoop shell命令字典详解

可以带着下面问题来阅读: 1.chmod与chown的区别是什麽? 2.cat将路径指定文件的内容输出到哪里? 3.cp能否是不同之间复制? 4.hdfs如何查看文件大小? 5.hdfs如何合并文件? 6.如何显示当前...

ChinaUnicom110 ⋅ 2017/09/18 ⋅ 0

Hadoop FS Shell命令大全

调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系...

闵开慧 ⋅ 2012/09/06 ⋅ 0

执行WordCount实例

打开cygwin窗口,输入如下命令: $ net start sshd (启动sshd服务) $ cd hadoop-0.20.2 $ bin/start-all.sh (启动hadoop进程) 首先创建一个目录,在这里以“input”命名: $ mkdir input ...

刘胜球 ⋅ 2013/03/10 ⋅ 0

hadoop java操作hdfs

hfds 是一种文件系统,用于存储hadoop将要处理的数据。适用于大规模分布式数据处理,是一个可扩展行的文件分布式系统; 优点 1、如果出现节点宕机,hdfs,可以持续监视,错误检查,容错处理,...

萧然 ⋅ 2013/08/12 ⋅ 0

hadoop在linux上单机安装过程心得

昨天我在我的一台linux上安装了一下hadoop的1.1.2版本,并简单的使用了一下,感觉hadoop就向一个linux虚拟机,可以在上面创建文件夹、放文件,删除文件夹、删除文件,只是它NB的地方是可以帮...

BLUE-魏晓峰 ⋅ 2013/07/06 ⋅ 0

HDFS常用文件操作命令及注意事项

HDFS 文件操作命令 HDFS 文件系统提供了相当多的shell 操作命令,大大方便了程序员和系统管理人员查看、修改HDFS 上的文件。进一步,HDFS 的操作命令和Unix/Linux 的命令名称和格式相当一致,...

2846613430 ⋅ 2016/04/01 ⋅ 0

Hadoop环境配置过程中可能遇到问题的解决方案

Failed to set setXIncludeAware(true) for parser 遇到此问题一般是jar包冲突的问题。一种情况是我们向java的lib目录添加我们自己的jar包导致Hadoop引用jar包的冲突。解决方案就是删除我们自...

闵开慧 ⋅ 2014/04/03 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Cube、Cuboid 和 Cube Segment

1.Cube (或Data Cube),即数据立方体,是一种常用于数据分析与索引的技术;它可以对原始数据建立多维度索引。通过 Cube 对数据进行分析,可以大大加快数据的查询效率 2.Cuboid 在 Kylin 中特...

无精疯 ⋅ 34分钟前 ⋅ 0

github太慢

1:用浏览器访问 IPAddress.com or http://tool.chinaz.com 使用 IP Lookup 工具获得github.com和github.global.ssl.fastly.net域名的ip地址 2:/etc/hosts文件中添加如下格式(IP最好自己查一...

whoisliang ⋅ 36分钟前 ⋅ 0

非阻塞同步之 CAS

为解决线程安全问题,互斥同步相当于以时间换空间。多线程情况下,只有一个线程可以访问同步代码。这种同步也叫阻塞同步(Blocking Synchronization). 这种同步属于一种悲观并发策略。认为只...

长安一梦 ⋅ 47分钟前 ⋅ 0

云计算的选择悖论如何对待?

人们都希望在工作和生活中有所选择。但心理学家的调查研究表明,在多种选项中进行选择并不一定会使人们更快乐,甚至不会产生更好的决策。心理学家Barry Schwartz称之为“选择悖论”。云计算为...

linux-tao ⋅ 49分钟前 ⋅ 0

我的第一篇个人博客

虽然这是个技术博客,但是,我总是想写一些自己的东西,所有就大胆的在这里写下了第一篇非技术博客。技术博客也很久没有更新,个人原因。 以后自己打算在这里写一些非技术博客,可能个人观点...

Mrs_CoCo ⋅ 50分钟前 ⋅ 0

Redis 注册为 Windows 服务

Redis 注册为 Windows 服务 redis 注册为 windows 服务相关命令 注册服务 redis-server.exe –service-install redis.windows.conf 删除服务 redis-server –service-uninstall 启动服务 re......

Os_yxguang ⋅ 50分钟前 ⋅ 0

世界那么大,语言那么多,为什么选择Micropython,它的优势在哪?

最近国内MicroPython风靡程序界,是什么原因导致它这么火呢?是因为他功能强大,遵循Mit协议开源么? 错!因为使用它真的是太舒服了!!! Micropython的由来,这得益于Damien George这位伟大...

bodasisiter ⋅ 54分钟前 ⋅ 0

docker 清理总结

杀死所有正在运行的容器 docker kill $(docker ps -a -q) 删除所有已经停止的容器(docker rm没有加-f参数,运行中的容器不会删掉) docker rm $(docker ps -a -q) 删除所有未打 dangling 标...

vvx1024 ⋅ 今天 ⋅ 0

关于学习

以前学车的时候,教练说了这样的一句话:如果一个人坐在车上一直学,一直学,反而不如大家轮流着学。因为一个人一直学,就没有给自己留空间来反思和改进。而轮流着学的时候大家下来之后思考上...

mskk ⋅ 今天 ⋅ 0

压缩工具之gzip-bzip2-xz

win下常见压缩工具:rar zip 7z linux下常见压缩工具:zip gz bz2 xz tar.gz tar.bz2 tar.xz gzip 不支持目录压缩 gzip 1.txt #压缩。执行后1.txt消失,生成1.txt.gz压缩文件 gzip -d 1.txt....

ZHENG-JY ⋅ 今天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部