文档章节

hadoop分布式文件系统——导入和导出数据(一)

23fss
 23fss
发布于 2014/03/19 22:27
字数 620
阅读 199
收藏 1

一个经典的数据架构

从分散的系统收集来数据,然后导入HDFS(Hadoop分布式文件系统),然后通过MapReduce或者其他基于MapReduce封装的语言(Hive,Pig,Cascading)进行处理,进行过滤,转换,聚合,然后把结果导出到一个或者多个外部系统中。

栗子:

做一个网站点击率的基础数据分析,从多个服务器中采集来页面的访问日志,然后将其推送到HDFS,启动一个MapReduce作业,将这些数据作MapReduce的输入,接下来数据将被解析,汇总,以及与Ip地址进行关联计算,最终得到URL,页面访问量和每个cookie的地理位置数据。生成的相关结果可以导入关系型数据库。即席查询(用户根据自己的需求,灵活的选择查询条件,系统能够根据用户查询的选择生成相应的统计报表)此时就可以构建在这些数据上了。分析师可以快速的生成各种报表数据,例如,当前的独立用户数,用户访问量最多的页面,按地区对用户进行拆分及其他的数据汇总。

介绍

HDFS提供了很多基于HDFS FileSystem API之上的Shell命令来实现访问文件系统。Hadoop自带的shell脚本是通过命令行来执行所有操作的,交割脚本名称叫做hadoop。通常安装在$HADOOP_BIN目录下,其中$HADOOP_BIN是Hadoopbin文件的完整安装目录,同时有必要将$HADDOP_BIN配置到¥PATH环境变量中,这样,所有的命令,都可以通过hadoop fs -command 这样的形式来执行。

查看命令

如果需要获取文件系统的所有命令,可以运行hadoop命令传递不带参数的选项fs。最终得到的这些命令的名称与Unix shell命令非常相似,使用help选项可以获取某一项命令的具体说明。例如:hadoop fs -help ls

掌握命令是高效的关键

这里,我们使用Hadoop shell命令将数据导入HDFS中,以及数据从HDFS导出,这些命令更多地用于加载数据,下载处理过的数据,管理文件系统,以及预览相关数据,掌握这些命令就是高效使用HDFS的前提。

© 著作权归作者所有

23fss
粉丝 8
博文 53
码字总数 26893
作品 0
青岛
程序员
私信 提问
HDFS Everywhere——RDBMS on HDFS

关系型数据库和HDFS的结合 ** 目录 ** 简介: – 题目: – 摘要: – 背景: 思路和计划: – 目标: 分工: 已有解决方案: – Sqoop: Solution: sqoop与loading对比: 项目简介: – 题目...

dukeke
2015/06/25
0
0
Cloudera Apache Hadoop 管理员培训

本次培训将于2017年12月28日至31日在上海举办,Cloudera Apache Hadoop 管理员培训报名平台活动家。 Cloudera 大学为期4 天的Hadoop 管理员培训将帮助学员综合理解并全 面掌握通过Cloudera ...

活动家
2017/10/13
32
0
上海Cloudera Apache Hadoop 管理员培训(CCA131)

Cloudera 大学为期4 天的Hadoop 管理员培训将帮助学员综合理解并全 面掌握通过Cloudera Manager对Hadoop机群的运维管理,包括:安装,配置、 负载平衡及性能调优等。通过该培训,Hadoop 系统...

活动家
2017/08/01
15
0
大数据学习之路(持续更新中...)

在16年8月份至今,一直在努力学习大数据大数据相关的技术,很想了解众多老司机的学习历程。因为大数据涉及的技术很广需要了解的东西也很多,会让很多新手望而却步。所以,我就在自己学习的过...

青夜之衫
2017/12/05
0
0
【电子书】Hadoop实战手册 (样章第一章)

Hadoop实战手册 [美] Jonathan R. Owens,Jon Lentz,Brian Femiano 著; 傅杰,赵磊,卢学裕 译 内容简介   这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手...

dwf07223
2018/06/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Jenkins World 贡献者峰会及专家答疑展位

本文首发于:Jenkins 中文社区 原文链接 作者:Marky Jackson 译者:shunw Jenkins World 贡献者峰会及专家答疑展位 本文为 Jenkins World 贡献者峰会活动期间的记录 Jenkins 15周岁啦!Jen...

Jenkins中文社区
23分钟前
6
0
杂谈:面向微服务的体系结构评审中需要问的三个问题

面向微服务的体系结构如今风靡全球。这是因为更快的部署节奏和更低的成本是面向微服务的体系结构的基本承诺。 然而,对于大多数试水的公司来说,开发活动更多的是将现有的单块应用程序转换为...

liululee
38分钟前
6
0
OSChina 周二乱弹 —— 我等饭呢,你是不是来错食堂了?

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @ 自行车丢了:给主编推荐首歌 《クリスマスの夜》- 岡村孝子 手机党少年们想听歌,请使劲儿戳(这里) @烽火燎原 :国庆快来,我需要长假! ...

小小编辑
今天
409
9
玩转 Springboot 2 之热部署(DevTools)

Devtools 介绍 SpringBoot 提供了热部署的功能,那啥是热部署累?SpringBoot官方是这样说的:只要类路径上的文件发生更改,就会自动重新启动应用程序。在IDE中工作时,这可能是一个有用的功能...

桌前明月
今天
5
0
CSS--列表

一、列表标识项 list-style-type none:去掉标识项 disc:默认实心圆 circle:空心圆 squire:矩形 二、列表项图片 list-style-img: 取值:url(路径) 三、列表项位置 list-style-position:...

wytao1995
今天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部