文档章节

修改HDFS上的数据表流程

DDDDavid
 DDDDavid
发布于 2017/08/16 21:20
字数 442
阅读 1
收藏 0
点赞 0
评论 0

dim_id是存储在HDFS上的一个数据维表,因为要修改数据,因此需要在堡垒机上直接修改文件。

过程稍微麻烦一些,以下是其记录:

1、  hive进入,查找表所在位置   show create table dim. dim _id;  文件夹地址为   hdfs://…/ dim _id

2、  显示文件  dfs –ls hdfs://…/ dim _id;   得到文件地址  hdfs://…/ dim _id/000000_0

3、  hive退出,exit;

4、  终端下载文件 hadoop fs –get hdfs://…/000000_0

5、  堡垒机下载文件 sz 000000_0,选文件位置

6、  使用notepad编辑文件,要注意使用 视图,显示符号,显示所有字符,防止编辑中出现问题

7、  编辑完成后,保存文件

8、  删除终端本地文件,rm 000000_0

9、  删除HDFS上文件 hadoop fs –get hdfs://…/000000_0

10、              使用堡垒机上传新文件, rz 选择文件

11、              上传新文件至HDFS  hadoop fs –put 000000_0 hdfs://…/000000_0

12、              删除终端本地文件,rm 000000_0

13、              hive进去,查看表文件 select * from dim. dim_jd_analytics_site_id;

 

注意事项:上传文件之前必须先删除原来的文件,否则会失败

 

5至10步可以替换为使用vi编辑器修改文件。

 

需要使用的语句

1、  hive语句,show create table XXX;select * from XXX;

2、  hadoop语句,终端下

hadoop fs -get path/file  下载文件

hadoop fs -rm patn/file  删除文件

hadoop fs –put new_file path/file_name  上传文件

3、  Xshell终端语句,终端环境下

sz path/file_name 下载文件

rm path/file_name 删除文件

rz path/file_name 上传文件

 

关于hadoop的fs语句:

高度类似Linux文件系统命令集,写法是 hadoop fs [genericOptions]

其中<path>的完整格式是hdfs://NameNodeIP:port/  或者是/user/你的用户名

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
数据仓库Hive管理软件--phpHiveAdmin

这是一个由php编写的hadoop hive查询工具,可以方便的查询hive中的数据和相关信息。本软件遵循GPL3许可协议 下载当前版本,请访问phpHiveAdmin @ github.com获取最新源码 EasyHadoop。访问w...

Slaytanic
2012/02/19
5.1K
0
科学大数据开源社区/事例数据库-EventDB

eventdb 面向高能物理的大数据管理系统 环境依赖 分析dst文件需要Root环境依赖 解决python依赖:pip install happybase ConfigParser optparse pydoop java依赖通过maven解决,工程根目录运行...

科学大数据开源社区
2017/10/25
0
0
大数据入门与实战-Hadoop核心HDFS

课程链接:https://www.imooc.com/video/16287 Hadoop简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群...

致Great
04/26
0
0
SequoiaDB 与 Hive 集成

SequoiaDB与Hadoop部署 SequoiaDB与Hadoop在物理上部署方案如下图所示,部署建议如下: l SequoiaDB与Hadoop部署在相同的物理设备上,以减少Hadoop与SequoiaDB之间的网络数据传输; l 每个物...

SequoiaDB2013
2013/12/16
0
0
WF4.0实战(四):博客申请流程

概述: 我是两年前申请的博客园。如今仍然记得很清楚,与现在的方式有点不同,当时注册也是要申请的,现在是注册不需要申请,而注册之后,开博需要申请。当时感觉有点新鲜,同样也感到欣慰,...

晨曦之光
2012/03/09
0
0
HDFS文件读写流程讲解

一、HDFS体系结构 HDFS作为分布式文件系统,使用的是master/slave体系结构,角色有三种: NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文...

姚攀的博客 1.01^365=31.78
2017/12/12
0
0
分布式计算框架Hadoop原理

  本文来自于csdn,这篇文章讲解了分布式计算框架的核心内容、架构图详解,运用流程等   hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Comm...

深度学习
01/06
0
0
分布式计算框架Hadoop原理

  编辑推荐:   本文来自于csdn,这篇文章讲解了分布式计算框架的核心内容、架构图详解,运用流程等   Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包...

大数据头条
01/05
0
0
搭建hadoop集群(先搭伪分,再搭全部)

搭建hadoop集群(先搭伪分,再搭全部) hadoop伪分布搭建流程(都是在普通用户下) ---------------------------- 一)关闭防火墙: chkconfig iptables off service iptables stop service...

aime123456789
05/28
0
0
分布式计算框架Hadoop原理及架构全解

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFSHDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩...

Java小铺
05/26
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

JavaEE——JavaScript

声明:本栏目所使用的素材都是凯哥学堂VIP学员所写,学员有权匿名,对文章有最终解释权;凯哥学堂旨在促进VIP学员互相学习的基础上公开笔记。 JavaScript 内置对象 String对象方法: date对象...

凯哥学堂
6分钟前
0
0
Git 远程代码回滚master

方式一(推荐): git revert commit-id 方式二(不推荐):不推荐原因:推送到线上后,其它开发人员需要重新clone git reset --hard commit-id git push origin HEAD --force...

浮躁的码农
6分钟前
0
0
Elasticesearch学习(7)—— ES查询与Java API的对应关系

1、普通查询 类型 ES查询语句 Java查询实现 结果 查询格式 { "query": { "bool": { "must": [], "must_not": [], "should": [], "filter": [] } }, "from": 0, "size": 10, "sort": [] } Que......

叶枫啦啦
7分钟前
4
0
getElementsByClassName()与getElementById()区别

1.document.getElementsByClassName() 返回的是数组 使用:document.getElementsByClassName("className")[0].innerText='具体内容' 2.document.getElementById() 返回的是单个元素 使用:d......

botkenni
18分钟前
0
0
MyBatis入门

一、安装 <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId> <version>x.x.x</version></dependency> 二、从 XML 中构建 SqlSessionFactory String r......

一个yuanbeth
19分钟前
0
0
聊聊spring cloud的LoadBalancerAutoConfiguration

序 本文主要研究一下spring cloud的LoadBalancerAutoConfiguration RibbonAutoConfiguration spring-cloud-netflix-ribbon-2.0.0.RC2-sources.jar!/org/springframework/cloud/netflix/ribb......

go4it
21分钟前
0
0
【转】使用Lombok来优雅的编码

前言 Lombok 是一种 Java™ 实用工具,可用来帮助开发人员消除 Java 的冗长,尤其是对于简单的 Java 对象(POJO)。它通过注解实现这一目的。 正文 添加依赖 在 pom.xml 文件中添加相关依赖:...

HAVENT
23分钟前
0
0
Dubbo 源码解读 —— 可支持序列化及自定义扩展

一、概述 从源码中,我们可以看出来。目前,Dubbo 内部提供了 5 种序列化的方式,分别为 fastjson、Hessian2、Kryo、fst 及 Java原生支持的方式 。 针对不同的序列化方式,对比内容如下: 名...

Ryan-瑞恩
31分钟前
0
0
MySQL内存设置—— MySQL server has gone away

set global max_allowed_packet=268435456

一梦心草
40分钟前
0
0
推导式

列表、集合和字典推导式 列表推导式是Python最受喜爱的特性之一。它允许用户方便的从一个集合过滤元素,形成列表,在传递参数的过程中还可以修改元素。形式如下: [expr for val in collect...

火力全開
45分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部