文档章节

修改HDFS上的数据表流程

DDDDavid
 DDDDavid
发布于 2017/08/16 21:20
字数 442
阅读 1
收藏 0

dim_id是存储在HDFS上的一个数据维表,因为要修改数据,因此需要在堡垒机上直接修改文件。

过程稍微麻烦一些,以下是其记录:

1、  hive进入,查找表所在位置   show create table dim. dim _id;  文件夹地址为   hdfs://…/ dim _id

2、  显示文件  dfs –ls hdfs://…/ dim _id;   得到文件地址  hdfs://…/ dim _id/000000_0

3、  hive退出,exit;

4、  终端下载文件 hadoop fs –get hdfs://…/000000_0

5、  堡垒机下载文件 sz 000000_0,选文件位置

6、  使用notepad编辑文件,要注意使用 视图,显示符号,显示所有字符,防止编辑中出现问题

7、  编辑完成后,保存文件

8、  删除终端本地文件,rm 000000_0

9、  删除HDFS上文件 hadoop fs –get hdfs://…/000000_0

10、              使用堡垒机上传新文件, rz 选择文件

11、              上传新文件至HDFS  hadoop fs –put 000000_0 hdfs://…/000000_0

12、              删除终端本地文件,rm 000000_0

13、              hive进去,查看表文件 select * from dim. dim_jd_analytics_site_id;

 

注意事项:上传文件之前必须先删除原来的文件,否则会失败

 

5至10步可以替换为使用vi编辑器修改文件。

 

需要使用的语句

1、  hive语句,show create table XXX;select * from XXX;

2、  hadoop语句,终端下

hadoop fs -get path/file  下载文件

hadoop fs -rm patn/file  删除文件

hadoop fs –put new_file path/file_name  上传文件

3、  Xshell终端语句,终端环境下

sz path/file_name 下载文件

rm path/file_name 删除文件

rz path/file_name 上传文件

 

关于hadoop的fs语句:

高度类似Linux文件系统命令集,写法是 hadoop fs [genericOptions]

其中<path>的完整格式是hdfs://NameNodeIP:port/  或者是/user/你的用户名

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
私信 提问
数据仓库Hive管理软件--phpHiveAdmin

这是一个由php编写的hadoop hive查询工具,可以方便的查询hive中的数据和相关信息。本软件遵循GPL3许可协议 下载当前版本,请访问phpHiveAdmin @ github.com获取最新源码 EasyHadoop。访问w...

Slaytanic
2012/02/19
5.1K
0
Apache Hawq功能测试脚本

一. TPC-H编译 1.下载工具TPC-H 下载地址 2. 拷贝生成makefile,并修改makefile 修改makefile 3.编译 4.生成数据 5.创建数据库以及相关表格语句 6.查询语句在queries目录下 22个 二、创建表空...

Lynn_Yuan
08/16
0
0
关于驰骋工作流程引擎5流程数据存储模式

数据存储模式 CCFlow把流程数据模式分为两种:轨迹模式与合并模式。 什么是轨迹模式? 如果您了解ccflow4版本中您创建一个节点ccflow就会创建一个表与此节点相对应,此节点上的数据采集都记录...

ccflow
2013/02/14
0
0
Hive DDL 内部表外部表 分区 分桶 行格式 存储文件格式 概述

创建数据库 删除数据库 创建表 内部表,外部表 创建时指定external时为外部表,否则为内部表,或者通过desc formatted table_name;输出表的详细信息,其中Table Type:列会输出存储目录信息和...

PeakFang-BOK
10/10
0
0
SequoiaDB 与 Hive 集成

SequoiaDB与Hadoop部署 SequoiaDB与Hadoop在物理上部署方案如下图所示,部署建议如下: l SequoiaDB与Hadoop部署在相同的物理设备上,以减少Hadoop与SequoiaDB之间的网络数据传输; l 每个物...

SequoiaDB2013
2013/12/16
0
0

没有更多内容

加载失败,请刷新页面

加载更多

ui2code中的深度学习+传统算法应用

背景 在之前的文章中,我们已经提到过团队在UI自动化这方面的尝试,我们的目标是实现基于 单一图片到代码 的转换,在这个过程不可避免会遇到一个问题,就是为了从单一图片中提取出足够的有意...

阿里云官方博客
17分钟前
1
0
1-2 【包子mysql系列】, 对mysql的innoDB加锁分析

innoDB的事务,是基于锁来实现的,用到事务不自然就会用到锁,而如果对锁理解的不通透,很容易造成线上问题。 数据库加锁的分析,和事务的引擎,隔离级别,索引,主键索引都有关系, 如果去考...

爱吃大肉包
31分钟前
0
0
插入排序

/** * 插入排序 * @Title: insert * @Description: TODO(这里用一句话描述这个方法的作用) * @param 参数 * @return void 返回类型 * @throws */ static void insert(int[] arr ){ for(int i......

yzzzzzzzz
33分钟前
0
0
python Kmeans算法解析

一. 概述 首先需要先介绍一下无监督学习,所谓无监督学习,就是训练样本中的标记信息是位置的,目标是通过对无标记训练样本的学习来揭示数据的内在性质以及规律。通俗得说,就是根据数据的一...

终日而思一
33分钟前
1
0
Nginx+Keepalived实现站点高可用

Nginx+Keepalived实现站点高可用

吴伟祥
34分钟前
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部