文档章节

修改HDFS上的数据表流程

DDDDavid
 DDDDavid
发布于 2017/08/16 21:20
字数 442
阅读 1
收藏 0

dim_id是存储在HDFS上的一个数据维表,因为要修改数据,因此需要在堡垒机上直接修改文件。

过程稍微麻烦一些,以下是其记录:

1、  hive进入,查找表所在位置   show create table dim. dim _id;  文件夹地址为   hdfs://…/ dim _id

2、  显示文件  dfs –ls hdfs://…/ dim _id;   得到文件地址  hdfs://…/ dim _id/000000_0

3、  hive退出,exit;

4、  终端下载文件 hadoop fs –get hdfs://…/000000_0

5、  堡垒机下载文件 sz 000000_0,选文件位置

6、  使用notepad编辑文件,要注意使用 视图,显示符号,显示所有字符,防止编辑中出现问题

7、  编辑完成后,保存文件

8、  删除终端本地文件,rm 000000_0

9、  删除HDFS上文件 hadoop fs –get hdfs://…/000000_0

10、              使用堡垒机上传新文件, rz 选择文件

11、              上传新文件至HDFS  hadoop fs –put 000000_0 hdfs://…/000000_0

12、              删除终端本地文件,rm 000000_0

13、              hive进去,查看表文件 select * from dim. dim_jd_analytics_site_id;

 

注意事项:上传文件之前必须先删除原来的文件,否则会失败

 

5至10步可以替换为使用vi编辑器修改文件。

 

需要使用的语句

1、  hive语句,show create table XXX;select * from XXX;

2、  hadoop语句,终端下

hadoop fs -get path/file  下载文件

hadoop fs -rm patn/file  删除文件

hadoop fs –put new_file path/file_name  上传文件

3、  Xshell终端语句,终端环境下

sz path/file_name 下载文件

rm path/file_name 删除文件

rz path/file_name 上传文件

 

关于hadoop的fs语句:

高度类似Linux文件系统命令集,写法是 hadoop fs [genericOptions]

其中<path>的完整格式是hdfs://NameNodeIP:port/  或者是/user/你的用户名

© 著作权归作者所有

共有 人打赏支持
DDDDavid
粉丝 0
博文 6
码字总数 3947
作品 0
东城
程序员
数据仓库Hive管理软件--phpHiveAdmin

这是一个由php编写的hadoop hive查询工具,可以方便的查询hive中的数据和相关信息。本软件遵循GPL3许可协议 下载当前版本,请访问phpHiveAdmin @ github.com获取最新源码 EasyHadoop。访问w...

Slaytanic
2012/02/19
5.1K
0
Apache Hawq功能测试脚本

一. TPC-H编译 1.下载工具TPC-H 下载地址 2. 拷贝生成makefile,并修改makefile 修改makefile 3.编译 4.生成数据 5.创建数据库以及相关表格语句 6.查询语句在queries目录下 22个 二、创建表空...

Lynn_Yuan
08/16
0
0
WF4.0实战(四):博客申请流程

概述: 我是两年前申请的博客园。如今仍然记得很清楚,与现在的方式有点不同,当时注册也是要申请的,现在是注册不需要申请,而注册之后,开博需要申请。当时感觉有点新鲜,同样也感到欣慰,...

晨曦之光
2012/03/09
0
0
关于驰骋工作流程引擎5流程数据存储模式

数据存储模式 CCFlow把流程数据模式分为两种:轨迹模式与合并模式。 什么是轨迹模式? 如果您了解ccflow4版本中您创建一个节点ccflow就会创建一个表与此节点相对应,此节点上的数据采集都记录...

ccflow
2013/02/14
0
0
科学大数据开源社区/事例数据库-EventDB

eventdb 面向高能物理的大数据管理系统 环境依赖 分析dst文件需要Root环境依赖 解决python依赖:pip install happybase ConfigParser optparse pydoop java依赖通过maven解决,工程根目录运行...

科学大数据开源社区
2017/10/25
0
0

没有更多内容

加载失败,请刷新页面

加载更多

你为什么在Redis里读到了本应过期的数据

一个事故的故事 晚上睡的正香突然被电话吵醒,对面是开发焦急的声音:我们的程序在访问redis的时候读到了本应过期的key导致整个业务逻辑出了问题,需要马上解决。 看到这里你可能会想:这是不...

IT--小哥
今天
2
0
祝大家节日快乐,阖家幸福! centos GnuTLS 漏洞

yum update -y gnutls 修复了GnuTLS 漏洞。更新到最新 gnutls.x86_64 0:2.12.23-22.el6 版本

yizhichao
昨天
5
0
Scrapy 1.5.0之选择器

构造选择器 Scrapy选择器是通过文本(Text)或 TextResponse 对象构造的 Selector 类的实例。 它根据输入类型自动选择最佳的解析规则(XML vs HTML): >>> from scrapy.selector import Sele...

Eappo_Geng
昨天
4
0
Windows下Git多账号配置,同一电脑多个ssh-key的管理

Windows下Git多账号配置,同一电脑多个ssh-key的管理   这一篇文章是对上一篇文章《Git-TortoiseGit完整配置流程》的拓展,所以需要对上一篇文章有所了解,当然直接往下看也可以,其中也有...

morpheusWB
昨天
5
0
中秋快乐!!!

HiBlock
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部