文档章节

greenPlum Load实验

FrancisCh
 FrancisCh
发布于 2015/12/25 16:35
字数 814
阅读 31
收藏 1


greenPlum数据库管理文档

Load实验

Mdw做为ETL 抽取组件,抽取file文件所在的机器。

不成功

Gpfdist数据加载和数据unloading

外部表分成两种类型,一种是可读外部表,用于将外部文件导入到外部表。另一种是可写外部表,用于将外部表写去到外部文件。

 

For readable external tables, if load files are compressed using gzip or bzip2 (have a .gz or .bz2 file extension), gpfdist uncompresses the files automatically before loading provided that gunzip or bunzip2 is in your path.

--gpfdist可以自动的解压缩gzip或者是bzip2类型的压缩文件。

gpfdist [-d directory] [-p http_port] [-l log_file] [-t timeout

   [-S] [-w time] [-v | -V] [-s] [-m max_length] [--ssl certificate_path]

-d:目录为要加载的文件所在的目录,当文件在ETL上的某个目录,既-d 后面跟着就是这个目录路径。

-l:日志输入文件所在目录

-p:端口 http协议,这个端口是在文件服务器上的端口。默认的是8080端口

-t:设置gpfdistGP连接时间,默认时间是5秒,允许2~600秒。通过提升网络流量来提升系统。

-m max_length:设置允许的最大数据行的字节长度。有限范围:Valid range is 32K to 256MB.window系统的上线是1MB

 

-s :启动简化的日志记录。

-ssl certificate_path

添加SSL加密数据传输

 

 gpfdist -d /var/load_files -p 8081 &

Gpfdist -d /var/load_files -p 8081  -l /home/gpadmin/log &

 

 

 

测试实验:GP的数据加载实验

【出现的问题1greenplum ERROR: connection with gpfdist failed for gpfdist://172.80.80.34:8088 /tmp/bs_cdr_gsm_loc*.csv. effective url: http://172.80.80.34:8088 /tmp/bs_cdr_gsm_loc*.csv. (seg2 slice1 sdw2:40000 pid=5257)

 

问题定位第一:IP定义的不对,第二就是ETL gpfdist没有启动

最后定位是外部表的定义gpfdist://172.80.80.34:8088 /tmp/bs_cdr_gsm_loc*.csv不正确

最后应该定义gpfdist://172.80.80.34:8088 /bs_cdr_gsm_loc*.csv

 

 

实验一:实验场景

 

1、ET主机上安装gpfdist协议:greenplum-clients-4.1.1.0-build-4-RHEL5-x86_64.zip greenplum-loaders-4.1.1.0-build-4-RHEL5-x86_64.zip 

2.master上创建外部表:

    drop external table if exists BS_CDR_GSM_LOC_02_ext ;

create external table BS_CDR_GSM_LOC_02_ext

(

N_ROWS   numeric(8),                          

SOURCE_TYPE VARCHAR(2),

CALL_TYPE       numeric(3),

IMSI_numeric  VARCHAR(15), 

MSISDN   VARCHAR(19),

OTHER_PARTY          VARCHAR(11),

SDATE       timestamp,

STAT_DATE       numeric(8),      

PERIOD_TIME numeric(2),      

CALL_DURATION     numeric(5),      

DURATION60   numeric(3),

DURATION6     numeric(4),      

MSRN       VARCHAR(11), 

MSC VARCHAR(10), 

LAC  VARCHAR(4),   

CELL_ID   VARCHAR(4),

OTHER_LAC     VARCHAR(4),   

OTHER_CELL_ID      VARCHAR(2),   

TRUNK_GROUPOUT         VARCHAR(7),   

TRUNK_GROUPIN   VARCHAR(7),

FILE_NO   VARCHAR(20),

STOP_CAUSE   VARCHAR(1),

ORIGIN_NO     VARCHAR(15),

DEAL_TIME      VARCHAR(10),

AREA_ID  numeric(7),

VISIT_AREA_ID        numeric(7),

CALLED_AREA_ID   numeric(7),

CALLED_VISIT_AREA_ID numeric(7),

PURVIEW_AREA_ID         numeric(7),

ROAM_TYPE    numeric(1),

EDGE_FLAG     CHAR(1),

A_ASP       numeric(1),

A_BRAND_ID  char(2),

A_SERV_TYPE  VARCHAR(2),

TERM_TYPE     numeric(7),

B_SERV_TYPE  VARCHAR(2),

B_HOME_TYPE        CHAR(1),

OTHER_ASP     numeric(2),

C_SERV_TYPE  VARCHAR(2),

CARRIER_TYPE         numeric(4),

LONG_TYPE     numeric(9),

USER_ID  numeric(16),    

PAY_MODE       char(1),

CHANNEL_NO VARCHAR(4),

CFEE         numeric(7),

LFEE numeric(6),

OTHERFEE        numeric(5),

REAL_CFEE       numeric(7),

REAL_LFEE       numeric(6),

REAL_OTHERFEE     numeric(5),

FREETIME_ITEM      numeric(3),

FREETIME         numeric(6),

VPN_ID    varchar(16),

VPN_FLAG        CHAR(1),

FREE_CODE     VARCHAR(40),

FREETIME_ITEM2   numeric(3),

FREETIME2      numeric(5),

FREETIME_ITEM3   numeric(3),

FREETIME3      numeric(5),

FREETIME_ITEM4   numeric(3),

FREETIME4      numeric(4),

FILE_NAME      VARCHAR(36),

DAY_numeric   numeric(2),

ORIGIN_NO_AREA_ID     varchar(8),

ORIGIN_NO_ASP     char(2),

ORIGIN_NO_TERM_TYPE        varchar(7),

CDR_NO  varchar(3),

B_BRAND_ID  numeric(2),

B_SERVICE_TYPE2  CHAR(2),

FREE_CODE1   VARCHAR(10),

FREE_FEE1       numeric(5),

FREE_CODE2   VARCHAR(1),

FREE_FEE2       numeric(1),

FREE_CODE3   VARCHAR(1),

FREE_FEE3       numeric(1),

FREE_CODE4   VARCHAR(1),

FREE_FEE4       numeric(1),

CDR_TYPE        numeric(1),

IMEI          VARCHAR(16),

FIRST_CFEE      numeric(7),

FIRST_LFEE       numeric(6),

FIRST_OFEE      numeric(5),

TPREMARK       VARCHAR(89),

SERVICE_TYPE          VARCHAR(3),

SERVICE_CODE        VARCHAR(4),

RATE_IND         CHAR(1)

)LOCATION(                                          

    'gpfdist://172.80.80.34:8088/bs_cdr_gsm_loc.csv'

)                                                      

FORMAT 'csv' (delimiter ',' null '')      

ENCODING 'GB18030' ;                                        

 

drop table if exists BS_CDR_GSM_LOC_02;

create table BS_CDR_GSM_LOC_02 ( like BS_CDR_GSM_LOC_02_ext)

with(appendonly=true,orientation=column,compresslevel=5,compresstype=zlib)

distributed by (MSISDN);

 

 

 

 

 


© 著作权归作者所有

FrancisCh
粉丝 2
博文 3
码字总数 814
作品 0
济南
产品经理
私信 提问
ETL for Oracle to Greenplum (bulk) - Pentaho Data Integrator (PDI, kettle)

背景 使用pentaho,结合gpfdist, gpload,Greenplum作为目标库,ETL批量写入GPDB。 原文 https://wiki.pentaho.com/display/EAI/Greenplum+Load 正文 Greenplum Load Description The Green......

德哥
2018/05/06
0
0
Kylin设置JDBC配置greenplum数据源

Kylin设置JDBC配置greenplum数据源 kylin最开始的时候支持hive和kafka作为数据源,从2.3.0版本之后开始支持JDBC作为第第三种数据源。用户可以自定义的数据库或者数据仓库到自己的kylin集群。...

仔仔1993
2018/07/05
0
0
Greenplum Load error: Error Code 34077

When using Greenplum writer connection, I encountered an error: [ERROR] The Gpload process exited before pipe was opened. how to resolve it? A. Modify $INFA_USER profile file 1.......

66号公路
2016/01/02
167
0
VMWare中CentOS6.8的Greenplum4.3.12安装

经过查看网络视频、查找网上资料。安装成功GP4.3。下面是安装过程的目录 1. 实验环境4 1.1. 硬件环境4 1.2. 虚拟机配置4 2. 系统设置(所有主节点和数据节点)4 2.1. 基础环境设置4 2.1.1. ...

moonstarseu
2017/05/05
0
0
greenplum集群安装与增加节点生产环境实战

greenplum集群安装与增加节点生产环境实战 1.准备环境 1.1集群介绍 系统环境:centos6.5 数据库版本:greenplum-db-4.3.3.1-build-1-RHEL5-x86_64.zip greenplum集群中,2台机器IP分别是 [roo...

jxzhfei
2017/12/30
0
0

没有更多内容

加载失败,请刷新页面

加载更多

数据库

数据库架构 数据库架构可以分为存储文件系统和程序实例两大块,而程序实例根据不同的功能又可以分为如下小模块。 1550644570798 索引模块 常见的问题有: 为什么要使用索引 什么样的信息能成...

一只小青蛙
今天
4
0
PHP常用经典算法实现

<? //-------------------- // 基本数据结构算法 //-------------------- //二分查找(数组里查找某个元素) function bin_sch($array, $low, $high, $k){ if ( $low <= $high){ $mid = int......

半缘修道半缘君丶
昨天
5
0
GIL 已经被杀死了么?

本文原创并首发于公众号【Python猫】,未经授权,请勿转载。 原文地址:https://mp.weixin.qq.com/s/8KvQemz0SWq2hw-2aBPv2Q 花下猫语: Python 中最广为人诟病的一点,大概就是它的 GIL 了。...

豌豆花下猫
昨天
5
0
git commit message form

commit message一般包括3部分:Header、Body、Footer。 <type>(<scope>):<subject>blank line<body>blank line<footer> header是必需的,body、footer可以省略。 header中type、subject......

ninjaFrog
昨天
5
0
聊聊Elasticsearch的CircuitBreakerService

序 本文主要研究一下Elasticsearch的CircuitBreakerService CircuitBreakerService elasticsearch-7.0.1/server/src/main/java/org/elasticsearch/indices/breaker/CircuitBreakerService.ja......

go4it
昨天
5
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部