文档章节

hive 导入mysql 脚本 python

s
 sunhongxi
发布于 2014/11/14 18:11
字数 342
阅读 60
收藏 0

import subprocess

import sys 


print "脚本名:", sys.argv[0]

tableName=sys.argv[1]

startdate=sys.argv[2]

enddate=sys.argv[3]


if startdate=="":

print "please input statdate !"

sys.exit() 


if enddate=="" :

enddate=startdate


com=""

if tableName=="t_netflow_pc_city_cate_pv" :

#t_netflow_pc_city_cate_pv_yyyymm  hql

com="hive -e \"use tmpdb; select statdate , chlname,   pagetype,area1 ,cate1, cate2 ,   pv, uv ,newuv ,  visit,newvisit , avgpage , avgtime , jumpin , jumpout , outrate from ext_pctrack_is where statdate>='"+startdate+"' and statdate<='"+enddate+"'  and cate3='A' and cate4='A' and cate5='A' and area2='A' and area3='A' and area4='A' and source1='A' and source2='A';\" > tmp/t_netflow_pc_city_cate_pv_"+startdate+".txt;"


elif tableName=="t_netflow_pc_source_cate_pv":

com="hive -e \"use tmpdb; select statdate , chlname,  pagetype,source1 ,source2 ,  cate1, cate2,cate3 ,   pv, uv ,newuv ,  visit,newvisit , avgpage , avgtime , jumpin , jumpout , outrate   from ext_pctrack_is  where  statdate>='"+startdate+"' and statdate<='"+enddate+"' and cate4='all' and cate5='all' and area1='all' and area2='all' and area3='all' and area4='all' ;\" > tmp/t_netflow_pc_source_cate_pv_"+enddate+".txt;"


elif tableName=="t_netflow_pc_pv":

com="hive -e \"use tmpdb; select statdate , chlname,pagetype,source1 , area1,cate1,   pv, uv ,newuv , visit,newvisit , avgpage , avgtime , jumpin , jumpout , outrate   from ext_pctrack_is  where  statdate>='"+startdate+"' and statdate<='"+enddate+"' and cate2='all' and cate3='all' and cate4='all' and cate5='all' and area2='all' and area3='all' and area4='all' and  source2='all';\" > tmp/t_netflow_pc_pv_"+startdate+".txt;"


print com


def executeHql(hql):

p = subprocess.Popen(hql, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT)

res="1"

for line in p.stdout.readlines():

print line

if "Exception" in line :

executeHql(com)

res="0"

else :

res="1"

retval = p.wait()

return res



print "hive select  start ------------------------------------------"

count=1

while 1:

print "count is ----------------------" +str(count)

count=count+1

res=executeHql(com)

if res=="1":

break


print "hive select  end  ------------------------------------------"

print "mysql load  start ------------------------------------------"


mload="mysql -uXXX -pXXXX -hXXXX -PXXX -DXXX -e\"LOAD DATA LOCAL INFILE 'tmp/"+tableName+"_"+startdate+".txt' INTO TABLE "+tableName+"  FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'\""


p = subprocess.Popen(mload, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT)

for line in p.stdout.readlines():

print line 

retval = p.wait()


print "mysql load  end ------------------------------------------"


© 著作权归作者所有

上一篇: Hive 流量表规划
下一篇: Impala介绍文档
s
粉丝 2
博文 7
码字总数 3845
作品 0
朝阳
程序员
私信 提问
hive+python数据分析入门

本文首先发布在: http://leanote.com/blog/view/539276d41a91080a06000002 本文作者系 leanote 的核心开发者, 多谢关注leanote. leanote官网, leanote github 为什么要使用hive+python来分析...

lifephp
2014/06/07
975
2
使用pyspark模仿sqoop从oracle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)

  最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4...

ZJ&Y
2018/07/31
0
0
Pig 读书笔记 + 工作总结(干货很多)

编码规范: 1. 注释: 单行:-- 多行或嵌入式: / / 2. 大小写: 关键字不区分大小写,变量名和udf区分大小写 数据类型: int, long, float, double, chararray, Bytearray, tuple, bag, ma...

王二铁
2014/05/19
2.3K
0
Python 连接mysql数据库进行操作

1.MySQLdb 模块是用于Python链接Mysql数据库的接口,默认是没有安装的 [root@python ~]# yum install MySQL-python -y 2.创建python脚本 [root@python ~]# cat mysql.py #!/usr/bin/env pytho......

XiaoBingZ
2018/06/26
0
0
【电子书】Hadoop实战手册 (样章第一章)

Hadoop实战手册 [美] Jonathan R. Owens,Jon Lentz,Brian Femiano 著; 傅杰,赵磊,卢学裕 译 内容简介   这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手...

dwf07223
2018/06/28
0
0

没有更多内容

加载失败,请刷新页面

加载更多

ZhaoWei-2020-01-29

并发相关 1、并发编程三要素? (1)原子性 原子性指的是一个或者多个操作,要么全部执行并且在执行的过程中不被其他操作打断,要么就全部都不执行。 (2)可见性 可见性指多个线程操作一个共...

SuSheePark
18分钟前
43
0
用于除法时,“ /”和“ //”之间有什么区别?

将一个使用在另一个上是否有好处? 在Python 2中,它们似乎都返回相同的结果: >>> 6/32>>> 6//32 #1楼 它有助于阐明Python 2.x的行, /既不是下位划分也不是真正的划分。 当前接受的答案...

技术盛宴
18分钟前
41
0
微信小程序结构说明

一、微信小程序结构: 小程序框架的目标是通过尽可能简单、高效的方式让开发者可以在微信中开发具有原生App体验服务 小程序框架提供了自己的视图层描述语言wxml和wxss以及JavaScript,并在视...

冥焱
22分钟前
48
0
AspectJ 切点指示器-03-execution

execution() 匹配满足某一匹配条件的目标方法的连接点 各个类最终结构图如下: 1、Factory package com.test.aspectj.expression;/** * 工厂接口 */public interface Factory {...

moon888
58分钟前
72
0
“ STL”和“ C ++标准库”有什么区别?

有人引起了我的注意, 这篇文章声称(我的意思是) STL术语被误用于指代整个C ++标准库,而不是指从SGI STL中获得的部分。 (...)它指的是“ STL”,尽管实际上仍然很少有人使用STL(它是S...

javail
今天
60
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部