文档章节

如何使用 HData + Wit 导出 Redis 中的数据

zqq90
 zqq90
发布于 2017/11/25 13:50
字数 572
阅读 463
收藏 7
点赞 0
评论 0

工具

  • redis-cli 3.x
  • HData 0.2.8 (最新)
  • jedis-*.jar

不啰嗦, 直接开整

  • 导出特定规则的 key,  以 'PREFIX-' 前缀为例:
REDIS_HOST="localhost"
REDIS_PORT=6379
REDIS_DB=0

redis-cli -h localhost -p 6379 -n 0 --scan --pattern "PREFIX-*"  > "./keys.list"
  • 使用 HData 的 wit 插件 + Jedis 读取值
## 存放 jedis 及其依赖的 jar 的文件夹
LIB_ADDON="./jars"

## 将附加的 jar 添加到 hdata 的 classpath
##    这样就可以在 wit 自由的使用了
##    也可以通过这种方式放入自定义的 wit 插件
##    当然也可以更简单粗暴: 直接扔到 hdata/plugins/wit/ 目录下
HDATA_CLASSPATH="./"
for f in $LIB_ADDON/*.jar; do
  HDATA_CLASSPATH="${HDATA_CLASSPATH}:$f"
done
export HDATA_CLASSPATH="$HDATA_CLASSPATH"


## 技巧: 这里使用 双引号, 方便引入变量
CODE_VARS="
  const host=\"${REDIS_HOST}\"
  const port=${REDIS_PORT}
  const db=${REDIS_DB}
"

## 接下来是逻辑部分, 技巧: 使用单引号 不需要转义脚本里的双引号
##     这段脚本会在每次消费一条记录的时候执行, 以固定的变量名 input 传入
##     这里我们 使用 const 将会得到一个常量的 jedis, 不会在处理每条记录的时候都去重新创建
##     返回值 将作为最终结果
CODE='
  const jedis = redis.clients.jedis.Jedis::new(host, port)
  const __temp = noop(
    jedis.~select(db)
  )
 
  var key = input[0];  // 这是 keys.list 的第一列的值
 
  var result = newRecord() // 新建一个 record
  result[0] = key;
  result[1] = key.~substring("PREFIX-".length)  //可以对 key 做简单处理 (复杂的当然也可以, 只要你愿意)
  result[2] = jedis.~smembers(key)  // 这里演示的是得到 set 的所有值
  return result
'

## 执行 hdata: 用 wit 来包裹我们的目标 Writer, 例如 我们打算导出到 hive
##     这里 wit 只会占用三个额外的配置, 其他使用原 writer 配置 (参考命令第二行)
##     这里投机使用 csv 来读取 key, 如果 key 包含逗号就需要另当别论了
./bin/hdata --reader csv -Rpath="./keys.list" -Rstart.row=1 \
  --writer wit -Wwit="$CODE_VARS $CODE" -WwitInnerWriter=hive \
  -Wdatabase=test -Wtable=dist_table
  • 高级用法示例: 展开集合
  // 略...

  var key = input[0];
  var fixedKey = key.~substring("PREFIX-".length)
  var set = jedis.~smembers(key)

  var list = java.util.ArrayList::new()
  for(item : set) {
    var result = newRecord() // 新建一个 record
    result[0] = key
    result[1] = fixedKey
    result[2] = item
    list.~add(result)
  }
  // 返回一个数组或集合, 将会写入向最终输出中写入多个值
  return list
  • 至此, 导出完成

关于 Wit: https://www.oschina.net/p/webit-script

关于 HData: https://www.oschina.net/p/hdata

© 著作权归作者所有

共有 人打赏支持
zqq90

zqq90

粉丝 69
博文 11
码字总数 5645
作品 1
海淀
程序员
idea的licence server无效了

今天一直用的好好的licence server无效了,无奈只能再次上午去查找可以用的licence server。记得当时查找这个licence server是费了一些心力的。今天百度了一下发现好多。http://intellij.man...

miaojiangmin ⋅ 2017/11/27 ⋅ 0

ETL数据导入/导出工具--HData

HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。HData在设计上同时参...

Jayer ⋅ 2016/07/08 ⋅ 16

HData——ETL 数据导入/导出工具

HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。HData在设计上同时参...

oschina ⋅ 2016/07/10 ⋅ 0

[转]用C写有面向对象特点的程序

转一个比较老的帖子: 原文地址:http://blog.csdn.net/haoel/article/details/2864 作者:陈皓 比如在一个项目中,有大量的数据结构,他们都是双向链表,但又想共用一套对链表的操作算法,这...

晓寒 ⋅ 2011/11/15 ⋅ 5

使用redis-dump-load工具导入导出redis数据

需求环境 Redis-dump-load是基于python2.7,利用redis模块编写的一个导出/导入redis数据的一个python程序,因此,需求环境如下: python 2.7 pip2.7 python.redis模块 安装程序 # pip-2.7 in...

icenycmh ⋅ 2017/11/02 ⋅ 0

redis-dump数据导出以及redis-load还原数据

一 、安装Ruby依赖 1)安装Ruby环境 yum -y install ruby ruby-devel yum -y install rubygems 2)添加taobao Ruby镜像 添加淘宝ruby源; 查看现有ruby源; 二、安装redis-dump Centos默认支持r...

wjw555 ⋅ 04/18 ⋅ 0

Redis+Logstash+Elasticsearch+Kibana多Redis日志数据流

本文描述了一个简单的case,讲解怎么在logstash进行配置,将多个日志数据流,通过redis缓存接收,再导出到elasticsearch多个索引,即一类日志数据对应一类索引。 假设有两组日志数据由日志端...

go2school ⋅ 2015/09/05 ⋅ 0

删除redis中的数据

标签(空格分隔): 未分类 由于需求的更改,之前做的一个项目需要对redis中存储的数据格式进行修改。为防止新包发布后,老数据会导致新数据无法插入。所以,必须在发布前删除掉所有的老数据...

黎明露珠 ⋅ 2015/07/28 ⋅ 0

【翻译】Flask大型教程|第二十二章:后台作业

本文翻译自The Flask Mega-Tutorial Part XXII: Background Jobs 这是Flask Mega-Tutorial系列的第二十二部分,我将告诉你如何创建独立于Web服务器之外运行的后台作业。 本章致力于为应用程序...

一进制 ⋅ 05/04 ⋅ 0

Redis安装部署

Redis是一种高级key-value数据库。它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。有字符串,链表,集 合和有序集合。支持在服务器端计算集合的并,交和补集(difference...

Zero零_度 ⋅ 2015/08/20 ⋅ 1

没有更多内容

加载失败,请刷新页面

加载更多

下一页

个人博客的运营模式能否学习TMALL天猫质量为上?

心情随笔|个人博客的运营模式能否学习TMALL天猫质量为上? 中国的互联网已经发展了很多年了,记得在十年前,个人博客十分流行,大量的人都在写博客,而且质量还不错,很多高质量的文章都是在...

原创小博客 ⋅ 今天 ⋅ 0

JavaScript零基础入门——(十一)JavaScript的DOM操作

JavaScript零基础入门——(十一)JavaScript的DOM操作 大家好,欢迎回到我们的JavaScript零基础入门。最近有些同学问我说,我讲的的比书上的精简不少。其实呢,我主要讲的是我在开发中经常会...

JandenMa ⋅ 今天 ⋅ 0

volatile和synchronized的区别

volatile和synchronized的区别 在讲这个之前需要先了解下JMM(Java memory Model :java内存模型):并发过程中如何处理可见性、原子性、有序性的问题--建立JMM模型 详情请看:https://baike.b...

MarinJ_Shao ⋅ 今天 ⋅ 0

深入分析Kubernetes Critical Pod(一)

Author: xidianwangtao@gmail.com 摘要:大家在部署Kubernetes集群AddOn组件的时候,经常会看到Annotation scheduler.alpha.kubernetes.io/critical-pod"="",以表示这是一个关键服务,那你知...

WaltonWang ⋅ 今天 ⋅ 0

原子性 - synchronized关键词

原子性概念 原子性提供了程序的互斥操作,同一时刻只能有一个线程能对某块代码进行操作。 原子性的实现方式 在jdk中,原子性的实现方式主要分为: synchronized:关键词,它依赖于JVM,保证了同...

dotleo ⋅ 今天 ⋅ 0

【2018.06.22学习笔记】【linux高级知识 14.4-15.3】

14.4 exportfs命令 14.5 NFS客户端问题 15.1 FTP介绍 15.2/15.3 使用vsftpd搭建ftp

lgsxp ⋅ 今天 ⋅ 0

JeeSite 4.0 功能权限管理基础(Shiro)

Shiro是Apache的一个开源框架,是一个权限管理的框架,实现用户认证、用户授权等。 只要有用户参与一般都要有权限管理,权限管理实现对用户访问系统的控制,按照安全规则或者安全策略控制用户...

ThinkGem ⋅ 昨天 ⋅ 0

python f-string 字符串格式化

主要内容 从Python 3.6开始,f-string是格式化字符串的一种很好的新方法。与其他格式化方式相比,它们不仅更易读,更简洁,不易出错,而且速度更快! 在本文的最后,您将了解如何以及为什么今...

阿豪boy ⋅ 昨天 ⋅ 0

Python实现自动登录站点

如果我们想要实现自动登录,那么我们就需要能够驱动浏览器(比如谷歌浏览器)来实现操作,ChromeDriver 刚好能够帮助我们这一点(非谷歌浏览器的驱动有所不同)。 一、确认软件版本 首先我们...

blackfoxya ⋅ 昨天 ⋅ 0

线性回归原理和实现基本认识

一:介绍 定义:线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。为了了解这个定义,我们先举个简单的例子;我们假设一个线性方程 Y=2x+1, x变量为商...

wangxuwei ⋅ 昨天 ⋅ 0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部