文档章节

shell 如何实现两个表的join操作

clebeg
 clebeg
发布于 2015/10/23 09:41
字数 630
阅读 96
收藏 6
awk

shell 如何实现两个表的join操作

今天研究的一个问题是:在Shell 脚本中如何实现两个表的 join 操作,这里说的两个表示的其实是 两个文件,但是文件是列表的形式,有固定的分割符号,即就相当于hive中一个非分区表的文件。
表的操作当然是在数据库中操作是最好的: 比如有: table1 table2,我们需要根据 column1 主键关联

select * from table1 a table2 b where a.column1 = b.column1

搞定。如果需要复杂一点的,可以用 join 操作实现。

但是如果你手上刚好有两个文件呢?一种办法是导入数据库,这样太慢了,下面用shell命令实现。

数据样例

  • 假设 table1.txt 文件的样例数据如下:
daacdaaedyWcMIV=        http://mp.weixin.qq.com/s?__biz=daacdaaedyWcMIV=&mid=200664912&idx=1&sn=c3fbe92847655211faf109c6856f4c0a
daacddeMdcedauY=        http://mp.weixin.qq.com/s?__biz=daacddeMdcedauY=&mid=200435227&idx=1&sn=a8802c19dacf0b2db6462eaec09c0b19
daacddeVdeaudaY=        http://mp.weixin.qq.com/s?__biz=daacddeVdeaudaY=&mid=200668153&idx=1&sn=869b00b38caa70de6c32848f396b8aa6
daacdduydVWyeMM=        http://mp.weixin.qq.com/s?__biz=daacdduydVWyeMM=&mid=200659749&idx=1&sn=6fe9107dd69dd3b5de32bf6e5597a408
daacdeMddMMyVWw=        http://mp.weixin.qq.com/s?__biz=daacdeMddMMyVWw=&mid=200912280&idx=7&sn=a70041d29f6b4ad06554ea97291d06bc
daacdMcadMMyduV=        http://mp.weixin.qq.com/s?__biz=daacdMcadMMyduV=&mid=200654058&idx=3&sn=a6e57a52b1bd9c38f392825da34b499d
daacdudVdIecyMY=        http://mp.weixin.qq.com/s?__biz=daacdudVdIecyMY=&mid=200382730&idx=4&sn=aeed567f2ad4ee595846623f7e2c8fbf
daacduyudeVeWdv=        http://mp.weixin.qq.com/s?__biz=daacduyudeVeWdv=&mid=200468183&idx=1&sn=df3d20eef948571d3120b74416b9b010
daacdycIdWdyaIV=        http://mp.weixin.qq.com/s?__biz=daacdycIdWdyaIV=&mid=200839908&idx=8&sn=40eb71efc2e70a779af0fc782ac78c47
daacdyIydayccyV=        http://mp.weixin.qq.com/s?__biz=daacdyIydayccyV=&mid=200303209&idx=1&sn=63fbd789967812b16ff71b3667d36095```
  • table2.txt 文件的样例数据如下:
MjM5MDQ3MDIyMg==
MjM5MDU2OTI4OQ==
MjM5MDc5MTk2NQ==
MjM5MDg5MDE2Nw==
MjM5MDk3NDQ4Mw==
MjM5MTA4MTEyNQ==
MjM5MTQwMzcwMA==
MjM5MjEwMjkyMA==
MjM5MjM2ODU5Nw==
MjM5MjMxOTYxMw==

下面的任务就是要找出table1.txt中所有主键存在于table2.txt中的记录,文件的主键都是第一列

shell命令

awk -F'\t' ' {if (ARGIND==1) ccc[$1]} {if (ARGIND>1 && ($1 in ccc)) print $0} ' test2.txt test1.txt > test.txt

命令解释: awk -F 表示字段分割符号
接下来是命令,命令必须用单引号包围,双引号不行。
ARGIND == 1表示读取到第一个文件,就把第一列存入数组ccc
当读到其他文件,这里就是第二个文件,就判断它的第一列是否在数组中,在就输出。

结束语

为什么选择用shell命令实现这个功能呢?我发现我数据量在一个文件700m,另一个文件30m的情况下,
只需要一分钟出结果,不必数据库慢很多,比其他工具,如R语言快太多,R语言还可能跑不了, 数据分析工作者适当的掌握几个有用的shell工具,如grep、awk、goin等,事半功倍。

© 著作权归作者所有

clebeg
粉丝 45
博文 40
码字总数 40057
作品 0
广州
程序员
私信 提问
sparkSql jion优化

---title: sparkSql jion优化subtitle: spakSql jion详解description: jion优化解读keywords: [sparkSql,jion,解析]author: liyzdate: 2019-01-11tags: [sparkSql,jion] category: [spark] ......

freeli
01/14
38
0
Getting Started with Impala

1 阅读说明 本文中存在一些需要进行标注的提示信息,以及提示分类。 提示信息使用如下格式分类: 笔记 随手笔记和提示。 重要 在执行之前需要注意的重要信息。 警告 关于数据丢失风险、权限问...

Yulong_
2017/08/09
0
0
MySQL实战技巧-1:Join的使用技巧和优化

join用于多表中字段之间的联系,在数据库的DML (数据操作语言,即各种增删改查操作)中有着重要的作用。 合理使用Join语句优化SQL有利于: 增加数据库的处理效率,减少响应时间; 减少数据库...

登高且赋
2018/01/29
0
0
数据库内核杂谈 - 表的JOIN(连接),执行复杂分析语句的基础

欢迎阅读数据库内核杂谈!这期我们重新回归主线剧情,继续讨论执行算子的实现。相对简单的算子如limit或者是projection,在内核杂谈的第一期(一小时数据库实现)就已经讨论过,不再赘述。继上...

Dr_GU
06/24
0
0
Linux 必掌握的 SQL 命令

数据库和 SQL 在本系列教程中,目前我们使用平面文本文件来存储数据。平面文本文件可能适合相对较少的数据,但它们对存储大量数据或查询该数据没有多大帮助。多年来,为该目的开发了多种数据...

linuxprobe
2016/07/05
19
0

没有更多内容

加载失败,请刷新页面

加载更多

Qt编写自定义控件69-代码行数统计

一、前言 代码行数统计主要用来统计项目中的所有文件的代码行数,其中包括空行、注释行、代码行,可以指定过滤拓展名,比如只想统计.cpp的文件,也可以指定文件或者指定目录进行统计。写完这...

飞扬青云
31分钟前
8
0
驰骋工作流引擎-ccflow关于 “ 是否自动计算未来的处理人”的功能变更

关键字:流程未来节点处理人 工作流快速开发平台 工作流流设计 业务流程管理 asp.net 开源工作流 业务背景:一个流程在启动起来后,是可以对一些节点计算出来处理人是谁,流程的走向。对于另...

孟娟
47分钟前
5
0
IT兄弟连 HTML5教程 HTML5表单 HTML表单设计1

表单是PHP程序中最常使用的收集站点访问者信息的数据输入界面。通过表单浏览器获取用户的输入数据,并传送给Web服务器的脚本程序中,以各种不同的方式进行处理。在表单中提供了多种输入方式,...

老码农的一亩三分地
49分钟前
4
0
武者Vue

本文转载于:专业的前端网站➼武者Vue 1 - Introduction2 - The Vue Instance3 - Data & Methods4 - Data Binding5 - Events6 - Event Modifiers7 - Keyboard Events8 - Two-Way Data......

前端老手
55分钟前
6
0
uni app 零基础小白到项目实战

$emit 子组件传给父组件$ref 父组件操作子组件 公用模板 uni-app全局变量的几种实现方法 const websiteUrl = 'http'const now = Date.now || function() { return new Date().getTime......

达达前端小酒馆
今天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部