文档章节

云享团——基于大数据开发套件的增量同步策略

_夜枫
 _夜枫
发布于 2017/03/30 21:50
字数 1471
阅读 9
收藏 0

因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。14.gif

我们把需要同步的数据,根据数据写入后是否会发生变化分为:会变化的数据(人员表比如说,人员的状态会发生变化)和不会发生变化的数据(一般是日志数据)。针对这两种场景,我们需要设计不同的同步策略。这里以把业务RDS数据库的数据同步到MaxCompute为例做一些说明,其他的数据源的道理是一样的。根据等幂性原则(也就是说一个任务,多次运行的结果是一样的,这样才能支持重跑调度。如果任务出现错误,也比较容易清理脏数据),我每次导入数据都是导入到一张单独的表/分区里,或者覆盖里面的历史记录。

备注说明:本文的测试时间是2016-11-14,全量同步是在14号做的,同步历史数据到ds=20161113这个分区里。至于本文涉及的增量同步的场景,配置了自动调度,把增量数据在15号凌晨同步到ds=20161114的分区里。数据里有一个时间字段optime,用来表示这条数据的修改时间,从而判断这条数据是否是增量数据。

不变的数据

对应这种场景,因为数据生成后就不会发生变化,我们可以很方便地根据数据的生成规律进行分区,比较常见的是根据日期进行分区,比如每天一个分区。以下是测试数据:

1fb516c7b538392d1eec6947b2ea0f7a760175e7

这里有2条数据,当成历史数据。我先做一次全量数据同步,到昨天的分区里。配置方法如下:
先在MaxCompute创建好表:

f57ef8938bdbbfb71ec3a24915cae86ca04091f9

然后配置了历史数据数据同步:
d0932f69751967f849b0cb0b6101adce6e98d515

因为只需要跑一次,做以下测试就可以了。测试后到数据开发里把任务的状态改成暂停(最右边的调度配置了)并重新发布,免得明天他继续跑了。之后到MaxCompute里看一下结果:
6ed535eb4a69be95dfba5d0c7f81b78d057fcdc5
测试通过后。往Mysql里多写一些数据作为增量数据:

523af6f90d4417a65e2cd0636b692fb518d45072

然后配置同步任务如下。需要特别注意的是数据过滤这的配置,通过这个配置,可以在15号的凌晨的同步的时候,把14号全天新增的数据查询出来,然后同步到增量分区里。
232668706b447ceb323adc55084f020f6bbd96be
这个任务需要发布,设置调度周期为每天调度,第二天过来一看,MaxCompute里的数据变成了:
db79adf5e9abea5c10b724b3bde4e65a8a94e14a

会变的数据

如人员表、订单表一类的会发生变化的数据,根据数据仓库的4个特点里的反映历史变化的这个特点的要求,我们建议每天对数据进行全量同步。也就是说每天保存的都是数据的全量数据,这样历史的数据和当前的数据都可以很方便地获得。不过如果真实的场景下因为某些特殊情况,需要每天也只做增量同步,因为MaxCompute不支持Update语句来修改数据,只能用别的一些方法来实现。两种同步策略的具体方法如下:

首先我们需要造一些数据:

74dd199d1ea696b0e94b0e0a478707d535b824e9

 

  • 每天全量同步

 

每天全量同步同步比较简单:

51ab6bf57206f55db5fd575709307f873d0c4ab8

然后配置同步为:
1cfe3f20595506ff5248ac48a9debba232f511cb
测试后结果为
202d7e4a68e57d836658672c6fd2ff8151dcf0dc
因为每天都是全量同步,没有全量和增量的区别,所以第二天就能看到数据结果为
f6c8bbd0a058dfa2c0ed362c7b8b87f4e155a26b
如果需要查询的话,就用where ds =‘20161114’来取全量数据即可了。

 

  • 每天增量同步

 

非常不推荐用这种方法,只有在极特殊的场景下才考虑。首先这种场景不支持delete语句,因为被删除的数据无法通过SQL语句的过滤条件查到。当然实际上公司里的代码很少直接有直接删除数据的,都是使用逻辑删除,那delete就转化成update来处理了。但是这里毕竟限制了一些特殊的业务场景不能做了,当出现特殊情况可能导致数据不一致。另外还有一个缺点就是同步后要对新增的数据和历史数据做合并。具体的做法如下:
首先需要创建2张表,一张写当前的最新数据,一张写增量数据:

eba8ff8933f70428c77fb1c93d1d6bc034cfa2be

然后全量数据可以直接写入结果表:
3691c8265dcd08319a65da1cec6f8cc235b98cbd
结果如下:
65b76bb48edf6a3bcbf2369bb14367b56d36e30b
这个只要跑一次的,记得跑好后要暂停掉。
然后把增量数据写入到增量表里:
4f95a67c2028f2489dea67db7ae98cd53c95d4dc
结果如下
5032a0e59bde5e2b4084883048676a7ff89373f4
然后做一次合并

c043ae049302a27f345c232ab6e576e615c19c55

最终结果是:
62007950eedd3e9f31c57f3dfb9f719167fab42a
可以看到,delete的那条记录没有同步成功。

对比以上两种同步方式,可以很清楚看到两种同步方法的区别和优劣。第二种方法的优点是同步的增量数据量比较小,但是带来的缺点有可能有数据不一致的风险,而且还需要用额外的计算进行数据合并。如无必要,会变化的数据就使用方法一即可。如果对历史数据希望只保留一定的时间,超出时间的做自动删除,可以设置Lifecycle。

本文转载自:https://yq.aliyun.com/articles/66893

_夜枫
粉丝 10
博文 506
码字总数 0
作品 0
朝阳
后端工程师
私信 提问
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方...

隐林
2017/05/05
0
0
袋鼠云数据中台专栏(五):数栈,企业级一站式数据中台PaaS

本文作者:江枫 袋鼠云CTO,花名江枫,本名宁海元。 2007年加入淘宝,曾是双十一大促技术指挥部成员,“去IOE”数据库负责人。 打造过千亿级实时日志平台、手机淘宝日志分析创始人、阿里云数...

袋鼠云
2018/08/28
0
0
手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

摘要: 最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品...

阿里云云栖社区
2018/04/13
21
0
阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据质量监控》篇

实验涉及大数据产品 大数据计算服务 MaxCompute 大数据开发套件 DataWorks 实验环境准备 必备条件: 开通大数据计算服务MaxCompute 创建大数据开发套件项目空间 进入大数据开发套件,创建Dat...

dataworks彭敏
2018/05/21
0
0
安森美半导体将在CES 2017上首次展示 市场第一个真正可扩展的下一代可穿戴技术的设计平台

灵活的开发套件包括硬件、固件、集成开发环境(IDE)和可下载SmartApp, 支持创建从简单健身跟踪器到复杂智能手表等的一切设计 推动高能效创新的安森美半导体 (ON Semiconductor,美国纳斯达...

玄学酱
2018/05/07
0
0

没有更多内容

加载失败,请刷新页面

加载更多

OpenStack 简介和几种安装方式总结

OpenStack :是一个由NASA和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenSta...

小海bug
16分钟前
2
0
DDD(五)

1、引言 之前学习了解了DDD中实体这一概念,那么接下来需要了解的就是值对象、唯一标识。值对象,值就是数字1、2、3,字符串“1”,“2”,“3”,值时对象的特征,对象是一个事物的具体描述...

MrYuZixian
今天
6
0
数据库中间件MyCat

什么是MyCat? 查看官网的介绍是这样说的 一个彻底开源的,面向企业应用开发的大数据库集群 支持事务、ACID、可以替代MySQL的加强版数据库 一个可以视为MySQL集群的企业级数据库,用来替代昂贵...

沉浮_
今天
4
0
解决Mac下VSCode打开zsh乱码

1.乱码问题 iTerm2终端使用Zsh,并且配置Zsh主题,该主题主题需要安装字体来支持箭头效果,在iTerm2中设置这个字体,但是VSCode里这个箭头还是显示乱码。 iTerm2展示如下: VSCode展示如下: 2...

HelloDeveloper
今天
6
0
常用物流快递单号查询接口种类及对接方法

目前快递查询接口有两种方式可以对接,一是和顺丰、圆通、中通、天天、韵达、德邦这些快递公司一一对接接口,二是和快递鸟这样第三方集成接口一次性对接多家常用快递。第一种耗费时间长,但是...

程序的小猿
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部