AI时代的金融级大规模图分析

2018/10/19 17:35
阅读数 87


小蚂蚁说:

GeaBase是具备高性能、高可用、高扩展性及可移植性强的实时金融级分布式图数据库,广泛应用于蚂蚁金服风控、社交、推荐等技术场景。“过无人区” 、“Made in China” 、“反哺”是GeaBase的几个耀眼标签。每年的支付宝春节红包、每一笔交易的反洗钱识别等等,背后的技术都少不了它的身影。


背景阅读:GeaBase,中国首个金融级分布式图数据库诞生记

2018年云栖ATEC金融科技开放峰会上,蚂蚁金服重点发布了新产品“金融数据+智能套件”,该套件包含金融计算引擎、数据智能中台、智能应用等组件,整合了许多世界级数据处理与智能分析能力,包括国内首个金融级图数据库GeaBase、实时计算引擎,以及领先的视觉识别、数据智能能力,有效解决过去银行数据分析决策困难、迭代周期长等数据智能困局。


今天,我们将重点介绍其中的关键组件——金融级图数据库GeaBase,它有效解决了海量复杂关系数据的离在线查询和分析。

 

试想一下,在金融场景中,数据的组织方式本质上很多是以关系图谱的方式存在的。在数字金融时代,银行获得了场景后,如何发现数据关联进行决策?

 

一般的在线查询使用关系型数据库,但是,关系型数据库不能很好地反应数据之间的内在关联;同样,传统的基于大数据的深度学习算法,依靠统计学原理对模型进行训练,并没有考虑数据和数据之间的内在关系。所以,蚂蚁开发了基于图推理的引擎,为深度学习等支持上层业务的应用搭建计算存储基础,打造更完整的金融大数据链路。

 

GeaBase是蚂蚁金服完全自主研发的新一代金融级实时分布式图数据库,能够实现对超大规模关系网络毫秒级的复杂查询及变更,支撑蚂蚁金服风险控制、资金关系等多个关键应用场景,并都达到百亿个节点,千亿条变量的海量数据规模,为蚂蚁金服的众多业务提供风险控制、反洗钱、反套现、金融案件审理和智能营销推荐等保障和服务。

 

GeaBase历经三年自主研发,团队持续扩大,并吸引众多海归工程师。目前GeaBase不仅支持了蚂蚁金服越来越多的高并发、低延时的业务场景,而且也被广泛应用于阿里巴巴集团的其他业务场景中。

 

下面,通过对蚂蚁金服计算存储首席架构师何昌华、蚂蚁金服基础技术部图计算及存储技术团队等的访谈,我们一起来了解一下GeaBase,以及透过它,我们可以看到的未来金融数据智能蓝图中图分析能力的力量。


GeaBase在蚂蚁金服的实践

图数据库基本含义是以“图”这种数据结构存储和查询数据。它起源于图理论,数据模型主要是以节点和关系(边)来体现,它的优点是快速解决复杂的关系问题。图数据库在金融行业中有非常广泛的应用,比如反欺诈。

 

我们都知道,大数据应用让很多企业机构在这个数字经济时代享受到优势。而由于用户、系统和传感器产生的数据量呈指数增长,数据内部依赖和复杂度增加等发展因素,许多需要连续两次甚至更多join以上的数据查询场景在互联网行业应用中诞生,传统关系型数据库、大数据算法无法满足日益增长的数据处理要求。

 

除此之外,在实际发展中,随着关系型数据库使用场景的不断扩大,也暴露出一些它始终无法解决问题,其中最主要的是数据建模中的一些缺陷、以及在大数据量和多服务器之上进行水平伸缩的限制。在应对这些趋势时,关系数据库产生了更多的不适应性,从而导致大量解决这些问题中某些特定方面的不同技术出现,其中,图数据库成为了NoSQL中关注度最高、发展趋势最明显的数据库。根据db-engines统计,图数据库过去几年在市场的发展呈现出快速增长的趋势。

 

 

有人说如果传统关系型数据库可以比做火车,图数据库则相当于大数据时代的高铁。如上述所指,随着大数据应用越来越广泛,人们逐渐开始关注到,如何在巨大的关系网络中快速发现有价值的信息,成为了未来数年大数据领域的一大挑战。

 

“比如在资金关系网络中,如果我们发现资金的流动形成一个闭环,这就很可能是一个洗钱行为的讯号。”付志嵩介绍道。付志嵩是目前蚂蚁金服图计算及存储技术团队高级专家,他2015年加入蚂蚁金服,作为主要架构设计和研发人员参与了实时分布式图数据库GeaBase的开发,实现了对超大规模关系网络毫秒级的复杂查询及变更。目前团队的主要职责是研发新一代的分布式图数据库和图计算产品。回国之前,付志嵩服务于美国图数据库公司BlazeGraph,领导了分布式图计算系统的设计和开发。

 

他介绍,此前全球主流商用图数据库完全由国外商业公司垄断,导致我国在技术上无法自主可控,而且这些商用图数据库在扩展性,易用性,性能上都无法满足金融大数据的需求。这些挑战体现在:


1、海量数据的现状;
2、高并发、低延时的在线查询;
3、金融业务场景复杂,需要一套灵活可扩展的查询语言,支持不断迭代的场景;
4、需要适配不同数据源和数据导入方式;
5、需要高可用及多种容错机制;
6、考虑用户使用体验,产品化过程必须要有简单的经营流程。


GeaBase为蚂蚁金服自主研发,针对自身面临的海量数据规模、复杂网络和大规模实时计算的需求,经过两年多的发展,通过采用新的架构设计和算法,满足了蚂蚁金服自身金融场景的特点和需求,在蚂蚁金服众多业务场景中,取得了非常好的效果,实现了高可用、高稳定性和可用性、高性能和实时更新的性能优势。

 

值得一提的是,我们也知道,蚂蚁金服还自主研发了取代商业数据库的OceanBase。总的来说,蚂蚁金服使用关系型数据库、图数据库以及图计算,三者各自对应不同场景。从技术实现层面讲,蚂蚁金服的图数据库主要有两大应用场景,一是在线查询,该部分主要包括实时风控、实时营销等,这些场景可统称为实时决策,蚂蚁金服需要在短时间内迅速做出决策,比如某笔转账是否为洗钱或者赌博;二是离线计算,以及知识图谱等。

 

这些问题都可通过图数据库解决,但并不能完全解决所有问题,比如机器学习图模型、分析型反欺诈模型等,在线查询局限在固定范围内读取数据,可保证低时延响应。但是,当计算需要全图迭代时,在线查询性能非常差,离线计算可以很好解决全图迭代问题。

 

总结而言,蚂蚁金服解决方案GeaBase(Graph Exploration and Analytics)集合了在线查询与离线计算两大能力,是一个一站式大规模分布式图处理平台。GeaBase的设计目标主要是两大应用场景,一是高并发低延时在线查询场景,二是全图迭代的离线计算场景。主要提供四大功能,一是数据CRUD,增删查改操作;二是查询FLWOR;三是在线分析,比如风控中使用较多的找闭环;四是离线操作。


GeaBase:助力未来金融数据智能

随着蚂蚁金服图数据库解决方案GeaBase,以及更多计算存储技术的开放,金融科技领域,将因金融数据智能能力的提升衍生出更大的想象空间。

 

蚂蚁金服计算存储首席架构师何昌华,加入蚂蚁后,带领团队研发并上线了蚂蚁实时智能决策系统,着力于解决端到端秒级数据实时性,线下模型训练和线上决策数据一致性,以及业务智能化门槛高和开发周期长等问题。目前,他聚焦于新一代数据技术架构以及金融级计算的自主研发,图数据库解决方案GeaBase,是其中的一环。

 

在加入蚂蚁金服之前,何昌华先后在Google搜索架构部门、Airbnb等公司工作,专注于大规模的分布式系统及大数据架构与智能应用。

 

他表示,在过去的十几年里,蚂蚁金服打造了安全流畅的支付交易链路,而金融计算存储,更多的是指底下一层的大数据链路,包括用户怎么使用支付宝、产生了哪些交易等,并从中提取出更多逻辑关联,如前文所述,辅助反欺诈、风险控制、智能推荐等各个场景的决策,帮助交易的安全和体验提升。

 

我们可以看到,金融科技发展到今天,我们很好地解决了连接的问题,但数字金融的含义远不止于此。无论是体现在风险控制、宏观经济研究,还是金融产品设计与销售等环节,在AI、物联网等技术的帮助下,数字金融还将迎来更广阔的空间。何昌华指出,AI未来将是金融行业的核心竞争力之一,今天蚂蚁金服的极大部分业务也都基于AI来展开。回顾过去,大规模深度学习大约在五年前开始兴起,这主要也是因为数据的爆炸性增长以及分布式计算能力的提升。未来假设在某个场景,基于同样量级的数据、同等成本上,如果能够进行比别人更多更快的计算,那就会在竞争上产生优势。

 

此前,蚂蚁金服通过“BASIC”开放战略,在金融领域构建了一个自底向上的全栈式架构,从具有金融级别支撑能力的分布式计算平台等底层技术,到人工智能、区块链等为代表的应用技术,再到以智能风控、生物核身等金融级专有技术,形成了完整的技术堆栈,以建立与金融机构更多层面的紧密连接,助力金融机构打造更开放、多样、灵活的生态连接。面对未来的趋势,众多金融机构因此在数字化转型路径中,将构建数据智能中台作为重中之重。

 

而构建一个能够贯穿整个金融机构的大数据中台后,随之而来的是发挥数据在业务和技术中承上启下的作用。用何昌华的话来说,“单位成本更低更易用的大规模计算能力,将成为未来金融行业的核心优势,这就是我们定义的新计算,希望全力打造的核心地带。”

 

何昌华透露,在打造这条基础计算的链路中,GeaBase现在提供的不仅仅是一个图数据库,而是作为整个图数据计算的大底盘,在它上面我们可以进行更多高效图计算,从而更好地支持业务。“它不在支付系统里面,它布局在许多底层的数据处理系统中,最后在数据上提炼出一层知识,然后再提炼一层,最终形成实时智能决策能力,来支持支付,以及各类金融属性的业务。”


存储、架构、算法:实时图数据库的诞生

回忆起图数据库研究的起源,研发团队表示,面对互联网时代的海量数据,以及背后的知识图谱,“大家慢慢地回过头来看,发现这个任务用‘图’表示最好,能够非常清晰地表示出点和点、实体和实体之间的关系。”

 

但回顾起图数据库研究领域的起源,研发团队表示,从一开始,蚂蚁金服的思路和市场上的图数据库就不一样,蚂蚁金服决定做的方向,是分布式的图数据库。


老一代图数据库,可以理解为是单机版的,这也是其很难适应数据爆发时代的需求的原因。举个例子,如果用图表示大量的数据,涉及的是数百亿的点、数千亿的边,这样的话,单机上是肯定放不下的,“在海量的数据挑战下,慢慢地就开始出现分布式的‘图’。”

 

但这个时候,图数据库的雏形还不算真正建立。设想一下,在多台机子上做图计算,面临的最大挑战就是,传统的算法几乎失了效。这个时候就必须创造新的算法来完成分布式图计算。

 

所以,在整个互联网科技行业中,有了后来Google研发分布式图计算框架Pregel,开启了在分布式图上做算法研究的先河,比如典型的算法PageRank。但是,GeaBase研发团队指出,这些研究方向适用于离线场景,而蚂蚁金服应对的是大规模金融业务要实现实时决策的挑战,需要面对“百亿个节点万亿条边的超大规模,并且实时更新的关系图进行高并发低延时的读写”。

金融的业务场景对于实时性的要求都很高,比如说在转账的时候,我们几乎需要在这一瞬间判断这一笔转账是不是有风险,要求响应速度非常的高,才能把钱在一秒之中转出去。但在这个过程中除了风险控制之外,还有很多其他的操作,真正留给风控来检查的时间大概也就两百毫秒左右,在这两百毫秒内我们要做规则的判断、数据及其特征的提取及最终判断这笔转账的风险,所以每一个毫秒我们都要尽力争取。

 

为应对独特的业务需求,蚂蚁金服从2015年开始研发新一代金融级实时分布式图数据库GeaBase(Graph Exploration and Analytics Database),并逐渐投入使用。根据测试,GeaBase在各方面的的性能达到了行业先驱图数据库Titan的四十倍到九十倍。

 

GeaBase第一次接受实际业务场景压力测试,是在2016年的春节期间。“当时我们都加班在办公室守着,火锅年夜饭都开成流水席了。但成就感真的很高啊!”

 

GeaBase技术上的两个“极致”

金融级的业务挑战让开发团队在技术路线的选择不敢有半点懈怠,投入了分布式图数据库的领域;而让GeaBase走得更远的,是背后追求极致的工程化精神。

 

机器性能压到了极致

 

蚂蚁金服计算存储首席架构师何昌华指出,GeaBase实现了海量数据里高并发、低延时的在线查询,但是,蚂蚁金服的机器数却是用得更少的。一般情况下,当规模上去以后,技术上也可以去用更多的机器去解决高并发难题。但蚂蚁金服的做法并不是堆机器,而是把单机的性能压到了极致,效率、成本上有明显的优势。

 

工程研发追求极致

 

GeaBase将图数据库从单机版做到了横向扩展,但回忆起当年,团队有两名老员工,其中有一个觉得不靠谱,转岗了,最后只剩下一个人,后来才重新招了很多人。“反正大家都觉得没信心。”

 

在我们当时做的时候,目标之一就是我们一开始就做分布式的,因为这种数据量级单机是不可能hold住的,一定是横向扩展、分布式的。但我们决定自己做的时候,连自己团队的人,他们都认为这个东西不可能做的成功,因为市场上已经有了相关图数据库产品,它给人们对图数据的认知已经定格。但是这个东西都没有办法能够达到我们对OLTP的需求,比如说几十毫秒的访问的延时,以及高并发的访问。当时我们就决定自己做,但当我把架构设计思路和团队讲了之后,连团队自己内部的同学都觉得不可行,都对这个事情失去了信心。


大家觉得这怎么可能呢?这怎么能做到呢?当时都是这么想的。

 

其实,这些想法可能跟我在硅谷的经历有关系,很多时候我会对coding,或者性能要求会很严格。在国内,由于业务导向的原因,大多数开发者是把功能做出来,但是对于实现的方法上并没有那么关注。做业务,可能晚一个礼拜出来,这个市场就没了。但是做基础技术研发不一样,做基础技术研发的话,如果能把它做到极致,我情愿追求极致,晚一点完成。

 

当时我就跟团队说,不管你觉得可以还是不可以,我们现在就在做这个,一切后果我来承担。后来就开始做,做出来的效果后来还不错,大家就开始慢慢变得有信心了。现在团队的凝聚力还不错,也是因为大家觉得这个东西非常有做头而且也是看到了未来方向之一。

 

这样的严谨和极致,在实际运行中就体现出稳定性的优势。“比如当时花了很多时间写单元测试,但后续需要重构的时候,因为有了单元测试保护,就不会担心重构后语义会和原来不一样。这样为后续打造的效率,节省下来的时间,远远超过一开始花的时间。”

 

走向开放的生态与能力共建

有很多人会觉得疑惑,会因为目前图数据库的应用领域有限,就质疑花这样的代价去自研、去打造一个新兴图数据库解决方案的价值。对此,何昌华表示,图计算是一个广义的领域,当前金融行业是其非常强的场景,蚂蚁也因此而在图数据库有大量的投入,未来,随着数字金融场景的驱动,图计算、图数据库技术的价值也会被验证,并逐渐发展起来。因为其实在金融以外的行业,同样对图计算有大量的需求。


“想象一下,未来的数字经济时代,IoT时代,海量的数据之间也会有千丝万缕的关系,图计算技术也将投入到更多场景的服务当中。”

 

目前,GeaBase的能力已在蚂蚁金服自身业务场景中得到验证,未来,GeaBase也将以开放的姿态走向市场,与更多生态合作伙伴一起,助力更多金融机构推动普惠金融发展。

 

付志嵩透露,GeaBase公测产品已经在蚂蚁金服|金融科技官网上线,团队将把GeaBase解决方案打造成技术服务平台进行开放,和更多企业机构、开发者合作共建更丰富的产品和服务、生态能力。

 

— END —

蚂蚁金服官方唯一对外技术传播渠道

投稿邮箱:anttechpr@service.alipay.com

欢迎留言及个人转发,媒体转载请联系授权




本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
0
分享
返回顶部
顶部