3 月 25 日,第一届 OceanBase 开发者大会在北京举行,华东师范大学副校长,CCF 会士周傲英教授带来了《未来, 中国需要什么样的数据库?》的分享,从他的视角为大家介绍了数据库技术发展的趋势、行业的机会,还有我们所肩负的使命。
以下为演讲实录:
很高兴又来到 OceanBase 的会场,关于中国未来需要什么样的数据库,是我特别想讲的内容,我从1985 年读研究生的时候开始学习数据库,经过多年的发展,中国终于迎来了数据库发展的新机遇。今天我的分享将从数据库的诞生、数据能源对于数字化转型的作用、分布式数据库评测基准三个主要方面展开。

简单回顾一下数据库,从更高的维度来看,数据库属于什么样的技术范畴?假如数据是电能(power),需要把电送到千家万户,我们就需要一个赋能平台,要有电力的基础设施,此时,我觉得数据库就属于基础设施里面的一个重要内容,并且它具有先锋性的作用。
展开讲讲赋能平台,“赋能”这个词是互联网的概念,现在已经被广泛使用,现在我们到处讲的“赋能”,英文是 In-power,也就是说它的主语应该是 power,才能赋能其它的。这个角度来说数据库就是赋能平台的概念,最早在 50 多年前已经出现,现在已经到了广泛的赋能平台,现在就来分享一下,我们在和 OceanBase 合作中对分布式数据库的理解。
大家都知道,我们在学计算机专业的传统专业课程中,有四门课是我们这个专业独有的——编译、操作系统、数据库、网络,而这四门课程中,只有数据库成为了一个独立的行业。操作系统中的 Windows 不是单独卖 Windows,编译也没有单独卖编译的,网络是卖硬件的、没有卖软件的。从这个角度来说,在数据库产业的发展过程中,Benchmark 基准评测起到了很好的作用,也规范了这个行业的发展,让大家相对公平、有序地竞争。
▋ 数据库为金融而生
数据库是作为金融技术、金融科技而诞生的,支持的是 Mission-Critical 的应用,Mission-Critical 是人财物的精确管理,为了做到“精确”,我们需要数据库。最早的数据库从 COBOL (Common Business-Oriented Language,最早的商用编程语言)里诞生。2000 年,美国由于千年虫(Y2K)的历史遗留问题,把很多在海边独居的老人请回来改代码,那时候的代码还是 COBOL 代码,最早的社保和医保系统都是用 COBOL 来写的。2020 年疫情刚开始时,因为很多医保、社保在这一年马上要兑付,很多老人再次被请回来改代码。
由此可见,数据库是早期最经典的金融科技,是典型的“应用驱动创新”的案例。
▋ 数据库的发展历史
20 世纪 50 年代,COBOL 开始出现;60 年代,COBOL 被定义为数据系统语言,第一个图灵奖获得者艾伦·佩利(Alan J.Perlis)在 CODASYL 会议上提出了 DBTG 报告;80 年代,数据库概念达到顶峰,关系型数据库开始出现,数据库由此开始慢慢被人接受,并由此开始广泛传播,也是在这个过程中,两个图灵奖获得者诞生了。
数据库的发展史是 IT 技术创新史的缩影,数据库的的成功是应用创新的成功。用应用驱动创新的数据库,在理论和技术的相互促进中,形成了数据库波澜壮阔发展的几十年。虽然数据库技术在不断发展中越发成功,但是任何成功的案例都有它深刻的教训:原本我们以为一个关系数据库能够解决所有问题,但在大数据和谷歌的“三驾马车”概念出来之前,大家好像都在哀叹数据库好像解决不了数据的问题,直到” One Size Fits a Bunch”( 即一类应用可以有一个数据库)概念的提出。
我跟国外学者交流时,他们也很认可我的理念:学数据库的人应该理解数据库的抽象,关系数据库就是对语义的抽象,事务处理就是对业务逻辑的抽象,分布式数据库就是阳振坤老师讲到管帐、记帐、转帐这些业务逻辑的抽象,而 Benchmark 是对功能、对能力、对规范的抽象,正是抽象成就了 30 多年的数据库产业的发展。

从现在的角度来看,我们怎么来做新的数据库?“Data is power(数据是新能源)”的理论,是 2016 年马云先生在云栖大会上讲的,这个 Power 指的是电,数据给生活带来的深刻改变好比一百多年前,电的诞生对生活带来的深刻改变一样。
虽然四五十年前已经有人意识到数据的重要性,但我们对于数据广泛意义上的重要性是互联网教会我们的。从“蒸汽能 (Steam Power) ”到“电能 (Electric Power) ”再到“数据能 (Data Power) ”,每次 Power 的改变实际上不仅仅是一次产业的巨大改变,它带来还有国际格局的根本改变。




伴随着云计算趋于成熟,在这样的情况下,我们未来的分布式数据库在什么地方,OceanBase 是分布式数据库的探索者。我认为分布式数据库要有云上的系统,刚才我们都提到数据库要扩容,要智能运维,如果要让数据库好用,要让赋能平台好用,就不能仅仅只是“One size fits a bunch”,而应该是像阳振坤提出的观点“One Suite fits all”。
以前我们学分布式数据库时,还没有网络和现在的互联网,现在在应用驱动创新下,有了互联网,进而有了分布式数据库。
▋ Benchmark 对产业形成非常重要
在华东师范大学和 OceanBase 合作过程当中,我们认为:Benchmark 对产业的形成非常重要,也是在这个过程中,我们进行了总结。所以我们一直在研究基准,以此来引导分布式数据库的发展。
基准是应用需求的抽象,有了抽象才能引导,我们都知道实践出真知,由于真知形成了理论再引导实践,正是统一的评测基准引导着分布式数据库的发展,我们对传统的 Benchmark 进行了总结,包括 OLTP 和分布式数据库的总结,在 2022 年有一篇文章,全面地论述了从 Benchmark 的发展到分布式数据库的发展。
数据库历史发展图



往期推荐
▼ 点击下方「阅读原文」,查看完整视频回放!
本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。