在1月末突破1亿用户,成为史上用户增长速度最快的消费级应用程序后,ChatGPT的能量仍在持续爆发,无论写报告、读论文、改代码、聊数学,用户们在一切可能的场景里尝试使用ChatGPT提升效率。作为一个人工智能对话模型,ChatGPT之所以能实现当前的交互效果,得力于OpenAI在AI预训练大模型领域的积累。
在2022全球人工智能技术大会上,蚂蚁集团基础设施委员会主席、绿色计算负责人何征宇应邀在主论坛发表演讲。基于蚂蚁的实践经验,他从模型为中心,分享了对于下一代AI基建发展的思考。以下是他的演讲全文。
大家下午好,非常高兴能来到这里。我在蚂蚁负责的是蚂蚁整个基础设施,从过往的经验和实践,包括我们看到的一些趋势,今天想跟大家分享我们对于下一代AI基建的思考。
在整个人工智能领域,大模型已经成为一个不可回避,大家都在聊的一个话题。这个趋势我总结为“以大为美”。大模型方兴未艾,数据、计算需求指数级增长。从已经发表的文献里面可以看到,耳熟能详的2020年GPT-3,参数已经达到将近2000亿级别,预训练的数据量已经超过45TB,现在的国内几家大公司做的模型,基本上都是千亿级别。另一方面,随着整个算力的发展和计算机行业的发展,业界整个的训练量、AI模型的需求量,都是呈指数级增长的。
在这大趋势之下,我们可以说,深度学习模型已经成为了一个“奢侈品”。最近一篇讲类脑计算的论文总结了主流大模型训练成本,我认为不要说个人,就是一些中小企业,也很难去承担一个大模型的成本。不仅从硬件的角度,即便云计算在降低硬件运用的成本,但目前成本依然是非常高的;还要从人力成本上讲,做这个模型需要专业的团队,至少10人以上,耗时数月不等。有一个研究机构报告也说明,其实78%的AI应用项目会由于种种原因受阻,包括硬件的成本、人员团队的建设等等。
在这个趋势之下,中小公司是很难享受到AI的红利
,不仅受制于成本,更重要是这是一个技术上很难的事情。
最后还有一点,大家都知道,人工智能是从大量的数据里去提取知识,但是我们在做“重复智能”,我们是在不同的场景里面重复提取,重复从0到1的学习。当然现在有迁移学习等等相应的技术,但是这个技术的发展目前的进展是远远不够的。
总结一下,虽然现在都在说我们的软件正在进入到智能化的时代——今天写一个没有用AI的软件好比20年前写一个没有网络连接的软件——但是现在整体AI应用的门槛是比较高的。真的要让编写一个人工智能软件就像写一个互联网小程序那么简单,是一个很难的事情。
其中的核心,我认为还是要回到AI的基建本身来讲。在AI时代,我们
如何能够降低整个人工智能技术进入到整体软件开发的成本,变成不可或缺的一种技术,我认为核心就是我们怎么去投入到AI的基建里。
如何尽量降低这个门槛?我们觉得还是要从AI模型,这个区别于传统软件开发的范式出发。
从模型为中心的角度思考,我们觉得突破研发效率瓶颈是关键,而绿色和共享是解决这个问题的核心。
从软件研发流程去看这个问题,区别于传统软件以代码编写为中心,AI应用更多注重围绕模型展开的数据准备,大规模训练以及分布式服务。以此为基础,我们可以分三个方面来描述这个目标。
1.易用。
AI基建的目标,首先一定是要易用,这个易用包括要有标准化的接口,不管是数据的还是对模型的调用,新一代的AI应用服务一定也会有一个统一的应用框架。
2.高效。
我们极力避免去讲“大模型”这个词,虽然大家提的很多,我们更愿意讲的是基础模型,高效一定是基于基础模型,这个我稍后会解释。我们要结合现在云计算最新发展的趋势,包括云原生的分布式带来的红利,以及我们硬件的虚拟化、池化等等带来的成本降低,达到整体的效率最优。
3.共享。
首先隐私计算技术在快速蓬勃的发展。隐私计算解决了什么问题?其实是解决了在数据共享的时候,让我们的隐私得到更好的保护。下一代AI基建也是一定以这个为基础的,让更多的数据更快、更好、更安全的流转;第二个是代码,现在看我们的AI系统,像TensorFlow等等,都是开源的,我们觉得未来的AI的基建,也一定是代码开源的;第三个,我们觉得AI的模型,未来应该都是大家集合完成的,甚至是由社区完成的,而不是由某一个机构独立完成的,因为这里面有很多数据融合的问题。这里面比较
关键的就是共享经济的模型,让大家都有更大的动力,可以去贡献算力以及数据。
基于此,我讲一下我们为什么今天又回到Foundation Model这个事情。其实Foundation Model跟我们讲的预训练模型是息息相关的。因为我们今天在用它的时候,是把它当作一个预训练的模型。如果我们没有预训练,我们在干什么?我们是把数据在给定的任务下,比如说今天要做一个风控,做天气预报,做科研类的东西,我们会重复把这个数据训练成想要的模型,就是所谓的Target Task这个模型。
有了预训练模型,我们可以有一些先把数据集合到一个基础模型里面,训练出来的模型可以去做机器,去做灾害的预防,去做不同的事情,这个是在学术界和工业界得到了验证的。从蚂蚁的实践来看也佐证了这一点。支付宝首页是有一个预训练模型在后面支撑,那个也是我们蚂蚁相对来讲一个比较大的模型,叫Ominirec。
相比传统方法,
这个预训练模型首先是帮我们节省了很多硬件资源的成本;
其次也加快了我们整个迭代效率。
如果对比Training from Scratch,整个训练的启动时间已经减少了90%以上。
那意味着什么?
意味着我们在蚂蚁、支付宝首页的模型上面,可以更快的响应用户不同的需求。
今天我们最想聊的一个话题,是我们提出的这个“模型即服务MaaS”,我们要以模型为中心,建立整个AI服务和知识分享的平台。
我们从隐私计算、硬件虚拟化、池化,云原生的分布式训练架构,以及刚才讲的统一应用服务框架等,完成我们最开始的技术模型Foundation Model的搭建。
从研发侧的视角来看,一个Foundation Model是基于一个共享经济的模型。
因为在蚂蚁内部也会存在这样的问题,我们是平台部门,上面也有不同的业务部门,这些开发者到我们平台上来,也会提供他带来的一些数据,一些算力,他怎么把算力和数据集合起来,在我们最基础的Foundation Model上预训练成不同Task的模型,我们也会有一个研发和分享的平台。你可以想象一下,我们基于这么一个架构,Foundation Model可以经受各种业务需求的捶打,变得越来越好。这是蚂蚁正在探索和实践的AI基建理论框架。
我们在持续的优化和建设蚂蚁的整个AI基础设施,图中最下面一层是我们有对硬件、对云原生平台的一些底层依赖,也有整个的运维侧,包括我们有一套MLOps的框架。中间是我们数据集以及模型集。最后有一个服务的框架,通过服务去透出,让大家能够更快的构建一个AI的应用。这是蚂蚁的实践,目标是极力降低蚂蚁内部任何一个开发者开放去构建一个AI应用的成本。
如果想象一下,你在业界的一个小公司,需要要做一个人工智能为核心的软件,没有这些基建的话,首先你要去收集大量的数据,花大量的资金去购买硬件,然后你要花大量的时间去调整训练你的模型,最后你还要担心如果我的软件写的很好,流量爆了怎么办,怎么弹性的去支持各路的服务。所以,我们这套平台,大逻辑上可以把整个流程的成本降得更低,让蚂蚁至少从业务的角度讲,开发者可以开放享用人工智能带来的红利。
最后,我稍微提一下刚才我们框架里面几个关键的东西:
首先我们需要一个统一的AI应用服务框架,在蚂蚁这套框架叫做
Maya
,它是基于两个开源社区——
TRITON和RAY
做起来的。不同的开发者只需要专注用自己熟悉的编程语言,在这套框架里面去编写自己相应的业务逻辑。服务框架本身搞定服务研发和部署等其他琐碎的事项。服务框架内置高性能的AI模型推理库,同时提供智能的服务分布式节点伸缩等。
我们也有一个极力降低模型训练难度的智能分布式训练服务,简称智深。通常算法研发在搞模型训练时,要懂你的模型训练需要多少分布式节点,节点算力多少,内存分配多少等等,需要感知很多很多硬件细节。此外还有众多分布式策略的选取和调优。智深服务可以做到让研发者做分布式模型训练时只需要提供简单的单机模型,服务本身会搞定模型的分布式策略选取和调优,硬件细节参数的设置和动态调整等。
第三个是比较关键的事情,今天讲AI系统绕不开的一个话题就是云计算,云计算现在已经演化到云原生的状态,我们的应用本身是从云上而来的,而不是我们搬迁上云的。所以
我们第一天起,就是在云上去构建整个分布式的AI系统。
这带来了很多的好处,它的资源弹性等等,我们看到,AI任务在今天已经足够多样化了,任务的特性是完全不一样的。
在云原生上比较好的一点是,我们可以利用这些任务对硬件和对底层资源的不同需求,进行一些削峰填谷,以达到整体资源开销降低。蚂蚁已经成功把训练和推理做了混部。这里面的关键是如何在训练量特别大的时候,保证推理服务的延时。还有一些像离在线混部等等问题,我们都在一一去解决。
还有逃不过的一点,云计算本身带来最核心的东西,它的革命性技术,最关键就是虚拟化。我们在运用好云原生技术带来的红利同时,也绕不开如何将AI的硬件进行虚拟化。特别是当下由于芯片的问题,可以看到原来一家独大的AI芯片市场正在被打破,异构的硬件的繁荣,也某种意义上带来了整个应用系统的研发适配的工作量。这个阻力还是比较大的,因为我们人工智能用的硬件每家的标准不太一样,应用的生态也比较复杂,实际上我们是需要去做一层,计算机里面讲的,引入一层抽象。
所以硬件的虚拟化,也是我们需要去引入的一个抽象。我们讲的XPU,不管是GPU、还是NPU、还是TPU等等,不同AI的运算单元都需要有一层公用的抽象,在抽象之下我们可以去支持不同的场景,去做更好的资源调度。
先给大家讲一下背景,蚂蚁为什么会用AI做遥感?因为蚂蚁集团网商银行有一个业务,针对一些在传统金融里面比较难覆盖的农户,去做一些小额贷款。传统金融比较难做,第一个是农产品做贷款这件事情其实是基本上要看天的,天气好和天气坏,收成肯定是不一样的。
第二个是从传统金融角度,农户没有公司,没有企业,没有注册资金,只有地,这需要一些实地的走访,你计划今天贷几万元,种某一个庄稼,到底是不是真的;然后你还得时常去访问,你贷款的种子播下去没有,收成怎么样,这个成本已经远大于做这个业务的收益了。当然国家在极力的推进整个农业的发展,扶持实体经济,包括农业的发展,包括一些绿色的金融等等,但事实上来说,这是一个成本极其高的事情。
针对这些传统金融行业角度来看成本极高,甚至入不敷出的场景和业务,蚂蚁采用的是技术的方法,可以不用去实地看,更多通过卫星遥感的数据,调研农户的庄稼、长势等等。这个也入选了全国首届农村金融创新报告中的案例。我们借用这个模型也做了一些地质灾害预防,比如说洪水对农业经济的一些影响。
这是一些背景,我们基于刚才的场景,设计了AI遥感大模型的算法架构。因为这个事情本来就是一个利润不是特别高的事情,所以需要用更低的成本去做,要提升整个数据计算的利用率。我们要用场景间知识迁移,因为很多数据和场景不是我们真的知道或者说有很多标注数据。但是我们有大量的数据,包括高频的时序的遥感数据,我们也收集了很多开源的数据,以及跟国内很多高校机构合作。我们这个模型虽然跟业界那种通用的大模型比,参数量没有那么大,但是在遥感这个领域,应该是业界比较大的模型了,有10亿参数。
回到我刚才讲的,以模型为服务,我们最终服务的就是基于这个模型,在不同的场景中去做的延伸。再进一步,我们在平台上也做了一些低代码的工作,可以让技术人员甚至是运营人员,很简单就可以拥有非常强大的人工智能的能力,这个是我们比较核心的竞争力。因为大家都知道,人工智能还有一个比较耗成本的点,就是要大量的标注数据,但是经过刚才讲的知识迁移,能够降低50%的数据标注量,
通过模型即服务这个架构方法,预计能够降低50%的算力
,最终实现绿色的、共享的AI。
我就分享到这里,最后一句话,我在每次报告都会说:蚂蚁还是希望用更绿色的技术,为世界带来更多微小而美好的改变。谢谢大家。