摘要:如今,Serverless化已经成为消息流平台发展的新趋势,而如何更好地基于Serverless化的消息流平台进行应用设计和开发,则成为了一个值得思考的问题。
本文分享自华为云社区《9000字干货:从消息流平台Serverless之路,看Serverless标准演进》,作者:华为云PaaS服务小智。
这是一个最美好的时代。
随着以数字化升级为代表的第四次工业革命浪潮的席卷,企业正在不断地深化运用这一技术,构建一个又一个全连接,全感知,全场景,全智能的数字世界,进而优化再造物理世界的业务,对传统业务模式,经营模式,管理模式以及商业模式进行创新和重塑,带来新一轮可观的业务增长。
而这背后,云服务已经成为企业数字化升级的必然选择。
Gartner预测,2025年将有近三分之二的应用软件支出转向云技术,到2026年全球云计算市场将突破万亿美元。
去年10月,随着马斯克旗下的X工程技术团队的重磅发帖,下云,瞬间成为了一个热议话题。抛开背后的政治、商业合作、经济下行等因素不谈,从工程技术以及资产运营角度来看,早些年,一部分借助低固定成本的公有云率先成长起来的企业,出于进一步安全可靠、低边际成本、灵活定制等新一轮发展需求,开始将自己的业务有选择的下云。当然,下云依然有不小代价,还要考虑自建IDC机房的运营成本(不仅仅是建设成本)。
事实上,现代云平台和自建IDC,对于资源的利用率都没有达到尽善尽美的程度,资源浪费的情况始终存在,这主要受限于传统的软件技术架构,并没有很好地适应云化场景。云厂商也在不断积极探索与创新,通过技术变革不断优化结构,提供更灵活的付费模式。
另一方面,一些云厂商通过FinOps服务(一种通过工程、财务、产品等方面的跨职能团队的协作,实现更快的产品交付、获得更多的财务控制和可预测性的实践活动)帮助企业合理使用云。由此可见,从“上好云”到“用好云”,是所有企业新一轮数字化飞跃的关键机遇所在。
为了帮助企业更有效地用好云,云厂商们不约而同地转向Serverless这一新的架构设计理念。不但能够充分利用资源规模化效应,提供更好的弹性,也能让企业享受到真正的按需使用,按用付费。
Serverless模型使开发者无需关注具体的部署资源,通过事件驱动的方式使用云资源,运行业务。
Serverless化正在朝着云计算通用标准范式演进。Gartner 则认为这是“十大未来将影响基础设施和运维的技术趋势之一”。云平台所面对的用户群体非常庞大,结合Serverless化架构,能够将资源利用、成本优化提升到新的高度。云厂商深厚的工程技术团队和运维经验,也能更好地支撑企业不断的技术演进升级。
作为Serverless架构通用事件驱动底座的消息流平台,在这一时期迎来了新的爆发增长。在诸如金融、游戏、电商、交通、教育等关键行业,消息流引擎扮演了削峰填谷、依赖解耦、实时通信与计算等重要作用。作为在线业务核心链路的基础组件,其往往同时具有消息(数据)和流的属性。
在消息场景,如订单业务等,对可靠性、一致性等有较高的要求;而在流的场景,如风控、实时交通等,又对延时、吞吐有更高的要求。传统的消息流平台,往往基于单体架构或传统分布式架构设计,难以充分发挥云上巨大的资源优势,在扩缩容速度、成本等方面,都面临着巨大的挑战。
在深度用云的云原生时代,Serverless架构模式能够更大限度地发挥云平台的优势。目前,不少厂家也在不断进行Serverless化的尝试。但由于对部署架构、存储方式依然有着强烈包袱,存在着不必要的资源开销,并没有一种非常完善、成熟的解决方案。华为云消息流在不断的架构演进中,也在尝试解决这些问题,实现一种适用于消息流的Serverless化技术方案。
01 华为云消息流发展历程
华为云消息流平台在为客户持续提供价值、使能业务的过程中,不断思考、探索如何更好地发挥资源价值,提供更灵活、更低成本、更高可靠的消息流能力。我们在技术发展过程中,也经历过几次大的架构演进:
最初的架构是一个共享集群的模式,所有业务都跑在一个公共的集群上,不同的业务按不同Topic进行隔离。
这种模式的优点是构建复杂度较低,资源提前部署,使用者不感知底层节点,只关注业务Topic,起步成本较低。
然而,随着用户和业务的快速增长,云上集群的压力也越来越大,尤其在一些大流量、大数据量的场景下,这种共享集群的模式开始显得力不从心。同时,由于资源共享带来的爆炸半径大、资源抢占、扰邻的问题,也使得其在面对多用户、高负载场景时,存在一定的局限性。
因此,为了更好地适应云上大业务量的场景,我们演进出了独立集群的架构,即每个租户的集群都是独占的,使用独立的计算和存储资源部署,网络上也是独立的VPC。可靠性上,支持计算节点在AZ级和物理机级的反亲和部署,保证单物理机故障、单AZ故障时,集群依然可用,并且单集群故障或异常,不会影响其他集群,也不会有集群间的资源争抢和扰邻问题。
在这种架构模式下,用户需要提前评估业务量,创建特定规模的集群。然而,业务总是在变化的,每个业务在不同时间阶段也可能有不同的性能容量诉求,创建新的集群往往意味着业务的拆分,需要进行业务改造,在生产环境中往往是成本很高,或者是难以接受的。
因此,也对单集群的扩展能力提出了要求,这种扩展主要体现在存储、计算和带宽上。
消息流平台本质上也是一种存储服务平台,要满足不断变化的存储诉求,就需要支持存储空间的动态扩展。
基于LVM技术,在需要扩容存储空间时,创建指定大小的云盘,挂载到对应的计算节点,并加入对应的逻辑卷组,扩充到逻辑卷中,达到存储空间的动态扩容,上层业务逻辑不用感知底层的多块云盘。对于计算和带宽资源,我们则是通过扩大节点规格和增加节点数来达到扩容的目的。
这种单租架构也是业界比较常采用的一种方式,然而这种架构模式没有实现完全的Serverless化,也存在着一些不足,主要体现在存储、计算和带宽资源的弹性和成本上。
目前主流实现下,在集群扩容时,新节点由于没有分片的分布,无法承接流量,均衡负载,需要进行分片的迁移,而迁移会因为数据复制而带来迁移时间长、占用资源的问题,虽然可以通过限制迁移的带宽和设定在低峰时间进行迁移,一定程度上减小迁移带来的业务冲击,但对于高负载下紧急扩容场景,迁移时间长和业务冲击的问题依然难以避免。对于存储资源,业务需要按最大存储空间诉求来预留存储容量,导致存储空间的利用率不高,会有一定的存储资源浪费。
面对这些问题,我们在不断思考、探索的过程中,也逐渐演进出了新的数据流处理平台架构。
02 新一代消息架构
当前主流架构下,由于计算和数据绑定,计算层扩容时,压力无法分担到新的节点,需要将数据分片迁移到新节点。
而分片迁移的过程需要同步历史数据,该过程会导致额外的带宽占用,导致原有节点负载加重,影响业务。
需要迁移数据是因为计算和数据是绑定的,每个节点只能访问本节点的数据。那么,我们如果可以将数据访问解绑,就可以不迁移数据,消除数据迁移带来的诸多问题。
计算和存储分离,能够使得业务扩展更灵活,计算的扩展不需要迁移数据,但伴随而来,是更复杂的部署架构和基础设施资源,对于云上多租、大业务量等场景,更适合存算分离模式,而在小型化部署等轻量化场景,更适合存算一体的模式。
因此,一个更普适的架构,应该是存储计算可分可合,逻辑上独立,物理部署上同时兼容两种模式。我们基于这种思想,也进行了一系列的实践。将存储与上层队列模型进行了解耦,彻底消除了存储介质、存储位置及存储方式与队列模型的耦合关系,通过面向应用的逻辑数据映射访问存储。
逻辑存储架构
消息流数据往往是一种过程性数据,数据追加写入,读取也主要集中在刚写入的数据。基于这种特点,我们首先实现了一种逻辑存储方式,在迁移分片时,只做逻辑上的迁移,物理数据在不同节点存储,通过元数据实现逻辑存储和物理存储的映射。
前面提到,消息是一种流式的数据,通常情况下,生产的消息都会被及时消费,也就是只需要访问本地的数据,并不会产生时延的增加,并且随着新数据的不断产生和历史数据的清理,分片的数据分布会逐渐趋近于目标节点,达到就近访问的效果。
通过这种逻辑存储方式,避免了在分区迁移时进行数据同步带来的资源开销,从实测的结果看,能做到秒级的迁移,并且不会增加原有节点的负载,让扩缩容和迁移过程更平顺。
这种方式一定程度上解决了分区迁移过程中的数据同步问题,但在物理部署上依然是存储计算绑定的,对于存储成本高、利用率低等问题,依然没有得到很好的解决。
在业界,我们看到一些消息流服务也在做相关的尝试,但是对部署架构、存储方式有着强烈耦合,带来了较大的运维成本。
我们看到,造成这些问题的关键在于存储介质、部署和计算依然存在一定的耦合,因此需要做更彻底的分离。
分级存储架构
我们知道,在存储体系中,存储介质、访问时延、成本是互相平衡的,如下图所示,越接近CPU的存储介质,时延越低,相应的,容量也越小,单位容量的成本也越高。
因此,不同类型的存储介质适合存储不同类型的数据,访问频繁、时延低的数据适合放在高性能、低容量的存储,访问不频繁、数据量大、需要长时间存储的数据,适合放在低性能、大容量的存储中。
在存储领域,业界已有对冷热数据分离的相关实践。对冷热数据的划分,主要根据其访问的频率,高频访问的为热数据,低频的为冷数据,其次是根据最近访问原则,长久未访问的数据也会被判定为冷数据。
AWS根据数据访问的频率,将频繁访问的在线类数据划分为热数据,非频繁访问的离线类数据划分为冷数据,在Redshift架构中,则是将冷热数据进行了分离存储,本地缓存的热数据使用SSD存储,而冷数据则通过S3进行存储,以提高存储效率,优化成本。
我们看消息流数据的特点:生产是追加式的,消费场景绝大多数都是及时消费,在金融、消息回溯等场景,可能需要访问历史的数据,这部分历史数据的特点是数据量大,但访问相对不频繁。因此,从读写和存储的生命周期,将数据分为热、温、冷三种:
•热数据:实时读写的缓存数据,这部分数据既是最近访问的,又是近期会频繁访问的,这种访问趋势在流场景是可以预测的,这类数据通常数据量不会很大,但对访问时延、吞吐要求较高;
•温数据:在消息积压场景,数据会在写入后一段时间才内读取,访问频率和实时性相对热数据更低,但其访问依然是可预见的,且对访问性能也有较高的要求,适合高性能、小容量的存储;
•冷数据:已经消费过的历史数据,只在消息回溯等场景再次访问,访问频率低,适合存储在大容量、低成本的对象存储中。
我们根据消息流数据的分布特点,采用分级存储的架构,将冷热数据分别存储在大容量的远端存储和低时延的本地存储,达到存算分离、成本优化的效果。
华为云消息流平台在分级存储架构上的实践,采用块存储作为本地存储,对象存储作为远端存储。对象存储的特点是存储容量大,相比本地块存储具有成本上的优势,并且支持按需使用。
在Serverless化大背景下,对象存储正在逐渐成为一种标准存储解决方案。而在读写性能上,块存储具有更好的时延表现。
因此,我们使用了本地块存储和远端对象存储相结合的方式,本地块存储保证了数据实时写入的低时延,对象存储则保存不常访问但数据量庞大的冷数据,达到性能和成本的平衡。
同时,大多业务场景中,流量都是波动的,本地块存储可以作为远端存储的缓冲,起到为磁盘IO“削峰填谷”的效果,消除对象存储瞬时性能的不足带来的影响。
IO读写路径
根据前面对消息流数据冷热特征的分析,我们在消息生产时,先写入pagecache,再同步或异步地刷到本地数据段,异步地将数据段上传到对象存储中,并更新元数据。
对于冷数据往对象存储中卸载的过程,我们的设计是,从时间和空间两个维度出发,存储时间达到阈值,或超出存储容量阈值的数据,这部分数据已经不是访问的热点了,对访问的时延要求也没有那么高,可以由远端存储来承载,会被异步卸载到对象存储中。
消费消息时,根据需要拉取的数据位点,判断目标数据是否在本地存储,如果本地存储命中,则直接从本地存储获取数据,这种情况通常发生在及时消费的场景,往往在pagecache中就能命中,也就不需要产生真正的磁盘IO。当目标数据不在本地时,会尝试从远端存储进行拉取。
一种直观的想法是从远端把数据文件下载到本地磁盘,再从本地磁盘进行读取。
然而这种方式下,会因为IO串扰而导致严重的性能问题。我们知道,流式存储在实时消费场景吞吐很高,其中一个重要原因,就是消费的数据,在pagecache中能命中,也就是我们所说的热数据,直接从pagecache获取数据,无需缓慢的IO操作,如果出现大量的冷数据访问,数据已经从pagecache中被逐出,需要从磁盘中读取,就会导致磁盘IO,时延上升,并且pagecache中的热数据被冷数据逐出,导致及时消费的流量也需要从磁盘中读取,pagecache“失效”,也就是缓存污染问题。
如果我们把数据文件从远端下载到本地存储,再从本地存储进行读取,那么缓存污染问题依然存在,更加拖慢了访问的延迟,同时,因为多了从远端下载数据到本地的过程,增加了IO带宽的开销,每份数据要进行两次磁盘IO,导致额外的资源开销和时延开销,也增加了本地块存储的空间使用,在发生大量随机读时,会导致大量下载数据文件,使原本轻量的本地块存储变得不堪重负。
前面提到,消息流数据是流式的、过程性的数据,在访问冷数据时也具有这种特点,一段数据通常不会在较长一段时间内被反复访问,也就是通常不会有相对固定的热点数据,或者说热点数据是在持续变化的。
基于这种特点,我们实现了基于内存的远端数据访问机制,通过应用层内存池技术,对内存空间进行管理,将缓存的数据分为多个slice,和真实的数据段进行映射,数据访问不需要额外的磁盘IO,带宽占用更小、时延更低。而且实现了冷热数据的IO隔离,解决了pagecache污染的问题,吞吐能力提升20%以上。同时能够避免因大量随机读而导致大量下载数据文件,优化本地块存储空间,降低存储成本。
缓存预读优化
由于消息的访问通常是顺序的,因此对于即将访问的数据位置,通常是可预测的,可以通过提前预读下一块数据,提升数据从远端加载的整体性能,减小读取卡顿。
在缓存管理模块中,存在一个预加载水位,当某个slice的访问位点达到预加载水位时,缓存管理模块开始加载下一个或多个slice,该过程是异步执行的,并不会阻塞当前的读取操作。这样,当访问到下一个slice时,数据已经提前完成了加载,避免了因从远端加载而产生的卡顿。
存储Serverless化
目前业界主流的消息流平台,用户需要提前购买指定大小的磁盘容量,并持续关注磁盘容量使用率的监控,在容量不足时提前进行容量扩容,否则可能因为磁盘写满而影响业务。
在实际的生产环境中,业务量并不是一直稳定不变的,很多业务都存在业务高峰和低谷,如双11的流量突增等,相应的,对磁盘容量的需求也可能有较大的波动,在这种模式下,业务通常需要按业务量峰值来评估磁盘使用量,并预留资源,这就直接导致了在非业务高峰时期的资源的浪费。
据估算,目前业界消息流平台的存储使用率平均在20%-30%左右。
在分级存储架构下,由于大量的数据都被卸载到了远端对象存储,对于业务层而言,是一个统一的存储池,而且支持存储空间的按需使用和超长时间存储,无需预留存储空间,无需进行磁盘的扩容和缩容,消除存储空间使用率不高带来的成本浪费,提升资源利用率,结合线上统计数据,可以提升3-5倍的存储使用率。
同时,华为云对象存储服务通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案,提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。其数据持久性高达99.9999999999%(12个9),可用性高达99.995%,远高于传统架构。
基于这种数据的高可靠和高可用,业务层在卸载数据时,只需保留主副本,减少了多副本对存储空间的额外开销。以三副本为例,在相同业务量下,可以减少约2/3的存储空间,结合存储按需使用带来的存储使用率提升,综合存储效率提升10-15倍。
弹性扩缩容
在这种分级存储架构下,由于Broker本地只有有限的一小部分温数据,使得Broker变得更“轻量”,在进行集群扩缩容时,只需迁移Broker本地的一小部分的数据,大大降低了迁移过程中数据同步带来的负载影响,并且大幅缩短迁移时间。
这里我们会发现,在迁移过程中,同步的这部分数据,最终也会被卸载到远端存储,那么如果我们直接卸载到远端,就可以省去这部分的数据同步,通过远端存储来达到数据的“同步”。
这里我们用到了前面提到的逻辑存储的思想,将分级存储和逻辑存储结合,在分区迁移时,新的Broker只同步增量的数据,当需要发生主备切换时,原主会进行数据文件的切割,并将分段的数据文件卸载到远端存储,当卸载完成后,进行主备切换,切换过程在秒级完成,无需同步历史数据,10GB数据的节点,可在1min内完成卸载和主备切换。在高负载场景下也能实现高效、平滑的扩容。
故障转移
对于故障的场景,基于引擎自身的主备能力,能做到秒级的感知、切换,配合客户端的重试机制,能做到业务不中断的故障自愈。对于部分节点故障导致的负载加重问题,由于计算节点没有历史数据,可以通过快速扩容节点和分区迁移,实现负载的均衡。
售卖模式
传统的消息流平台售卖方式,是基于实例集群的规格,用户需要知道每种规格对应的性能,需要评估节点规格、节点数量等,而用户关注更多的是能力,业务需要多少吞吐、多少TPS。我们在新的架构中,提供按性能指标售卖的模式,如TPS等,让用户根据性能指标选择所需的规格,回归业务本身,而无需关注底层资源,这也是Serverless化理念所倡导的。
计费主要分为计算部分、存储部分和增值服务部分。计算部分的计费模式为基础带宽/TPS + 弹性流量。当流量/TPS超出基础规格范围时,我们将允许一定比例的超限使用,即弹性流量,超出部分独立计费,避免流量突增场景对业务的影响,用户也无需为临时性的流量突增而扩大集群规格,减少资源的浪费。
通过这种模式,帮助用户更合理地使用服务资源,优化成本;存储部分支持按需使用,即根据实际使用的存储空间进行计费,不再需要进行存储的扩缩容;增值服务部分主要包含基本的消息收发之外的一些增量能力,如可观测日志功能、超出规格范围的topic数、数据同步等。
智能可观测
在这种分层存储的架构下,我们需要考虑每一层的稳定性,并提供相应的可观测和恢复能力。例如,我们会实时监控对象存储层的访问状态,当对象存储层出现访问异常时,能够快速感知,并自动调整块存储资源,避免IO受阻。
另外,传统的运维方式对运维人员的经验有较强的依赖,当线上业务运行产生异常时,往往需要运维人员后台排查,效率较低。目前,业界已有一些自动诊断的实践,这些诊断主要是对一些观测结果和异常项的汇总,如CPU使用率过高等,对于一些相对复杂的异常场景,如频繁rebalance导致消费延迟等,无法直接得出产生异常的原因和指导性的建议。
针对这些问题,我们基于长期以来积累的运维经验和可观测手段,实现了一键智能诊断的能力,在基础观测指标的基础上,做更深入的自动化业务分析,给用户呈现导致异常的原因和优化建议。
03 云上Serverless消息流实践标准探索
如今,Serverless化已经成为消息流平台发展的新趋势,而如何更好地基于Serverless化的消息流平台进行应用设计和开发,则成为了一个值得思考的问题。
在云平台具备高可靠、高可用等能力基础之上,本文结合华为云消息流平台在Serverless化演进中的实践,总结提炼出了Serverless消息流的三大目标和五大特征,并和信通院共同努力推动标准落地,帮助使用者更好地理解Serverless化消息流平台架构原则并能更高效地进行应用开发,发挥Serverless化带来的巨大优势,如下表所示。
目标一:业务聚焦(Business Focus)
Serverless化的消息流平台,应为使用者屏蔽底层基础设施,让使用者聚焦于业务本身,具备以下特征:
基础设施无感知(Infra-less):使用者在使用其提供的服务时,无需直接感知集群底层的资源类型,也无需感知集群的构成,如集群节点数等,使用者只需关注其本身的业务诉求,如所需使用的带宽、对时延的要求等,大大降低了其使用的复杂度。同时,在运维过程中,使用者也无需感知底层资源的负载,如集群节点的CPU、内存使用率等,更聚焦于业务本身。
目标二:成本优化(Cost Optimization)
Serverless化的消息流平台,会通过更具弹性的架构和技术手段,在提供同等服务能力的情况下,提升资源利用率,优化成本,具备以下特征:
按需使用(On-Demand):通常,业务负载会随着时间而波动,有的业务会有明显的波峰和波谷,如果按峰值负载预留集群规格,则会导致资源的浪费。
在Serverless化模式下,消息流平台支持按使用者实际使用的资源服务进行收费,主要包括计算服务费用、存储服务费用和附加能力费用:计算服务通过业务吞吐衡量,体现在流量和TPS;存储服务通过存储容量衡量,体现在统计时间点的实际存储容量;附加能力费用包括一些高级特性,如消息轨迹、智能分析等。在负载低峰时,相应的费用也会降低,帮助使用者优化成本。华为云消息流平台在Serverless模式设计中,也依据使用者对资源的实际使用来计费。
自动弹性伸缩(Auto Scaling):随着业务负载的波动,底层资源也需要相应地进行扩缩容,以最合适的资源规模满足业务负载诉求。Serverless化的消息流平台,在面对负载变化时,能够根据负载情况,自动进行弹性伸缩,及时调整底层资源,并进行业务流量的负载均衡,整个过程对使用者无感。
目标三:运维简化(Maintenance Simplification)
Serverless化的消息流平台在为使用者提供消息流能力的同时,也将大大降低其运维复杂性,让运维变得更简单、快捷,具备以下特征:
可观测(Observability):Serverless化的消息流平台为使用者屏蔽了底层资源,不再提供直接的资源指标,如CPU、内存等,而是为使用者提供更为丰富的业务级可观测能力,如细粒度监控、消息轨迹、关键事件通知等,帮助使用者快速、实时地掌握业务的负载情况,发现业务性能瓶颈和潜在风险,及时调整业务。
智能诊断(Intelligent Diagnosis):在业务遇到异常时,能够结合各类观测指标,自动对异常现象进行分析诊断,给出可能的原因和修复的建议,降低使用者运维的复杂度和运维投入,并提升异常发现和恢复的速度,同时,能够对当前的业务使用情况进行分析,并给出优化建议。
04 未来展望
软硬结合垂直优化
华为云自主创新共享存储池,通过软硬件结合优化,使用智能硬件设备和优化存储算法,提升存储利用率,通过优化数据存取方式,提升数据读写的性能,并保障故障时数据持久度不降级。
华为云消息流平台将基于共享存储池,构建高性能、高可靠的统一存储层,应用层无需感知多级存储概念,专注于业务逻辑,减少数据在多级存储之间转移带来的带宽开销,进一步优化成本。
同时,结合华为云底层硬件加速能力,将部分计算逻辑卸载到硬件中执行,降低CPU/IO开销,避免因大量CPU计算导致资源争抢、线程阻塞等问题,有效降低时延,实现十倍性能提升。
存储计算轻量化
将状态从计算层完全抽离,消除副本概念,通过统一的接入层,在所有计算节点上负载均衡,扩缩容无需迁移分片。同时基于华为云Serverless底座,将计算节点轻量化,实现计算节点秒级扩缩。同时,支持存储计算“可分可合”的灵活架构,支持小型化场景部署。
智能化
在业务波动等场景,根据业务实时负载,自动感知,自动弹性扩缩,做到计算能力的按需使用。借助快速发展的AI能力,自动分析历史业务变化趋势,自动调整资源分配,做到精细化的资源控制。
在保障业务稳定的同时,也能进一步优化成本。同时,通过AI自动分析集群异常和不恰当的使用方式,实现自动运维、无人运维,能够“自动驾驶”的消息流平台。