编者按:围绕边缘云海量分布式节点和上百T的网络规模,结合边缘云快速发展期间遇到的各种问题和挑战。LiveVideoStack Con 2023上海站邀请到火山引擎边缘云网络产品研发负责人韩伟,为我们介绍火山引擎边缘云网的全球基础设施,融合开放的云网技术体系以及基于边缘网络延伸的全域联网加速方案。
迄今为止,云计算已经发展了二十年,成为了事实上的社会基础设施。5G时代到来后,消费互联网开始不断向产业互联网延伸,涌现了物联网、车联网等大流量、低延迟、高并发的场景。原有云端的架构难以满足新场景下产生的各种需求,这促进了算力持续下沉,数据落至边缘。
从应用趋势来看,应用形态从早期的单机模式到现在的更加多元化。基于低时延、低成本等考虑,应用部署模式逐步从云中心模式走向云边协同。同时,应用形态从早期的图文应用到视频直播再到AR/VR,新的应用形态对时延和算力提出了更高的要求。此外,应用数据持续爆发,需要边缘侧处理的数据随之急剧增长。
面向海量数据的爆发,新的应用形态对时延和成本的极致要求,边缘计算逐步成为新一代应用的基础设施。
边缘计算的目标是在网络的边缘侧提供IT基础设施和云服务,在靠近客户的位置提供计算存储和网络资源。根据机构预测,至2023年底,全球50%以上大型企业将部署至少6个以上的边缘计算应用,至2025年底,全球75%的企业生成数据将会在边缘产生和处理。由此可见,整个边缘云市场增速非常可观。
早期边缘云技术主要落地部分刚需场景,整体处于萌芽期;后来更多的场景不断涌现,竞争也越发激烈,边缘云进入快速成长期。随着边缘云在不同场景的渗透,云中心和边缘结合的基础架构将成为新一代的基础设施,边缘云会加速进入成熟期。
回顾整个云计算的发展历程,可以将其总结为IT产业升级、传统产业升级以及云上智能经济体等阶段,每一阶段对网络的诉求不同,边缘云也不例外。
首先是企业上云及云上原生相关场景对网络云化的需求,其中最主要的是边缘计算节点的商业化。针对计算节点的商业化,网络需要具备灵活弹性、安全隔离、自主可控等基础产品能力,转换为技术层面,需要网络技术具备云化能力。
第二个阶段是传统产业升级,混合云和广域网场景下,对网络互联的需求。海量分布式节点间互联、组网,及企业上云等成为刚需。在此阶段,边缘的安全、跨节点的组网及网络加速相关能力是当下产品的主要特点。在技术层面,类似SD-WAN的场景,网络加速、网络调度等能力,需要布局落地。
最后随着云的不断发展,出现了云上智能及生态协同的诉求,分为两个维度:
第一个是网络运营。相较于传统IDC及云中心,边缘云网络具有更高的复杂度。节点异构、海量的分布式节点及融合的网络都极大提高了网络的复杂度。转换到网络需求层面,即希望边缘云网络达到可视、可管、可运营;在技术层面,则对网络不同维度的数据采集、离线/实时的数据智能分析提出更高的诉求。
第二个是网络生态。云计算走向后半场后,我们希望协同更多产业伙伴共建边缘云生态。通过云上被集成的能力,赋能产业。从技术上,则需要提供网络及应用的编排、透明接入能力。
此外,还有一些在资源、技术、产品侧的通用化诉求。资源侧,需要对IP/带宽/专线等资源服务化、产品化及定价运营。技术侧,需要覆盖云上、云间、云下各个场景。在产品侧,网络产品的能力丰富度、极致弹性及安全可靠性则成为必须。
除了云计算不同阶段对网络提出诉求之外,边缘云的分布式节点特征也对网络提出了更多诉求。
边缘云的基础设施覆盖了云边缘、近场边缘、现场边缘。不同场景的节点规模、容量、设备机型及线路覆盖都有比较大的差异。
首先,在不同的异构节点之下,对外提供统一的产品及服务界面,则需要进行多节点协同。
第二,多线路覆盖,目前有小运营商、单线、多线,涉及到公网、专线、跨境。因此,网络融合更为重要。需要结合成本/质量/容灾等不同维度的调度,为用户提供更高性价比的产品。在边缘侧,包括CDN、DCDN相关场景,基于海量分布式节点会有更多加速相关的场景及需求,因此优化不同节点之间的数据转发路径就变得极为重要。在回源加速方面,通过链路的择优为用户提供更好的极致体验。面向企业上云相关场景,计算节点在不同的分布式节点提供服务,使得网络的互联互通成为必须。解决多边组网的同时,基于公网、专线保障数据的传输安全也给网络带来了更大的挑战。
最后,面向端侧,网络持续向近场和现场延伸,需要更加灵活调度端侧,保证用户能够就近接入,从而提升用户体验。所以,无论是云计算发展的不同阶段,还是边缘分布式节点的特征都需要网络更完美的支撑,这也给网络带来了更大的挑战。
首先是全球云网的基础设施,火山引擎在2020年开始大力建设边缘云的资源底座,目标是提供全球统一的资源及技术底座支撑业务的快速发展。截至今日,已经覆盖了50+国家,1300+节点,全网的带宽储备达到110Tbps+。
此外,火山引擎选取了一些优质的区域节点,在不同的节点之间通过专线进行互联,同时还覆盖了不同国家和地域的跨域专线,通过节点互联,结合海量的分布式节点,构建了一张全球的骨干网络,很好地满足了业务的快速发展。基于这张全球骨干网络,我们向上支撑了内容分发网络、联网与加速相关的产品体系、以及安全防护一体的整个边缘云网的产品矩阵。
这张网络具备以下几点特征:
首先,超大的规模与弹性。上文提到骨干网络有海量的分布式节点,整体储备带宽达到110Tbps+,此外,我们在不同节点选取了高性能硬件,并基于此构建了整个边缘云的云原生操作系统。经历抖音的春晚、双十一、世界杯以及内部业务突发情况的锤炼,目前,边缘云基础设施在具备一定规模的同时还具备了较好的弹性。
第二,骨干网络的打通。包括跨域专线、区域节点互联,真正做到了基础设施层面的全球一张网,为上层业务的互联互通打下了基础。
第三,安全可靠。我们基于业务诉求,选取部分节点建设了高防的清洗中心。不同的节点具备云原生的DDoS和WAF防护能力,从而为上层业务保驾护航。
最后,节约成本。抖音规模已经非常大,我们将抖音的业务规模对基础设施的资源需求和ToB做了并池,使其在更大范围内复用,极大优化了成本。
此外,我们在边缘云网体系以及边缘计算节点体系中搭建了运维和管理的相关平台,降低运维成本的同时提升了运维效率。
火山引擎边缘云产品体系
在介绍边缘云网技术体系之前,先简单介绍一下边缘云的产品矩阵。
整个边缘云可以分为基础设施、计算服务、网络服务、域名与网站等数字基础服务,再结合边缘云网的智能引擎,便形成一个有机整体,使得基础设施在资源、效率、成本方面,为上层业务做到更优。基础设施层覆盖了云边缘、近场边缘及现场边缘
1-40ms的广域网络接入,以及多场景下的数据卸载相关能力。
在基础设施之上,构建了边缘云原生操作系统,支持云边协同、边边协同、云网协同及多云协同,形成了新一代的分布式技术架构。
在原生操作系统之上,推出了通用化的计算服务,包含了边缘计算节点,支持CPU、GPU、ARM不同底座的虚拟机形态,以及边缘容器、边缘函数。在场景化计算服务侧,推出了边缘渲染、边缘智能。继续向上是网络服务,分为两部分,第一部分是内容分发网络,包括火山引擎CDN及多云CDN;第二部分是联网与加速产品体系,包括面向7层的全站加速、支持4层的全球加速、面向游戏行业的精品游戏加速解决方案GNA,以及面向企业分支组网的SD-WAN+。
火山引擎边缘云网解决方案
边缘云网的解决方案已经连接了云、边、端,从下向上首先是整个网络的基础设施。
上文提到我们拥有海量分布式节点,并在线路较好的资源节点做了专线的资源覆盖。整体在基础网络层搭建了一张全球骨干网络,合规跨境上则覆盖了东南亚/中日/中韩/中欧等主要区域。为了更好地使用这张基础物理网络,我们在此之上抽象出了边缘互联服务,能够结合边缘节点的公网带宽、专线容量进行整体的调度容灾,从而为上层业务提供更好的复用能力。
除了结合网络基础设施的底座之外,我们还推出了边缘联网的产品体系,覆盖了SD-WAN+产品,边缘接入产品、跨境加速以及边缘计算节点网络相关能力;通过SD-WAN+,能够在端侧支持VPN、移动APP及CPE设备的接入。在边缘接入侧,通过专线的接入能力,能够解决企业上云相关场景;通过边缘节点间联网能力,可以连接不同的计算节点,最终形成一张由分布式节点构成的具备业务自治能力的云上网络。
基于这个边缘联网的产品体系,我们构建了覆盖3-4-7层、连接了云/边/端的网络加速体系,分为三个产品:第一个是全球加速,面向4层加速相关场景;第二个是DCDN,支持一站式动静态混合网络加速服务,第三个是面向游戏相关场景的GNA。GNA在APP上会有加速和诊断的能力,再结合云上的路径择优、网络调度,能够为游戏加速行业的客户提供更好的服务体验。左侧是边缘计算节点,上文提到边缘计算节点的商业化会对网络提出云化的需求。我们研发了满足边缘计算节点发展相关需求所必需的产品能力,包括VPC、负载均衡、NAT、EIP。不同的边缘计算节点之间能够通过边缘联网的整个体系互联互通,连接到一起。
火山引擎边缘云网的技术体系
图为边缘云网技术体系
最下层的基础设施有以下特征:覆盖全球的边缘节点,目前火山引擎的规模比较庞大,带宽储备比较充足;覆盖全球的骨干网络,包括国内和海外,具备一定的专线资源覆盖;优质线路,在选取节点的同时对线路的选取也有比较高的要求,我们提供了优质的单线及三线带宽资源;丰富的硬件形态,针对不同节点的容量诉求及节点的规划,我们提供丰富的硬件形态,能够满足不同场景需求。
基础设施之上是技术层。首先,网络转发平台提供EVS、EGW、TTGW三个转发平面。其中EVS是主机网络,支撑虚拟机和容器的算力资源,提供网络隔离、网络限速及安全组等能力。EGW是融合网关,边缘节点是异构的,有海量的分布式节点,我们把很多网络能力融合到一个融合网关中,它是整个边缘云To B的网络和安全的流量入口以及安全支点。TTGW是核心网关,整个集团的所有流量的公网入口都基于此构建,它同时承载了高防的流量入口。基于以上三个不同场景功能组件的诉求,我们在底层抽象出了一个网络转发框架,以解决设备异构问题,提供软硬一体的转发能力。此外,网络转发框架中沉淀了通用的性能优化相关能力,能够为上层不同数据面的组件提供更好的复用。其次是基础云安全,我们协同安全团队提供原生防护能力、主机安全以及高级网络威胁检测能力。
在边缘云上,有CDN、DCDN、GA和GNA等不同的网络加速场景,其中很多能力具备一定的通用性,于是我们抽象出了网络加速平台。未来,网络加速平台还会对外开放,它将具备以下能力:第一,多维调度能力,能够基于成本、质量、容灾,提供不同维度的调度能力,供各个业务选择;第二,通过自研的私有协议更好地优化传输体验,同时在传输优化方面开展了较多探索工作,提升了整个传输的性能。此外,在数据压缩上包括头部压缩及报文压缩,能够有效降低数据传输的负载。在路径探测方面,包括端探测及转发探测,我们进行了有机的融合,能够更快速地发现并定位整个数据转发路径中的各种问题,从而快速恢复。
整个边缘云网体系中的产品非常多,为了简化配置平面的复杂度,我们将其抽象为北向的业务编排,南向的设备管理以及通用的技术服务。
在北向,可以继续抽象为面向业务的核心控制层,如VPC、SD-WAN、EIC边缘互联。这里北向主要面向用户配置,包括控制台及OpenAPI层,有许多业务自身的语义,需要元数据存储,进行元数据编排,形成底层能够理解的基础配置平面。
第二层面向设备,所有的配置下发需要连接设备、管理设备、探测设备。其中,面向设备有许多通用能力,我们构建了高性能的配置下发通道,并提供设备的水位管理,配置管理能力,通用的配置序列化通道;在资源调度层面,提供跨集群资源调度能力。举个例子,在多Group场景下,比如一个配置应该落在哪个Group,需要根据配置水位及实际水位的情况,做全局调度优化;我们会在通用管控层抽象出通用的框架能力,从而满足各个业务方的需求。基础服务层也是一层抽象,其中有很多抽象出的原子的能力,能够被各个业务复用,包括任务调度、动态配置下发,如增量全量的配置下发、配置对账、一致性巡检,这些都能够在动态配置层被屏蔽。此外是针对南向的配置,编排之后的数据存储。
右边是结合网络运维及产品研发需求搭建的智能网络平台,主要面向运维、产品、售后、运营及研发等不同角色对网络平台的需求。基于此平台,做了变更的白屏化、自动化、告警、巡检、大盘展示、水位管理。面向产品售后提供部分问题根因分析能力,如一键诊断能力。
网络的前台面向用户,而上述能力的采集、聚合、清洗则在中台完成。对于这个智能网络平台,未来我们希望能够将一部分能力赋能客户,比如用户使用了云上的许多资源,它的管理如网络拓扑管理比较复杂,那么通过网络拓扑的可视化、网络路径的分析能够帮助用户更好地管理网络。其次,当用户配置比较多时,经常会出现错误配置的情况,或者配上后健康检查不通,但用户发现不了,那么便可以通过一键诊断能力,在用户配置完成后,结合其配置做预检查,发现问题后给用户提示。
综合以上的能力,边缘云网技术体系便能够很好地支撑计算服务及网络服务。
结合上文提到的产品体系及技术体系,这张网络的特点如下:
云网一体,多点协同:GNA产品在游戏端的APP上有SDK部署,而SD-WAN+在端侧有CPE,APP及VPN等不同端的接入能力,基于端的连接及管理能力,我们能够更好地和云上协同。同时,边缘智能一体机会在近场、现场的边缘部署。围绕边缘的分布式节点,我们会有许多互联及加速相关需求。目前这张网络的基座已经具备了通用加速和通用互联能力,此外,我们围绕边缘和中心的协同,在回源加速、带宽降本方面做了很多优化。静态带宽能够为更多业务所复用,云边互通能够支持公网及内网的互通。
融合网络,更高性价比:边缘的网络相比中心会更加复杂,线路资源也更多样化,包括小运营商,单线、多线公网带宽,及回源专线、跨境专线。对于如此复杂的网络,我们需要在更多维度进行调度及融合,给业务提供更极致的性价比,其中必需的是基于成本、质量、延迟的全局调度。
小型云化,灵活部署:边缘云的节点比较多,异构比较复杂,不同节点的容量也各不相同,对成本灵活度的要求也随之提高。为了满足不同节点对网络的差异化需求,对外体现相同的服务界面和产品界面,我们把很多网络能力融合到同一个网关中,这是 All in one 的策略。比如公网入口、安全防护、跨域互联、专线接入都通过融合网关构建。其次,网络组件非常多,上文提到许多产品是由较多的技术组件组成,为了解决灵活性的需求,我们支持裸金属、虚拟机、容器的灵活部署,同时在不同的节点上,虚拟机、容器、网络、存储也具备按需混合部署能力。通过这一系列的灵活部署能够更好地满足分布式云的小型云化需求。
超大规模,全球覆盖:目前,火山引擎的全球节点达到1300+,网络带宽达到100Tbps,无论是线路选择、节点互联、跨域覆盖,都形成了一张全球优质的加速网络。
软硬一体,高性能转发:边缘云分布式节点比较多,而且大小容量差异性非常大。在边缘会有部分大容量节点及大流量场景,包括核心机房业务,我们支持P4导流网关,单机能跑3.2T流量,可以级联到不同的软件转发能力上,通过Overlay的灵活调度和封装解决网络转发在全网的灵活弹性伸缩能力。其次,集团场景如今日头条、TikTok、抖音对核心的负载均衡提出了更高的要求,基于软硬一体的技术 目前我们单机已经能跑到800G带宽。最后,EVS主机网络在边缘也会面临着更大的挑战,主要是边缘机型的差异化,网卡的差异化,我们按照产品需求及规划,在部分机型及场景下进行了网卡Offload的优化。
全面上云,稳定可靠:边缘云的资源池是高度统一的,设备、带宽、专线都统一到了相同的资源池。面向不同的计算、网络、存储相关场景,我们在同一个资源池做复用和调度,从而更好地提升资源的利用率和复用比。第二点是内外统一,大家看到的边缘云上所有的产品,无论是界面还是服务都与内部高度统一,我们将许多内部的业务跑到了标准的To B产品上,可以更好地打磨产品体系。目前,CDN、DCDN、GA等产品已经全面上到边缘计算节点上,因此,火山引擎边缘云是经过大规模验证的,安全可靠的一朵云。
结合以上边缘云网的技术产品体系,我来介绍一下全域联网加速解决方案。
我们在联网加速产品体系中对外提供了
全站加速、全球加速、游戏加速以及SD-WAN+等服务
。基于全球丰富的边缘算力和网络资源的覆盖,通过智能选路、协议优化等技术,提供高品质、高安全的数据传输服务。其中,全站加速的目标是提供低时延、安全、稳定的一站式动静混合的七层加速服务。全球加速面向的是全球四层的网络加速场景,提供高性能、高可用、高安全性的全球四层网络加速服务。
SD-WAN+主要帮用户进行企业组网;在混合云场景可能数据在云下,算力在云上;在广域网场景下要组网,弹性伸缩,SD-WAN+一站式的解决方案能够较好地满足用户的需求。游戏加速是一个创新产品,目前处于邀测阶段,我们希望在游戏加速领域打造精品垂直领域的游戏加速解决方案,通过端上的网络诊断能力及云上的加速能力,为游戏客户提供更准确的网络性能观测和网络加速解决方案,整体上是在应用加速、在线游戏、企业分支组网等场景提供高可用、高品质、高安全的全球网络连接与加速服务。
全站加速
全站加速路径如图所示,左侧是各种协议,上文提到我们支持一些安全能力,通过智能调度就近接入,再通过传输优化智能路由选路,到达回源点,最后到业务源站。其特点是:
① 海量节点之间的互联调度和路径优化能力能够帮助用户就近接入,保障加速效果。
② 容量储备具备亿级QPS服务能力,能够满足日常的规模突发及业务上量。我们在典型场景质量PK方面进行了许多探索,在部分场景中有一些收益。协议接入支持HTTP(S)、HTTP2、QUIC、WebSocket等。流量调度方面,整个流量调度体系完全自研,通过智能的路由算法,协议栈的优化,能够大幅度降低时延;动态加速产品支持动静态7层请求,可以自动识别动静态并加速。
③ 最后是安全,我们和安全团队在产品上有较多联动,产品支持大容量的DDoS防护、CC防护、Web漏洞防护,支持灵活的访问控制和黑白名单功能,支持全链路HTTPS(支持国密协议),确保在公网及专线的数据传输安全。
全球加速
全球加速路径如图所示,支持不同大区的接入,包括国内、亚太、北美等区域,通过网络调度就近上车,经跨域专线到达终端节点组,再通过健康检查包括择优回源到达源站。源站同时支持在火山引擎或非火山引擎的DC部署。产品上主要有三个特点:
① 全球资源,体验优化,类似于全站加速,目前节点的规模是足够的,在此基础上我们提供了非常多加速节点及网络带宽储备,很好地支持业务突发和业务上量。
② 高可用的服务保障,支持业务系统分布式部署,实现跨域高可用容灾,支持多运营商合规跨域专线的无缝容灾切换,支持终端节点组的健康检查,实时监控业务可用性。
③ 灵活计费,精细监控,提供较多计费能力,覆盖不同业务和客户的需求。优化了监控告警和实时日志收集,帮助用户快速定位问题。
游戏加速
① 基于端上的SDK,能够在端的SDK,针对路径、网关、源站进行路径探测观察整个链路的情况。
② 就近上车到了云上之后,不同节点间的互联加速和调度能力,结合云上路径择优及端上的探测调度,能够为用户提供全链路诊断及路径加速能力。
游戏加速产品覆盖了不同游戏场景对网络加速的需求,具备边缘+骨干一体化的游戏加速架构,实现端到端的加速能力,在接入上支持不同语言的接口及不同的游戏引擎,包括安卓、iOS移动端系统。云端控制层能够控制下发多种开关和参数,按需配置,助力用户业务调优,在数据看板能够实时看到加速效果及网络分析问题。
SD-WAN+
SD-WAN主要解决企业的分支组网、办公加速、混合云等场景;基于覆盖了全球的PoP资源,根据客户需求,按需部署;支持CPE和APP,满足分支、数据中心、移动用户等多场景需求;接入方式支持Internet、4G、专线等。链路优选支持Last-mile和Middle-mile全链路调度优化;上云之后,通过多维度调度策略(用户、链路、容量等),优选最合适的传输链路。云原生安全引擎,支持大容量的四层和七层防护、DDoS防护能力,具备灵活的访问控制和黑白名单功能。
客户案例
第一个是大规模训练数据全球网络加速场景,业务挑战包括:
①数据源在海外:
涉及到跨境,公网传输可靠性非常差;
②网络质量需优化:
通过公网跨境业务网络的带宽跑满率,时延等指标均不达标;
③业务容灾难:
由于整个链路的不可控因素较多,可操控空间较少。
最后一公里优化:
提供最佳边缘接入节点,实现就近接入,接入边缘云的骨干网络后,继续优化传输,加速调度;
跨境网络提速:
提供优质跨境专线线路,解决跨境链路丢包、波动等网络问题;
任务失败率降低
:通过智能选路、连接复用、回源建连重试等机制,降低任务失败率;
传输稳定性提高:
通过网络探测能力及跨境线路的容灾能力,在传输出现不稳定因素时,保障客户业务任务执行的稳定性和效率,实现专线跑满率80%以上。
最终整体收益包括传输任务成功率提升85%,传输耗时降低60%,首包时延降低90%。
①网络稳定性要求高:
游戏通过PVP对战获取材料奖励,网络延时超过100ms游戏体验会变差;
②边缘弱网问题突出:
80%以上网络问题发生在边缘侧弱网环境,导致游戏体验不佳的问题;
③传统双通道4G流量消耗大:
4G通道与Wi-Fi通道1:1分量,给用户带来不必要4G流量开销;
④终端网络问题定位难:
用户投诉游戏卡顿,缺乏有效定位手段及网络优化能力,导致用户流失。
智能双通道降低网络延迟:延迟TP99指标优化50%,0次重连场次比从98.17%提升至99.7%;
智能双通道降低4G流量开销:Wi-Fi网络质量差时智能启动4G传输,节省约75%左右4G流量;
网络问题精准定位:端上诊断功能,为网络卡顿提供更多的数据支撑,快速定位终端网络异常。
第三个是SD-WAN+场景,业务挑战包括:
①灵活分支组网:
客户从医院多分支访问区域中心的HIS业务系统,需要灵活组网;
②极致延迟体验:
挂号业务/付款业务/科室分诊,实时性高,需要稳定低延迟;
③问题快速定位:
前期公网方案有丢包问题,网络不稳定不可靠,问题定位难;
④一站式解决方案:
期望火山引擎提供一站式的解决方案,降低复杂度。
灵活自定义组网:基于SD-WAN搭建分支间、分支与总部,分支与云上自定义组网;
网络调度与加速:融合网络灵活调度,路径择优的全球互联能力,优化网络传输体验;
优质的服务保障:实时监控各个分支机构网络使用情况及丢包情况,解决网络不稳定、访问卡顿问题。
以上是整个联网体系产品和解决方案,接下来我会介绍我们在边缘云快速发展的过程中,对网络的一些思考——网络先行,驱动业务发展。
传输可视,数据驱动的网络智能平台
从定位来看,网络连接了算力、数据及不同的场景,所以各个产品和业务对它都有非常多的诉求。但网络经常遇到各种各样的问题,如网络不通、丢包、速度慢,出现问题时候,大家很难精确定位。在边缘云上,这个问题会放大。边缘云不同节点之间的规模差异较大,分布式节点较多,很多的场景,需要互相联动,节点之间还要互联,所以业务依赖比较重,转发路径比较长。作为云计算的厂商来讲,上面一定会有各种各样的租户,承载的租户又非常多。所以整个网络的服务,其实面向了业务,面向了售后,面向了客户,挑战是非常大的。
站在我们的角度来看,私网是相对容易可控的,所以目标是能直接定位问题。对于公网,有一段是不可控的,所以在可控的范围内定位问题,在不可控的范围内做到能很快地定界,即判断是私网的问题,还是公网的问题。
基于这样的背景,我们想去把网络的分层,做一个传输的刻画。
▶ 首先是网络层,面向3层,有很多的业务基于3层做网络的互联互通,我们会在整个网络体系里增加很多的埋点,会对报文做染色,记录走了云上的哪些组件、产品、软件等,我们通过软件定义网络的思想,会给这个报文去打标,当它丢掉后,能够知道它的源端、目标在哪里,路径是什么样子的,判断出它在哪个路径的哪个点上丢了包。通过路径覆盖的能力,再结合场景的覆盖,可以把很多的场景枚举出来,当场景出现问题时,埋点能够及时启动,就可以快速地定位问题。
此外,我们还建设了比较完善的异常发现体系,在告警、监控、巡检、丢包方面,增加了比较细粒度的数据采集,希望能先于客户先发现问题,有更多时间来快速修复它。
最后是可用性探测,云上的实例数量非常多,出了故障之后,我们需要快速判断清楚它的影响面,所以会对云上的所有资源做一些低频的可用性验证。比如DC故障之后,很容易看到哪些可用率发生了大规模下降,从而更好地看到影响面。
▶ 在传输层,上文提到的产品中很多是基于7层应用代理转发的。在客户端到代理这一侧,其实是一个连接,代理到后端的终端节点之间,是另一个连接,中间是一个请求。站在请求的角度来看,我们没有办法把客户端包括服务端的连接,连接在一起,因为中间被代理截断了,所以看不到整体。出现问题后,只能去查日志分段定位,看一下到底是请求等待的时间太长,还是建连或响应的时间太长。我们希望不管是基于kernel还是用户态的协议栈,都能够刻画出整个传输过程,比如首包时延,响应的时间,整个建连包括请求等待的时间,然后在用户态抽象出客户端的连接和服务端的连接,这样在连接层面能看到从客户端到真实服务端之间的链路。我们在请求的维度,也可以把它关联到一起,这样当一个请求慢了之后,能辨别是连接层面还是应用软件本身发生了问题。
▶ 在应用层,结合日志分析系统,可以研发异常发现的能力,比如状态码、请求的响应时间,包括请求的地域来源、目标资源,能够做很多的聚合,比如哪些资源有问题,哪些地域有问题,通过异常发现,获取业务分布,帮助用户量化体验。
在结合网络层、传输层、应用层后,能够高效直接地定位许多网络上的问题。基于这样的思考,我们会推出一个网络智能的平台,前面提到的是站在运维运营角度,而这里是指在网络传输,包括网络的一些疑难杂症维度开展更多工作;针对离线和实时数据的一些分析,以及机器学习相关的处理后,我们在网络大盘上,在更多场景下,把可视化异常诊断的能力做到更好。
网络开放,助力云上生态
网络从场景上会连接算力、连接数据、连接场景,云上的各种产品和场景对网络是强依赖的。而边缘云的发展,目前更多的发力点还是在IAAS和PAAS这一层。所以如果让云上的产品包括能力更加多元化,网络也需要更开放。
当下的网络更多是做了一些基础相关的能力,比如计算节点对网络云化的需求,资源商品化的需求;以及在网络基础能力之上,我们在PAAS层做了一部分网络加速,游戏加速,SD-WAN组网相关的需求,这些能力聚焦的点还是在IAAS和PAAS上。
再看用户需求场景,云发展到后面一定是生态,我们需要协同更多的产业伙伴去共建这个生态,才能有更好的发展。很多的产品厂商,比如安全的厂商,在传统领域可能做了十几二十多年,安全设备很复杂,能力很强,技术也很深,但是以前主要市场在线下IDC,到云上后,可能会做一些云化的相关场景部署,在云上卖镜像卖给用户,目前还是让用户自己解决部署问题。所以如果传统厂商能更好地上云并给客户提供服务,对云是非常好的补充。
第二就是传统行业的搬站,第一阶段解决的是企业上云,包括云上原生相关的一些场景,里面更多的是互联网相关的厂商,所以可能第一阶段更容易上云。第二个阶段更多的是金融政企相关的传统行业,因为他们对IDC的依赖比较重,所以一般是在后一阶段上云。我们在此阶段发现非常多问题,比如以前在线下的设备厂商,他的组网方案里有很多定制化,而在云上,更多是面向公有云的租户,做一些通用化的诉求,这就存在很多产品的能力匹配度问题。
此外,即使他们上了这朵云,未来可能也会有很多个性化场景的需求,因为在以往的经验里面,他们其实已经享受到这个红利,很多设备厂商愿意帮他们做定制化的场景。再者,很多的金融政企或者其他类似行业客户,他们希望平滑上云,不希望做太多的改造。所以从用户需求场景来看,包括从厂商的定位来看,都需要将这朵云开放出来。而云的开放模式一定是网络先行。
第一,能力构建方面,需要具备网络编排能力,在网络转发路径中可以接入更多应用的提供商和服务商。
第二,接入后要为云上租户提供安全隔离的能力;而且不能让用户感到太多差异化,需要具备透明接入能力
此外,还需基础配套的运维、监控、日志体系,帮助用户更好地使用及管理好云。
希望未来能够和更多的网络厂商、安全厂商、应用服务商成为合作伙伴。在产品生态、应用生态、服务生态协同促进,共建边缘云市场的明天。
▲扫描图中二维码或点击“阅读原文” ▲
直通LiveVideoStackCon 2023深圳站 9折购票通道