点击查看完整活动回顾:https://my.oschina.net/u/4489239/blog/11105657
点击跳转 5 月 18 日深圳源创会预告:https://www.oschina.net/event/2332004
4 月 20 日,第 102 期源创会在武汉成功举办。本期邀请来自武汉人工智能研究院、华为、MindSpore、京东云、Gitee AI 的人工智能专家,围绕【大模型竞技与性能优化】主题发表演讲。
当下,一些模型方或是平台方会为个人用户提供一些免费的算力用于使用大模型技术,Gitee.AI 作为大模型聚合平台也在为个人用户提供免费算力。Gitee AI 专家顾问、清华大学高性能计算所林家桢带来《大模型 Serverless 推理系统》主题演讲。
林家桢指出,Gitee.AI 目前聚合了 2000 多个模型,但免费的算力资源有限,因此就需要更加高效地将这些免费算力按需分配给开发者使用,这在当下是一个非常有挑战性的问题。比如以往使用容器技术做外部开发时,单个容器的换入换出以及唤醒都非常迅速,但是这在大模型时代变难了,模型的唤醒和休眠导致容器的换入换出管理难以同以往的场景一样高效。
而 Serverless AI 具备 4 大优势,包括部署简单、开箱即用,降低算力使用成本,覆盖主流模型,支持多种算力硬件。目前的模型引擎或者说购买、使用算力的方式存在一个问题,即用户程序、模型、推理的芯片全都绑在一个容器上,占住硬件芯片,使用算力服务。而 Serverless 推理引擎整合优化算力资源,通过多个层级的解聚合,降低应用、模型、算力三者间的耦合性,按需分配算力,提高资源利用率。
Serverless 系统架构分为三层,最底层为编译器层,将在容器中加载模型改为 rpc 调用到远端服务的模式,接口没有改变,但是换成了后端的推理,以实现模型和芯片的解聚合。rpc 给到上一层的推理引擎,推理引擎是实际上发生计算的集群,这个层级则做了数据和算力解聚合。比如假设一个十张卡满足 3000 个模型的调度请求的任务场景,这时没办法在一张卡上固定加载某个大模型,便需要根据请求临时动态高效加载想要的模型,因此把计算的芯片和模型权重做解聚合,模型放在 TanserGraph 上,这是一个异构的内存系统,可支撑实现算力芯片和模型解聚合。在最上层,Serverless 层,则进行应用和推理解聚合。
Serverless 系统架构的核心能力是异构互联内存,解决模型权重问题。数据中心整机架构存在一些局限性,如资源利用率低、硬件扩展性受限等,解聚合技术可以将整机架构中各部件物理分离,使用一定互联链接各部件的控制界面(Control Plane)与数据界面(Data Plane),实现各类资源按需分配、扩容。此外,内存解聚合在云场景下也具备应用优势,包括提高云环境资源利用率和便于满足日益增长的内存资源需求。
但现有分层内存系统不适应解聚合架构下的高硬件弹性,系统扩展性也受限,并且由于系统内部结构限制,现有内存管理接口能力受限。异构互联内存则可以通过硬件访问统计、可编程策略、页迁移三个环节解决这些问题。以 CPU 为例,对于基于 PEBs 的访问统计上,支持硬件采集运行程序的访存情况,记录指令、TID、目的地址等,然后按需加载模型权重。
此外,Serverless 系统架构也具备了其他多种能力,如基于 MLIR 的多层次神经网络编译优化技术,基于用户态隔离技术的轻量化系统服务机制。Serverless 推理引擎基于两大核心知识产权技术构建,除此之外也整合了目前各类主流的推理系统优化技术。
目前,Llama 3 已经上线 Gitee AI。复制下方链接至浏览器,进入平台即可体验(邀请码:llama3):
https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat
扫码观看《大模型 Serverless 推理系统》演讲回放⬇️