10 月 25 日,第 107 期源创会在北京成功举办。
本期邀请来自华为昇思MindSpore、
AI应用使能套件,Thoughtworks,BentoML,趋境科技的技术大咖、布道师发表主题演讲。接下来一起看看活动的精彩内容吧!
主题演讲回顾
企业在大模型应用落地过程中面临的推理困境与应对策略
Thoughtworks数据与人工智能解决方案总监张晶白发表了《企业在大模型应用落地过程中面临的推理困境与应对策略》主题分享。张晶白总结了大模型在专业领域中落地时会遇到的困境:首先,大模型难以理解特定的业务流程,因为其训练数据主要是通用和公开市场数据,缺乏对特定企业数据的了解;第二,数据隐私和安全也是关键问题,企业内部的敏感信息不可能公开给大模型学习;第三,面对复杂的应用场景,往往需要结合多个模型来解决,如何适配和管理这些模型成为难题;第四,行业特有的合规和安全要求,以及大模型推理过程中的延迟问题,也是实施过程中必须考虑的因素;第五则是效率问题。
针对提升大模型业务理解能力方面,张晶白介绍了Thoughtworks的两个处理方法:一是利用思维链(Chain of Thought, COT)和思维树(Tree of Thoughts, TOT),提升大模型推理能力;二是专门构建多轮对话任务型Agent的基础框架,AI应用开发使用此框架,只需开发与本AI应用业务上下文相关的部分,包括专业词库配置、意图/槽位定义、专业术语映射、对话策略定义, Action开发等。
针对数据的来源与处理问题,张晶白建议企业重视数据平台的建设和数据产品的全链条管理,而不仅仅是关注数据工程的底层技术。数据处理不仅仅是技术问题,还涉及到组织、流程和运营层面的问题,这些问题往往导致大模型应用中出现各种问题,如响应慢、结果不准确等。强调在数据准备过程中解决断点的重要性,以确保整体工作的效果。
针对大模型管理与适配的问题,利用AIGC平台侧统一适配底层不同的模型,例如来自公有云的不同厂商的模型和针对敏感数据的私有化部署模型,且对外提供统一的,兼容的OpenAI API接口,可确保模型发生变化的时候,不会让变动影响到业务侧,且可很好的实现跨模型的切换。
针对数据安全合规运维问题,张晶白指出需在平台层面上添加适配器以简化上层应用的模型调用,同时处理不同模型的数据出境限制等问题。此外,安全性和敏感词过滤也非常重要,企业可以根据自身需求,定制敏感词过滤机制。
针对输出效率问题,除了关注模型和技术本身的提升,还应注重流程拆解、寻找并优化耗时环节,以及在用户体验层面上的改进。通过拆解应用流程,识别出最耗时的部分并针对性地优化,可以有效提升效率。同时,通过引入异步处理和并行计算,可以在一定程度上缓解速度问题。此外,为了改善用户体验,即使在面临速度瓶颈时,也会通过添加某些无关紧要但能提升感知速度的技巧,如加入思考过程的描述,让对话显得更自然顺畅。最终目标是让客户感受到应用的人性化和贴合度,尽管他们期望大模型像计算机一样高效无暇。通过这些策略,可以在短期内让用户体验得到改善,同时在长期中追求技术与效率的双重提升。
昇思2.4版本加速大模型原生创新
华为昇思MindSpore开源生态总监杨滔发表了《昇思2.4版本加速大模型原生创新》主题分享。杨滔介绍,自2020年3月开源以来,昇思MindSpore框架在四年半的时间里,见证了人工智能领域的快速发展,包括模型结构、大小和应用场景的显著变化。同时,昇思MindSpore自身也从最初专注于边缘设备推理场景,到支持大模型训练,并扩展到AI for science等应用领域。
杨滔也详细介绍了昇思MindSpore最新的技术特性。面对大模型规模的挑战,昇思MindSpore提出八维混合并行概念,提供多样的并行机制以优化模型训练。通过面向超节点架构创新高维Tensor并行与长序列并行,提升万亿参数模型训练性能10%。通过多并行机制,昇思MindSpore可以帮助用户在日常模型训练过程中,根据自身经验与需求,选选择不同并行模式的组合,从而高效训练大模型。
此外,昇思MindSpore提供了昇思大模型套件(MindSpore Transformers),支持30+个主流大模型,并实现开箱即用,套件集成了微调算法和模型的下游任务,支持一键开发,大幅减少大模型开发时间。
而在构建和优化模型时,开发者也会面临易用性和执行效率之间的平衡问题。昇思MindSpore提供了多级编译技术,追求极致性能的场景可以使用图下沉形式,而面对较大计算资源的场景,可以快速启动任务;无需超大规模集群的硬件资源,通过Dry Run在单卡进行仿真与自动并行策略配置,实现离线调试调优,降低并行策略配置成本、提升开发效率。
生态方面,杨滔介绍,昇思MindSpore面向政企、金融、运营商、电力、交通等行业提供了端到端的训推一体解决方案,赋能千行百业。生态上,版本下载量超过790万次,合作伙伴数量突破1400+,孵化、适配大模型超过50个,支持学术论文发表1500+篇。当前社区通过激励学术创新、产业创新以及应用创新等行动作为技术创新的支点,推出了论文基金会、原生大模型扶持项目、开发板赋能教程、算法挑战赛等,以赛促学,激励算法创新与应用。同时,昇思MindSpore联合伙伴成立了全国首个昇思生态创新中心,通过生态发展、联合创新、技术支持以及人才培养,打造生态赋能的阵地。
当下,昇思MindSpore也在探索AI4Sci,通过创新AI+科学计算范式,孵化科学领域基础大模型。杨滔介绍,AI for Science强调数值模拟在科学探索中的核心地位,通过计算方法解决复杂物理方程的求解问题,从而推动科学发现和工程应用。进入人工智能时代,偏微分方程的求解与导数计算成为重要研究方向,促进了科学与AI的结合。昇思MindSpore也在和不同高校合作,进行跨学科研究,在科学计算领域提供了20+个原生的大模型,新增了30多个接口,面向流体力学和化工行业提供了基于昇思MindSpore的全栈解决方案。
AI应用使能套件
华为高级软件工程师王玺源发表了《AI应用使能套件介绍》主题分享。王玺源介绍,AI应用使能套件在AI价值链上位于中间层,链接应用层与底层算力,扮演着大模型智能平台的角色。
AI应用使能套件主要分为两部分:一是基础设施平台,负责构建整个平台;二是用户可以直接使用的工具链,旨在提供多样化的服务。当下,国内外市场上有包括Hugging Face、魔乐、Gitee AI等在内的平台,汇聚了多个模型与数据集应用等,工具链则统一了北向接口,使用户能访问并使用这些平台。
AI应用使能套件底层的算力支撑工具是昇腾。目前昇腾的原生支持已经推入到多个上游社区,如LLaMA-Factory、PyTorch、OpenCV等等。实际上用户在使用大模型训练框架、推理引擎时,选择非常多样,有时甚至需要融合多个产品。我们提供的工具链则是可以让用户能够简单、高效地去使用这些产品工具。
在整个AI应用运行的架构中,最下层是硬件,往上依次是硬件加速、推理引擎、AI框架、加速库,然后是AI应用使能套件。使用该开发套件相当于屏蔽了下层的硬件、推理引擎等。AI应用使能套件通过简化API和命令行工具,使开发者能更容易地运行和部署AI大模型,同时平台对于模型与镜像管理的能力也确保了本地化使用过程的顺利和高效。
具体而言,在北向上,AI应用使能套件提供了一组pipeline机制,以及微调接口、快速部署接口、命令行能力等等,可以帮助用户在本地通过一条命令就能构建起大模型。此外,模型之间的关系通过AI Bom来保证可追溯性,以及对大模型的病毒扫描和内容审核功能,以保证平台应用的安全性。
南向上,目前已经对接了昇腾,此外在对国产算力的支持方面,页接入社区算力、第三方云算力、私有算力以及国内AICC场景的算力支持。随着平台模型数量迅速增长,AI应用使能套件提供了开源大模型微调场景下的丰富模型与数据集,用户可以免费尝试生成应用,以及模型CI的测试过程,确保模型在不同环境下的可用性和性能。openMind还为开发者提供了生成AI应用的能力,支持自定义向量数据库、知识检索、分布式推理加速等功能。
目前,AI应用使能套件已和多个国内AI社区合作,为开发者和企业提供广泛的技术交流和应用开发支持。
大模型推理落地实践与复合AI系统
BentoML软件工程师赵申阳发表了《大模型推理落地实践与复合AI系统》主题分享,主要介绍BentoML是怎样让多个模型和多个服务之间无缝地互相调用,以及资源灵活分配的。
赵申阳指出,在产品开发中,自建服务与API服务的选择面临多种考量,包括可定制化、数据安全与成本问题。随着开源模型质量提升和多样化的框架出现,用户对自建服务的兴趣增加。同时,自建服务允许更大的定制化,对于数据安全和避免第三方服务费用的增加更为有利。开源模型和框架的进展推动了用户转向自建解决方案,以满足特定需求和优化成本效益。
然而,在大模型搭建的过程中,也存在许多问题。比如性能问题,包括TTFT(第一个token的等待时间)、吞吐量和输出质量之间的平衡,以及如何在有限资源下实现性能最大化。一种可能的解决方案是,使用较小的模型处理常见的请求,并在需要时回退到大型模型,以解决复杂问题。但当下的问题是,较小的模型对问题的处理能力不如大模型,所以很多时候用户还是倾向大模型。同时,使用大模型时,往往也不会局限于一个大模型,而是多个模型的组合。而诸如此类的问题的解决,赵申阳介绍了一个方法——复合AI系统。
复合AI系统利用了多AI或者机器学习的模型,以及其他组件去完成某个功能。用户只需要是把这些模型像搭积木一样把它搭起来,就可以形成一个整体的积木。
复合AI系统正是通过利用不同大小和功能的模型,如小模型、向量数据库和大型语言模型,来解决诸如SQL注入、用户出口等安全问题。同时,复合AI系统在成本、性能、可控性、灵活性和独立扩容方面的优势,也可以通过组合不同组件来构建高效、可扩展且经济的AI解决方案的方法。
降低推理成本,如何使用单卡完成千亿参数大模型推理任务
趋境科技研发负责人陈祥麟发表了《降低推理成本,如何使用单卡完成千亿参数大模型推理任务》主题分享。陈祥麟指出,大模型能力发展的同时其使用成本也大幅度提升,比如算力缺口大、推理成本高、响应延迟长。
聚焦至推理场景下,访存带宽成为了关键瓶颈,内存墙、IO墙、存储墙成为了制约计算智能进一步发展的关键挑战。相比算力的发展速度,存储带宽和传输带宽的增长斜率都更缓。在这样的背景之下,趋境科技联合清华KVCache.AI团队开源了Ktransformers框架,旨在解决大模型推理的挑战。
随着模型参数的扩大,个人开发者面临部署大型模型的困难。Ktransformers采用异构推理的框架结构设计,使开发者能够在单卡4090上进行千亿大模型;同时利用注意力机制的稀疏性来处理超长文本本地推理任务,最长能够支持1M的超长文本推理。Ktransformers还特别关注存储瓶颈和算力效率,以优化大模型的推理过程。
Ktransformers是高性能的灵活的本地 LLM 推理框架,支持基于模板规则的注入/替换,将 Routed Experts 替换成基于 llamafile 实现的 CPU 量化 kernel等;支持多种算子及进一步自定义,基于一套模板可以轻松地自定义添加算子;并支持更多MoE模型等等。此外,随着 prompt 长度增加,KTransformers 的1M超长文本推理速度能够保持基本不变。
最后,陈祥麟也分享了Ktransformers的未来规划。Ktransformers当前所有的优化测试都是基于英伟达的GPU,下一步要在Atlas,壁仞等国产卡上做进一步的工作。集成多模态模型,类似Qwen-VL,MiniCPM等,通过Marlin,CUDA Graph对性能进行优化。