12 月 23 日,由开源中国、VMware、上海浦东软件园联合主办的 OSC 源创会 · 上海站 · 第 100 期在上海浦东软件园郭守敬园1号楼二楼报告厅成功举办。本期源创会以“LLM 基础设施”为主题,邀请到来自 VMware、中兴、百度、Zilliz、容大数字的多位业内专家将带来精彩分享。接下来就一起看看活动现场的精彩瞬间吧!
据说开会这天是上海 近几年最冷的一天,但再寒冷的天气也挡不住小伙伴们满满的热情!
一起给源创会第 100 期过个生日呀!
茶歇礼物不能少~
交流学习 ing……
当然,还要感谢合作伙伴的大力支持❤️
接下来,进入主题演讲的内容回顾环节。本期我们邀请到 VMware 创新与生态部门新媒体负责人王哲担任活动主持人🎉
梅俊杰:深度学习 + 大模型,夯实产业智能化基座
百度 AI 技术生态华东区域企业负责人梅俊杰带来《深度学习 + 大模型,夯实产业智能化基座》主题演讲。梅俊杰介绍了当下大模型产业化面临的挑战,整体上研发门槛高、难度大,依赖算法、算力和数据的综合支撑,具体如模型体积大训练难度高、算力规模大性能要求高、数据规模大质量参差不齐的挑战。
而当下大模型的产业模式,整体可分为芯片需求公司与 AI 需求方。芯片需求公司会与芯片代工厂之间合作,但芯片代工厂则需要成本高昂的设备和产线,具备数百道精密工艺流程,以及自动化、标准化生产能力。AI 需求方的 AI 能力与模型生产则需要与大模型平台交互,而大模型平台则需要有价格昂贵的大算力,具备PB级大数据、千亿级参数,自动化、标准化生产能力。基于此,大模型的产业化路径就需要封装复杂的模型生产,以支撑千行百业的应用。
梅俊杰介绍了
飞桨支撑大模型。在开发训练环节,
飞桨支持动静统一开发范式、硬件感知自动调优、自适应分布式架构、异构设备负载均衡、多维混合并行策略、弹性容错训练机制。在推理部署环节,
飞桨支持高并发弹性服务化部署、自动混合并行推理、精细化显存管理、深度计算融合优化、软硬协同稀疏量化加速、模型自适应蒸馏裁剪。
此外,百度还打造了新一代知识增强大语言模型生成式 AI 产品文心一言,并在 2023 年 8 月 31 日全面开放。截至 2023 年 12 月底,文心一言用户规模已突破1亿,已经完成了37亿字的文本创作,输出了3 亿行代码。
孟伟:星云研发大模型,开启编程新范
中兴通讯标准与开源战略总监、Linux 基金会 AI&Data 董事会主席孟伟带来《星云研发大模型,开启编程新范》主题演讲。孟伟主要谈到了当下的 AI 开源趋势与大模型编程实践。根据中国开源软件推进联盟《2023中国开源蓝皮书》数据显示,开发者最感兴趣的技术为 AI,当时有 45% 的得票率,第二个是编程语言,之后依次是大数据、云原生、操作系统等。孟伟认为,开源项目中,开发者是最重要的生态要素,而调研结果说明 AI 是最受开发者欢迎的,那么当下做 AI 项目成功的几率要高很多。
在今年参与的 Linux 基金会的工作中,孟伟总结出一句话——AI 天生为开源,以及两个重要趋势。第一个趋势是从 AI 框架到 AI 工具,“我们认为目前框架的数量上已经相较充裕,可能不需要再引入新的框架做同质化竞争,在现有的基础上不断演进就能满足研发需求,但我们现在越来越需要 AI 工具,包括大模型工具帮我们把 AI 落地。”
第二个是从开源代码到开源模型的趋势转变。孟伟指出,二者之间存在很大的不同——开源代码是工程师智慧的结晶,从发布到实用以及商业化都有比较明确成熟的模式;而开源模型就不一样了,还存在许多问题,比如大模型有数据、算力、算法三大基本要素,个人开发者没有数据和算力资源,实际上很难参与贡献大模型的开源社区。在“社区大于代码”的开源观念之下,这就是一个非常大的问题。此外,开源模型本身也面临三方面的挑战:大模型方应该开源的内容是什么,算法还是数据;商业模式是什么,如何通过开源模型获得商业价值;许可协议问题,当下的许可证是否适用大模型?这些都是需要我们去思考的问题。孟伟也透露了他正在做的部分工作以解决当下的难题:正参与起草大模型领域开源许可证。
除了 AI 开源趋势,孟伟还介绍了中兴的大模型实践与 AI 编程。中兴通讯的大模型路线中,以一系列基座大模型——中兴星云系列大模型为基座,其上构建多个领域大模型。首先便是研发领域的大模型,孟伟指出,用大模型的第一步是把研发人员的工作量降下来,这样提升研发效能,便可以去探索更多新的领域。目前中兴的编程大模型在 HumanEval 评估的编码类模型能力方面处于第一梯队,已经可以在 AI 开发助手、文档翻译生成等多个场景中应用。
陈将:向量数据库-AI 时代的信息检索引擎
来自 Zilliz 的 AI 云平台负责人陈将发表了《向量数据库-AI 时代的信息检索引擎》主题演讲。陈将介绍,今年随着大模型的火爆,向量数据库也开始出圈了。很多人对向量数据库的认知都是从 AI 大模型开始的,因为大模型虽然很强大但往往缺乏领域知识,所以业界流行用向量数据库打造大模型的记忆体。除此之外,向量数据库在信息检索领域还有非常多的应用。
关于向量数据库为何会成为新一代的信息检索引擎,陈将解释,传统的检索基于关键词匹配的思想来实现,但仅靠关键词匹配往往难以达成我们想要的语义的相近。近年来深度学习的研究发现,可以先通过大量的语料学习来找到词和词之间的关系,句与句之间的关系,通过深度神经网络提取海量语料中的概率信息,再以一个系统的方式去高效地把词句之间的关系“压缩”放进一个模型里面,那么理论上就能通过深度学习来达到“理解”语义的能力。这个方法叫做embedding。采用这种思想,通过各种embedding模型可以对所有非结构化信息进行编码。我们可以将图片、文本转化成数字表示,这个数字表示我们将其称为向量。将向量放到一个高维空间中去看,会发现,向量距离上的相似度可以表征语义相似度。找到这个方法之后,便是找到了一个系统的模式,可以把非结构化信息通过向量的方式进行检索。这个方法的好处就是跳开了关键词匹配的限制,可以查询到关键词匹配不到但是语义相近的信息。那么向量数据库就是为这种查询模式而生的数据库——存储并索引向量,进行高效检索。目前向量数据库已经可以应用到 NLP、图像和视频、多模态等多种检索场景中。
陈将所在的 Zilliz 从向量数据库开始做起,目前也为AI 应用开发者提供了非结构化数据检索产品 Zilliz Cloud Pipelines。Zilliz 坚持以非结构化数据为中心,坚持开源开放和云原生,推出了世界上第一款开源向量数据库Milvus,同时也提供云上的托管版本。
关于向量数据库为何会成为新一代的信息检索引擎,陈将解释,传统的检索基于关键词匹配的思想来实现,但仅靠关键词匹配往往难以达成我们想要的语义的相近。近年来深度学习的研究发现,可以先通过大量的语料学习来找到词和词之间的关系,句与句之间的关系,通过深度神经网络提取海量语料中的概率信息,再以一个系统的方式去高效地把词句之间的关系“压缩”放进一个模型里面,那么理论上就能通过深度学习来达到“理解”语义的能力。这个方法叫做embedding。采用这种思想,通过各种embedding模型可以对所有非结构化信息进行编码。我们可以将图片、文本转化成数字表示,这个数字表示我们将其称为向量。将向量放到一个高维空间中去看,会发现,向量距离上的相似度可以表征语义相似度。找到这个方法之后,便是找到了一个系统的模式,可以把非结构化信息通过向量的方式进行检索。这个方法的好处就是跳开了关键词匹配的限制,可以查询到关键词匹配不到但是语义相近的信息。那么向量数据库就是为这种查询模式而生的数据库——存储并索引向量,进行高效检索。目前向量数据库已经可以应用到 NLP、图像和视频、多模态等多种检索场景中。
陈将所在的 Zilliz 从向量数据库开始做起,目前也为AI 应用开发者提供了非结构化数据检索产品 Zilliz Cloud Pipelines。Zilliz 坚持以非结构化数据为中心,坚持开源开放和云原生,推出了世界上第一款开源向量数据库Milvus,同时也提供云上的托管版本。
宗升亚:大模型的前世今生
上海容大数字技术有限公司研发部副总监宗升亚发布《大模型的前世今生》主题演讲。宗升亚专注 NLP 算法技术领域,因此他从大型预训练模型如 BERT、GPT 的发展历程切入,探讨大模型发展的前世今生。
宗升亚介绍,对于任何的 NLP 模型来说,第一步的操作都是怎么把文本处理成计算机能识别的数学语言。早期的词表示方法为 onehot,是把文本信息转换成了数学符号,计算机可以处理和运算字或者词,然后再做后续的机器学习任务。但缺点是矩阵稀疏,维度爆炸,以及词直接距离都是一样,无法获得词语直接的关联性。此后,共现矩阵、词嵌入、CNN 卷积神经网络、RNN 循环神经网络等技术逐渐出现,不断实现技术上的优化与迭代。直到 2017 年,划时代的 Transformer 技术论文出现,打开了新的思路。
Transformer 是2017年的一篇论文《Attention is All YouNeed》提出的一种模型架构,这篇论文里只针对机器翻译这一种场景做了实验,全面击败了当时的SOTA,并且由于encoder端是并行计算的,训练的时间被大大缩短了。目前在NLP各业务全面开花的语言模型如GPT,BERT等,都是基于Transformer模型。因此弄清楚Transformer模型内部的每一个细节就显得尤为重要。
Transformer 之后便是 LLM 时代。2022年11月底 OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。当下,LLM 生成经常会出现幻觉的现象,外挂知识库的形式能一定程度上解决这类问题。
目前容大已经基于大模型技术推出了客服机器人产品,其实现智能应答的核心便是知识库,借助容大数字的容思 AIGC 大模型的能力,可极大提升知识库的建立和维护效率。此外,容大的大模型相关产品和解决方案也可以在智能培训、智能助手、智能质检等场景落地应用。
李杨:百度 CloudIDE 及智能化代码开发实践
iCoding 技术负责人、Baidu Comate 商业化负责人李杨发表《百度 CloudIDE 及智能化代码开发实践》主题演讲。李杨介绍了一些 IDE 工具普遍面临的问题,包括开发环境搭建困难,平台众多,切换成本高,如开发环境搭建比较耗时、开发常用平台多等等;问题发现较晚,修复问题成本高,如编码规范检查在准入阶段发现,在打回修改,效率低;编程现场数据难以收集,单兵效率数据难以衡量,如编码现场数据具有瞬时性,数据量较大,本地开发的话难以收集等问题。相比之下,云端 IDE 工具具备更多的优势,包括中心化-打通研发工具链,如 N 个工具 x 1个中台统一研发入口;Devops 能力左移,如增量代码扫描能力前置、单元测试前置等;编程现场数据实时上报,如连续编码时长数据、开发者在 IDE 内的操作数据等能力。
在此背景之下,李杨介绍了百度 iCoding 的产品设计思路以及一些关键技术方案。如研发工具链的集成,由于开发者工作台中需要集成大量插件,所以 iCoding 在整体设计之初就以高性能、可插拔的底层技术目标。可插拔架构对程序架构设计的要求非常高,需要将各个模块相互独立,互不感知,并且通过一个可插拔内核,以叠加的方式将各种功能组合使用。
研发环境一直在发展,随之编程方式也在改变。李杨回溯了编码方式的变化:最早在1991年之期,程序员使用纸带纯文本编写代码,效率低下、要求高、成本高;到了1991年 IDE 出现,开发、编译集成到一个环境中;1996 ~ 2021 年,基于语法树、特定触发符号提供部分补全;2021 ~ 2030 年,基于AI大模型学习,支持多种形式补全触发;预计到2030 年之后,90%的代码将由 AI 产生。
李杨介绍了智能编码助理 Baidu Comate,目前可实现前期调研设计环节的需求澄清、任务分解等功能;编写代码阶段的实时续写、注释生成代码、描述生成代码、借口生成代码等功能;代码调试阶段的代码 Debug、缺陷自动修复等功能。
本期活动回顾就到这里啦。感谢各位在过去一年的参与和支持,让我们的技术沙龙更加精彩、更有意义。在这一年里,我们一起学习了很多新的知识和技能,也结识了很多志同道合的朋友。希望大家在新的一年里,继续保持对技术的热情和好奇心,不断探索和创新,实现自己的梦想和目标。在这里也提前祝各位元旦快乐,万事如意!各位 OSCer 们我们明年不见不散!