撰文 | 成诚 2020 年,最轰动的 AI 新闻莫过于 OpenAI 发布的 GPT-3 了。它的1750亿参数量及其在众多NLP任务上超过人类的出众表现让大家坚信:大模型才是未来。但与之带来的问题是,训练超大...
作者 | Sumanth R Hegde OneFlow编译 翻译|杨婷、宛子琳 最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需...
2022年11月30日,OpenAI发布ChatGPT,以很多人未曾预料的速度迅速走红。与此同时,由于短时间内用户量的暴涨,导致服务器过载,迫使OpenAI停止新用户的注册。 ChatGPT发布这一年,同样的情景...
LLMPerf是一个开源项目,旨在帮助用户对语言模型进行基准测试,并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能,并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的...
本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。第二部分《开源语言大模型演进史:高质量基础模型竞赛》研究了...
本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoR...
本文是开源 LLM 发展史系列文章的第二部分。第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未...
在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益? 本文作者为Vikram Sreekanti和Joseph E....
大多数工程师对CPU和顺序编程都十分熟悉,这是因为自从他们开始编写CPU代码以来,就与之密切接触。然而,对于GPU的内部工作原理及其独特之处,他们的了解则相对较少。过去十年,由于GPU在深度...
LoRA是用于训练自定义LLM的高效参数微调技术。本文作者Sebastian Raschka通过成百上千次实验,他为使用LoRA和QLoRA对LLM进行微调提供了实用见解,包括节省内存、选择最佳配置等。 Sebastia是...
在这篇文章中,MosaicML工程师团队分享了如何在生产环境中充分利用流行开源语言大模型(LLM)的最佳实践。此外,他们还提供了围绕模型部署推理服务的指南,以帮助用户更好地选择模型和部署硬...
通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。 本文作者Sam L'Huillier对G...
尽管业内最初强调专有模型,但随着GPT-3等流行语言模型的发布,LLM研究社区开始发布相关开源变体。最早的开源语言模型在性能上落后于最佳的专有模型,不过,它们为提升LLM的研究透明度奠定了...
尽管业内相继开源了不少表现出色的语言大模型,但相对OpenAI的闭源模型的高昂部署成本,让大多数想使用开源LLM模型的组织往往望而却步。 OpenAI在成本方面的优势,一方面来自规模效应,另一方...
本文旨在为用户选择合适的开源或闭源语言模型提供指导,以便在不同任务需求下获得更高的性价比。 通过测试比较 LLaMA-2 和 GPT-3.5 的成本和时延,本文作者分别计算了二者的 1000 词元成本,...
作者 | Nathan Lambert OneFlow编译 翻译|杨婷、宛子琳 如今,很多公司都被迫加快步伐,参与到开源语言大模型(LLM)的竞争之中。发布某种形式的开源语言大模型已成为机器学习公司实力的象征...
来源|Latent Space OneFlow编译 翻译 | 杨婷、宛子琳 如果 AI 如此重要,那么为什么软件如此糟糕? 创办 Modular 之前,这是让 LLVM 之父 Chris Lattner 困扰已久的问题。随后,他与 Tensor...
自ChatGPT面世以来,以它为代表的闭源 AI 备受关注,简单易用的特性使其占据了行业主导。尽管以LLaMA 为代表的开源 AI 进展迅猛,但业内也流行三个反对开源的观点:开源 AI 无法与行业实验室...
来源 | The Robot Brains Podcast OneFlow编译 翻译|宛子琳、杨婷 9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展示图片并进行互动,...
作者|KIDGINBROOK 上节中完成了单机内部的channel搜索,仍然以ringGraph为例的话,相当于在单台机器内部搜索出来了一系列的环,接下来需要将机器之间的环连接起来。 为了方便理解,假设两机...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复