加载中
GenAI的“关键一跃”:推理与知识

当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨...

从头理解与编码LLM的自注意力机制

本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件,使用LLM时,了解这些机制十分有必要。 本文还提供了使用Python和PyTorch从...

语言大模型的浮点运算分配

本文通过实证分析展示了实际LLM模型的FLOPS分配情况,并与理论分析进行对比。通过理论和实证相结合的方式,本文为理解和优化语言大模型的性能提供了有益见解。 作者Finbarr Timbers是一名机器...

语言大模型推理加速指南

本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能...

Mistral AI:探索LLM推理的吞吐、时延及成本空间

选择正确的LLM推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的LLM推理堆栈和设置,详细说明其推理的成本构成;并讨论当前的开源模型以及...

大模型的规模扩展是否可持续?

作者 | Dwarkesh Patel OneFlow编译 翻译|杨婷、宛子琳 AGI何时会到来? 如果我们能不断扩展LLMs++的规模(并因此取得更好和更通用的性能),就有理由期望到2040年(或更早)出现强人工智能...

硅基流动完成5000万元天使轮融资

北京硅动科技有限公司(以下简称“硅基流动”)于近日完成5000万元天使轮融资。本轮融资由创新工场领投,耀途资本、奇绩创坛以及王慧文等科技界知名人士跟投,华兴资本担任独家财务顾问。 随...

OneFlow技术年货:800+页免费“大模型”电子书

2023年,无论对人工智能领域还是整个科技界而言,“ChatGPT”无疑是本年度第一关键词。 这一年,在OneFlow社区发布的100多篇文章里,涉及大量与ChatGPT相关的大模型类技术解读、前瞻性观点以...

20篇NeurIPS论文精选:语言大模型的六大趋势

本文总结了NeurIPS 2023大会上与自然语言处理相关的20篇精彩论文。通过这些论文,作者主要观察到了LLM的六个主要趋势,这些论文涉及重新思考LLM的基本假设,并为其内在运作提供了新的见解和观...

2023/12/27 09:49
86
ChatGPT一周年:开源语言大模型的冲击

自2022年末发布后,ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习,模型可以回答人类问题,并在广泛的任务范围内遵循指令。在获得这一成功之后,人...

2023/12/20 09:52
190
迈向100倍加速:全栈Transformer推理优化

作者 | 符尧,爱丁堡大学博士生 OneFlow编译 翻译|宛子琳、杨婷 假设有两家公司,它们拥有同样强大的模型。公司A可以用1个GPU为10个用户提供模型,而公司B可以用1个GPU为20个用户提供模型。...

语言大模型的推理技巧

本文探讨了一系列语言大模型的推理优化技巧,涵盖KV缓存、量化和稀疏性等方法,并分享了如何有效实施这些技术。对于想要优化Transformer模型,以期提升推理速度或效率的人来说值得一读。 本文...

LoRA微调语言大模型的实用技巧

目前,微调定制化LLM会耗费工程师的大量时间和精力,而选择合适的微调方法以及掌握相关技巧可以做到事半功倍。 此前,在《微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析》中,文中对...

机器学习硬件十年:性能变迁与趋势

本文分析了机器学习硬件性能的最新趋势,重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机...

语言大模型的分布式训练与高效微调指南

作者 | Sumanth R Hegde OneFlow编译 翻译|杨婷、宛子琳 最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需...

ChatGPT规模化服务的经验与教训

2022年11月30日,OpenAI发布ChatGPT,以很多人未曾预料的速度迅速走红。与此同时,由于短时间内用户量的暴涨,导致服务器过载,迫使OpenAI停止新用户的注册。 ChatGPT发布这一年,同样的情景...

2023/11/21 10:01
106
可复现的语言大模型推理性能指标

LLMPerf是一个开源项目,旨在帮助用户对语言模型进行基准测试,并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能,并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的...

2023/11/17 08:51
60
开源语言大模型演进史:向LLaMA 2看齐

本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。第二部分《开源语言大模型演进史:高质量基础模型竞赛》研究了...

微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析

本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoR...

开源语言大模型演进史:高质量基础模型竞赛

本文是开源 LLM 发展史系列文章的第二部分。第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部