加载中
GPT-3模型为何难以复现?这也许是分布式AI框架的最优设计

撰文 | 成诚 2020 年,最轰动的 AI 新闻莫过于 OpenAI 发布的 GPT-3 了。它的1750亿参数量及其在众多NLP任务上超过人类的出众表现让大家坚信:大模型才是未来。但与之带来的问题是,训练超大...

2021/05/14 11:55
3.5K
2025 年 AI 十大展望:软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退

尽管有 Scaling Law 放缓这样的疑虑,但整体而言,多数业内人士对 AI 过去一年的诸多进展感到兴奋,对新的一年 AI 的发展更是充满期待,尽管他们对未来的预测可能不尽相同。 在本文中,Found...

微软总裁 Brad Smith:美国 AI 的黄金机遇

AI 前所未有的发展前景以及来自中国 AI 的极速跟进,让美国拥有前瞻性与战略性的科技企业领导者感受到加速美国 AI 持续领先的紧迫性。 在本文中,微软副董事长兼总裁、首席法务官Brad Smith分...

900页免费“生成式AI与大模型”电子书|OneFlow年货

难以想象,如果不是Scaling Law放缓,2024年AI领域会发生哪些惊人变化,但你可能又会感到庆幸,正是由于Scaling Law放缓,它给了这个行业的后来者们追赶的机会,也给了更多普通人搭乘这一轮技...

2024年AI盘点:投资高歌猛进、基础设施重构、技术采用加速

本文全面分析了今年 AI 的发展,包含 AI 技术栈的基础设施层、基础模型层、应用层、工具层,尤其是各个层面的主要收获、值得关注的趋势与值得关注的初创公司。此外,本文还概括了 AI 领域的投...

从零实现极速LLM推理

作者 | Andrew Chen 翻译|张雪聃、刘乾裕 OneFlow编译 题图由SiliconCloud平台生成 本文旨在从零开始,仅使用C++和CUDA构建一个大语言模型(LLM)推理引擎,且不借助其他外部库。 为何要这样...

AI数据中心历史、技术与关键企业

过去一年,通过模型架构创新、更优质训练数据和更大算力规模来训练模型,顶尖大模型之间的性能差距急剧缩小。 如果Scaling law依然有效,为了进一步扩展模型规模与性能,在模型架构创新存在极...

红杉资本2025年AI三大展望:大模型厂商各显神通;杀手级应用AI搜索;AI支出变稳

2024年,随着Scaling law放缓,AI领域在大模型、基础设施上的能力稳步提升,尽管应用层出现了各种有趣的探索,但是更大的潜能有待挖掘。2025年即将来临,将出现哪些变化? 近日,红杉资本投资...

AI半导体技术、市场与未来

过去两年,英伟达崛起是科技领域的一个经典案例。通过CUDA系统,他们创建了一个使用GPU进行机器学习的开发者生态系统;通过Mellanox,他们成为了数据中心网络的领导者。然后,他们将所有硬件...

比GPU快20倍?d-Matrix推理性价比分析

AI推理算力需求正在大幅增长。一方面,像硅基流动、Fireworks这样的AI基础设施软件公司通过软件层面的优化以提供高性价比的大模型推理服务,另一方面,以Cerebras、Groq为代表的芯片公司相继...

生成式AI推理技术、市场与未来

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI逻辑推理(reasoning)能力,这一转变将极大推动上层应用的...

LLM后训练绝招:1%预训练成本,实现最高20倍算力扩展效果

根据规模定律,扩大训练计算规模可以提高大型语言模型(LLM)性能的关键,但调研机构Epoch AI的研究,LLM再训练无需高额费用,也能让AI能力获得显著提升。 在该研究中,他们引入了一个基本框...

50张图,直观理解混合专家(MoE)大模型

Mixtral 8x7B的高效训练与推理效果曾引发AI社区对混合专家(MoE)模型的广泛关注,后来居上的国产开源大模型DeepSeek以及腾讯近期开源的Hunyuan-Large(基于Transformer的最大MoE模型)也选择...

LLM逻辑推演策略选择:推理时计算 vs 训练时计算

AGI实现的一大标志是,具备人类级别的逻辑推理(reasoning)能力。近期,随着推理(inference)模型GPT o1、DeepSeek R1-Lite的发布,模型的逻辑推理能力得到显著提升,也预示着对LLM潜力的深...

2024/11/28 17:20
233
LLM后训练绝招:1%预训练成本,实现最高20倍算力扩展效果

根据规模定律,扩大训练计算规模可以提高大型语言模型(LLM)性能的关键,但调研机构Epoch AI的研究,LLM再训练无需高额费用,也能让AI能力获得显著提升。 在该研究中,他们引入了一个基本框...

企业生成式AI最新调查:AI支出激增6倍,多模型部署盛行

企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产,海外风险投资机构Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研,深入分析了这场变革中正...

强化学习之父Richard Sutton:AGI研究的下一个范式

OpenAI下一代GPT近期被爆遇到瓶颈,这让“Scaling Law撞墙”的声音变得更响,尽管业内对此争论不休,但现实情况是,大模型确实不再像年前那样有突飞猛进的进展。 作为启发大模型领域提出Sca...

LLM逻辑推演策略选择:推理时计算 vs 训练时计算

AGI实现的一大标志是,具备人类级别的逻辑推理(reasoning)能力。近期,随着推理(inference)模型GPT o1、DeepSeek R1-Lite的发布,模型的逻辑推理能力得到显著提升,也预示着对LLM潜力的深...

探索AI框架前沿|OneFlow招聘深度学习研发工程师(实习)

一、岗位名称:深度学习研发工程师-框架开发方向(实习) 岗位职责 1. 参与 OneFlow 框架开发、重构与性能优化; 2. 参与深度学习编译、高阶自动微分等深度学习框架相关技术演进工作。 岗位要...

企业生成式AI最新调查:AI支出激增6倍,多模型部署盛行

企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产,海外风险投资机构Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研,深入分析了这场变革中正...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部