上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic 的 Claude(100k上下文)等。然...
目前英伟达因其 GPU 芯片在 AI 革命中扮演着核心角色,使其成为AI时代最赚钱的公司。 本文作者 Pete Warden 总结了铸就英伟达 AI 霸主地位的四点优势:几乎无人运行大规模机器学习应用;英伟...
AI 寒冬曾造成机器学习和 AI 对齐之间的分歧,上世纪 90 年代,AI 对齐领域天马行空的畅想与机器学习的惨淡现实形成了鲜明对比,人们普遍对机器学习的发展持悲观态度。自2010年以来,以深度神...
作者|strint 1 概要 torch.fx 是 PyTorch 官方发布的 Python 到 Python 的代码变换工具。如果你想做 Torch 代码变换,torch.fx 是首选工具。 torch.fx 会将 Torch 代码 trace 成 6 种基础的...
Transformer架构的问世标志着现代语言大模型时代的开启。自2018年以来,各类语言大模型层出不穷。 通过LLM进化树(github.com/Mooler0410/LLMsPracticalGuide)来看,这些语言模型主要分为三...
PyTorch是目前最受欢迎的深度学习框架之一,初始版本于2016年9月由Adam Paszke、Sam Gross、Soumith Chintala等人创建,并于2017年在GitHub上开源。因其简洁、易用、支持动态计算图且内存使用...
基于学习方法,机器学习大致可分为监督学习和无监督学习两种。在无监督学习中,我们需要用某种算法去训练无标签数据集,从而帮助模型找到这组数据的潜在结构。 为了进行无监督学习,在OpenA...
作者|KIDGINBROOK 更新|潘丽晨 上节讲到已经计算出GPU和NIC节点到其他任意节点的最优路径了,本节看下NCCL中channel的搜索过程。 NCCL中channel的概念表示一个通信路径,为了更好地利用带宽...
随着AI领域的快速发展,OpenAI预言超级智能将在十年内出现。对人类而言,超级智能既是机遇也是挑战,它可以帮助人类解决很多重大问题,但也可能产生巨大风险,因此,超级智能对齐问题成为人们...
继ChatGPT、GPT-4引爆语言大模型之后,近日发布的代码解释器(Code Interpreter)又将这一领域推向了高潮。 代码解释器是ChatGPT插件更新的一部分,可以读取上传的文件,执行代码,生成图表,...
语言大模型内部究竟是如何工作的?本文用最少的数学知识和术语进行解释。 本文作者Tim Lee曾任职科技媒体Ars Technica,他近期推出了一份Newsletter《Understanding AI》,主要探讨人工智能的...
来源 | Latent Space OneFlow编译 翻译|贾川、杨婷、宛子琳 上下文长度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000个词元(3000词,6页),否则就会报错。因此,为处理长文档和提示(p...
作者|KIDGINBROOK 更新|潘丽晨 上节NCCL完成了对机器PCI系统拓扑的建图,其中建好的图如下所示,其中GPU之间是通过NVLink连接起来的。 为了方便之后的搜索channel,接下来NCCL会先计算GPU...
来源 | The Robot Brains Podcast OneFlow编译 翻译|徐佳渝、贾川、杨婷 2017年,Google发布的《Attention Is All You Need》论文提出了Transformer架构,这成为过去十年神经网络领域最具影...
在探讨“ChatGPT为什么能够捕捉我们的想象力”的文献中,一般可以看到两种说法:规模化为其提供更多的数据和计算资源;提示界面转向更自然聊天界面的用户体验。 然而,人们常忽略了这样一个事...
ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。...
作者|KIDGINBROOK 更新|潘丽晨 上次分析了NCCL对机器PCI系统进行拓扑分析的过程,产出的结果为xml格式,接下来,NCCL会根据这个xml进图的建立过程以便之后进行路径搜索。 ncclTopoGetSyste...
近几个月来,语言大模型(LLM)的广泛公开部署引起了倡导者、政策制定者和许多领域学者们的新一轮关注和参与。Anthropic技术团队成员、纽约大学助理教授Samuel R. Bowman总结了八个可能引发思...
上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。 在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关...
没有更多内容
加载失败,请刷新页面
文章删除后无法恢复,确定删除此文章吗?
动弹删除后,数据将无法恢复
评论删除后,数据将无法恢复