【AI简报20231027期】英伟达AI芯片业务遭管制,生成式AI落地,高通向上突围

2023/10/27 22:02
阅读数 15

1. GameGPT进军游戏制作,全自动生成游戏,时间可缩百倍


原文:https://36kr.com/p/2491906953123720
不得了了!GPT技 能树再成长,现在直接连游戏都能做了!?
要知道,现在这个时代,已经不是过去那个做个小游戏就可以抢占市场的时代了。如今的游戏开发流程超级复杂。
先说人力,每个游戏团队的人员都是数以几十甚至上百来记。有人负责编程,有人负责美工,有人负责维护,等等。
每个游戏还都有庞大的代码库、素材库。
结果就是,开发一款优秀的游戏大作,需要大量人员,投入大量时间才能完成。而这个时间周期,往往要长达数年。
更直观的,就是钱。
游戏团队开发一款能让人们记住并且爱玩儿的大作,预算动不动就要超过1亿美元。
要不然怎么说,游戏制作算是一种用爱发电呢。
现在,情况有变!
有研究人员开发了一个叫GameGPT的模型,GameGPT可以整合多个AI智能体(agent)来自动完成游戏开发中的部分流程。
而不同的智能体各司其职,工作起来井井有条。
有智能体负责审查游戏的设计计划,并进行相应的修改和调整;有的负责将任务转化为具体的代码;有的负责对上一步生成的代码进行检查,对运行结果进行审核;还有智能体负责验证全部的工作是否符合初始预期。
如此 这般,通过细化分解工作流程,GameGPT就可以简化AI智能体的工作。 这种各司其职会更加有效率,实现起来也比一个全能型的智能体完成一切要简单得多。
研究人员表示,GameGPT可以简化传统游戏开发流程中一些重复和死板的内容,比如代码测试。
大量开发人员就可以从繁杂的检验工作中解放出来,专注于AI所不能替代的,更有挑战性的设计环节。
当然,这篇论文目前还处于一个比较初步的阶段。目前还没有任何具体的结果或者实验来证明性能上的提高。
换句话说,还没人用GameGPT真的开发过游戏,这个模型目前还处在概念形成阶段,在有具体的应用结果以及可量化的数据之前,咱也不好评估。
不过,总归是个努力的方向。
有网友表示,人们对LLM的想法是有一定偏差的。现在,研究人员有了一种能够100%解决NLP问题的工具,而人们却只关心如何实现某些工作流程的自动化。
举例来说,想象一下如果游戏世界对你的决定做出的反应,要比你在五分钟内判断出基于规则的硬编码引擎的反应更正常,那将会是怎样的情景。
再想象一下,如果一款游戏能根据你做出的决定(比如在路上随机屠杀你看到的敌人等),为你临时安排一些支线任务,那会是什么场景。
而开发者在创建这样一个系统时,会使用提示工程来指导LLM,而不是编码这些东西。
但是,这样做的目的不是为了节省成本,而是为了在以前无法制作更多游戏的阶段制作游戏(是不是有点拗口)。
GameGPT
首先,让我们来看看GameGPT模型的大框架——全流程。
可以看 到,作者将每个智能体拟人化,更生动地展示了他们是如何各司其职的。
流程最左侧是用户端,向GameGPT输入prompt,然后开发经理和审核进行初步计划。
接着,再把需求发送给开发工程师,以及游戏引擎工程师,来执行具体的任务,生成代码。
最后检查一下有没有遗漏,有的话发回左侧,再跑一遍。没有就继续向右,由负责检查的工程师来进行testing。
AI开发游戏??
实际上,AI开发游戏历史的雏形也许可以追溯到更早。
AI在游戏开发中的应用可以追溯到「星际争霸」和「暗黑破坏神」等经典游戏。在当时,开发人员需要用AI系统来制作交互式的虚拟世界和角色。
而这些系统已成为此类互动平台开发的标准配置。
早期和游戏开发AI相关的研究强调控制非玩家的角色(NPC),而随着自然语言处理(NLP)技术的发展,出现了一些利用深度学习技术生成关卡的开创性工作。
其中代表作是MarioGPT,它通过微调的GPT-2模型成功生成了「超级马里奥兄弟」中的部分关卡。
而众所周知,LLM又在今年取得了巨大进步,在NLP和计算机视觉(CV)领域都取得了不错的成绩。
我们知道,LLM的训练是一个多阶段的过程。初始阶段包括在广泛的语料库中训练这些模型,促进基本语言能力的获得。
随后就是更重要的阶段了,通过指令(instruction)生成各种NLP任务的数据对模型进行微调。这种指令调整,增强了模型在广泛应用中的泛化能力,从而可以让LLM能够在之前训练中没有执行过的任务中取得零误差的性能。
最后,人类反馈强化学习(RLHF)阶段保证了模型的结构完整性和可靠性。
这里还有一点需要注意——RLHF阶段能让模型生成模仿人类风格的内容,从而增强其作为智能体的多功能性。
此外,LLM的进步还促进了智能体在软件开发过程中的自动化。许多研究都曾经把目光放在过这个问题上——如何开发一个基于LLM的智能体,用来执行不同的任务。
比方说AutoGPT就曾经采用LLM智能体来处理现实世界中的某些决策任务,而HuggingGPT则采用的是单个LLM作为一种控制器,来协调完成更加复杂的AI任务。
虽说这些方法都依赖于唯一的LLM智能体,但它们都加入了一个审核者(就是上面流程图里的reviewer)来完善决策。
还是拿AutoGPT举例,模型会从监督学习器中获取一些辅助性的意见来提高自身性能,HuggingGPT也可以接入GPT-4,弄成一个reviewer,来评估决策的准确性。
还有一些别的例子,比方说MetaGPT就引入了一个多智能体框架,可以用于各种软件的自动化开发。
而回到我们今天讨论的游戏开发,我们要知道,与一般的软件开发不同,游戏开发行业的运作需要紧跟潮流,因此整个开发过程必须更加精确和简洁,以达到最佳效率。
此外,在没有幻觉和高精度的情况下,调整和使用单个LLM来服务于游戏开发的整个开发周期是不切实际的,而且成本高昂。
因此,游戏开发AI的框架需要多个reviewer参与,这样就能有效缓解语言模型所固有的幻觉倾向。
研究人员还发现,在游戏开发中,语言模型还有另一个局限性——冗余性。LLM在游戏生成时,可能会生成不必要的、无信息量的任务或代码片段。
为了有效解决幻觉和冗余问题,今天的主角——GameGPT战略性地采用了多种方法来解决这个问题,包括双重协作、通过内部词汇库进行指令调整以及代码的解耦。
值得我们关注的是,双重协作涉及到LLM与小型深度学习模型之间的互动,以及负责执行的智能体与reviewer智能体之间的协作参与。
研究人员表示,这些协同作用已被证明,在减轻GameGPT的幻觉和冗余方面是有效的。
方法介绍
接下来,研究人员从全流程剖析一下GameGPT的创新。
首先,在游戏设计阶段,在收到用户请求后,GameGPT的任务包括生成整个游戏的开发计划。这个计划阶段是关键步骤之一,极大地影响了整个开发过程的无缝进展。
这个阶段由基于LLM的游戏开发经理策划,先提出一个初始计划,随后分解成任务列表。
值得注意的是,由于LLM固有的局限性,这个初始计划经常会出现幻觉,从而产生意想不到的任务,包括没有信息或不必要的冗余任务。
为了应对这些问题,研究人员提出了四项可以减轻这些难题的策略,这四种策略相互正交的,并且可以分层执行以获得更好的效果。
方案一:对传入请求进行分类,目的是辨别游戏的类型。目前,GameGPT框架支持五种不同游戏类型的开发,即:动作、策略、角色扮演、模拟和冒险。
对于每种类型,研究人员都会提供标准化的计划模板,指导游戏开发经理智能体使用相关信息完成模板。
通过采用这种方法,冗余任务的频率显著降低,同时减少了幻觉发生的可能性。
策略二:涉及计划审查员智能体的参与,这是另一个基于LLM的代理。这个智能体通过精心设计的prompt进行操作,以此来对任务计划进行全面的审查。
它的主要目标是尽量减少幻觉和冗余的发生。该智能体评估计划并提供反馈,旨在改进并提高其准确性、效率和简洁性。
同时,这一部分生成的指令可以作为游戏开发经理智能体的新输入,使任务计划更加准确和完善。
策略三:通过专门的指令来调整游戏开发经理智能体的LLM本身,以便更好的进行游戏开发层面的规划。这个微调过程的目的就是让模型能生成一个既准确又简洁的计划。
为了方便起见,研究团队收集并整合了一个内部数据集,其中包括许多输入输出的搭配。虽然这些组合在长度或结构上不符合标准格式,但它们都围绕着游戏开发的要求。
这部分固定搭配由业内的开发人员提供。
通过采用这种方法,研究人员有效地弥合了LLM的一般语言能力与游戏开发规划能力之间的差距。
策略四:规划阶段的「安全网」。在整个计划过程中,游戏开发经理智能体始终在前端界面上与用户分享中期结果,使其余的智能体能够随时了解正在进行的开发是什么。
为了增强这一点,研究人员集成了一种交互式方法,使用户能够根据他们的期望积极地审查、纠正和增强计划。这种方法也保证了设计计划和用户需求之间的一致性。
说完了这些策略,我们来看看GameGPT的优越性。
首先,这个模型中的任务分类过程要求在识别任务类型及其对应参数方面具有很高的准确性。
因此,研究人员为了确保这一阶段的准确性,创建了一个名为游戏开发工程师的智能体。该智能体由两个模型共同组成,它们协同参与任务分类的流程。
这种协作方法提高了任务识别的准确性和有效性。同时为了避免LLM幻觉的出现,提高任务分类的准确性,研究人员提供了游戏开发中可能出现的任务类型列表。
为了对此进行更好的分类,他们采用了BERT模型。
BERT模型已经用内部数据集进行了完整的训练。该数据集包含针对游戏开发任务所量身定制的各项数据条目。而输入则是从预定列表中绘制任务,而输出对应的则是任务的指定类别。
任务类型和参数的审阅都在这个阶段进行,引入一个叫做任务审阅人员的智能体,主要负责每个类别的识别和参数是否合理。
评审(review)的过程包括审核任务类型是否在预定范围内,是否是最适合的任务。同时,它还会检查参数列表,看看它是否与任务一致。
某些场景下,比如一些基于上下文任务信息的,或者用户请求无法推断参数的情况,GameGPT采用了一种主动的方法来解决。
Reviewer通过在前端界面上启动提示,并请求参数所需的附加信息来吸引用户注意。
这种交互方法的好处在于,即使在自动推理不足的情况下也能确保论证细节的完整性。
此外,还有另一个智能体负责识别任务之间的依赖关系,并构造一个封装这些关系的图表。在建立该图之后,再采用算法来对该图进行遍历筛选,由此产生一个确定的任务执行顺序。
这个过程确保了模型可以按照任务的依赖关系有序和系统地执行,从而产生连贯和结构化的开发流程。
另一个问题是,使用LLM生成冗长的代码会带来更大的幻觉和出现冗余的风险。为了解决这个问题,研究人员引入了一种新的方法来解耦游戏设计中出现的代码,简化了LLM的推理过程,从而极大程度减轻了幻觉和冗余。
这个方法也并不难理解——研究人员会将预期的脚本划分为许多长度更短的代码片段,以供LLM处理。这种解耦方法大大简化了LLM的工作。
还有一种叫做上下文学习的有效推理方法,也可以有效地减轻幻觉。
此外,GameGPT中应用的另一种消除幻觉的技术,包括为每个任务生成一组K个代码的代码片段。
这些代码片段随后会在虚拟环境中进行测试,并同时呈现给用户。测试过程和用户反馈都被用来识别和消除有问题的代码片段,最终只留下最可行的选项来执行。这种方法同样有助于进一步减少幻觉的发生。
此外,研究人员还有一个内部的库,包含为游戏开发设计的大量代码片段。每一个代码片段都由标签器进行了注释,提供了明确说明其预期目的的说明。
概括一下就是,为了让代码不冗余,不幻觉,开发人员做了两手准备,事前的和事中的。
同时,上面提到的这个库也是对模型进行微调的宝贵资源。代码审查和改进在游戏引擎智能体生成代码之后,代码审查智能体会对代码库进行彻底的审查和检查。
该智能体会进行全面的评估,努力找出任何可能会偏离原始请求的实例,或代码中出现的意外幻觉。
经过彻底的审查,智能体不仅能标记出潜在的差异,而且还能据此提供改进代码的建议,最终产生更为合理的版本。
在审查过程之后,修改后的代码以及智能体的反馈都将通过前端界面与游戏引擎工程师智能体和用户共享。如果用户认为有必要,可以直接通过前端界面提供代码修改建议。
之后这些建议会继续传递给代码审查智能体,它会进行评估,并有选择性的合并这些建议,从而进一步生成一种协作和迭代的方法来增强代码。
最后,一旦代码生成完毕,该干的也都干完了,责任就落到了游戏引擎测试智能体的身上,由这个智能体来负责执行生成的代码。
在这一阶段,该智能体还会遵循在前一阶段所制定的执行顺序。
具体的执行过程包括将每个单独任务的代码发送到游戏引擎,进行执行,并在执行期间持续跟踪,生成日志。
在完成执行序列中指定的所有任务后,智能体会合并整个执行过程中生成的所有日志。
最终,这种编译生成了一个简洁而全面的摘要,再通过前端界面呈现给用户。
此外,测试工程师智能体还会识别并报告在执行过程中观察到的任何回溯情况的出现。这些回溯会作为关键的指示器,指示AI对执行流程或代码进行更进一步的调整,使整个过程得以细化,并有助于生成一个完美的最终产品。
最后,再来看下多个代理同时工作的框架公式:
首先,在GameGPT中,每个代理都有一个私有的记忆系统,并且它们可以访问共享的公共内容,以获取必要的信息来指导其决策过程。
对于时间步长为t的代理i来说,这一过程可表示为:
其中pθi对应的是和代理i相关的LLM或专家模型,Oit表示代理i在时间步长为t时的产出或可交付成果,Mit和Pt分别指截至时间步长t内,所有的私人记忆和必要的公共记录。
由于游戏开发行业的特殊性和大语言模型的局限性,在GameGPT中,具有不同角色的多个代理的存在至关重要。
鉴于游戏开发周期通常长达数月,如果只依赖一个拥有全面记忆和上下文信息的单个代理,语言模型(包括LLM)的效率将大打折扣。
而随着时间的推移,项目变得越来越复杂,这种方法也会带来可扩展性方面的挑战。此外,考虑到LLM所处理的标记数量的限制,在大型游戏开发项目中使用具有全面内存的单独代理并不实用。
还有,在LLMs中观察到的幻觉和冗余等固有问题凸显了多个代理之间协作的重要性,尤其是那些具有批判性角色的代理。
这种协作对于减轻LLM幻觉和冗余带来的挑战意义重大。
因此,GameGPT才利用一系列不同的角色来促进其运作,包括整个游戏开发周期的职责。
这些角色包括上文提到的游戏内容设计师、游戏开发经理、计划审核员、游戏开发工程师、任务审核员,还有游戏引擎工程师、代码审核员和游戏引擎测试工程师。
在整个游戏开发过程中,每个角色都承担着不同的任务。
参考资料:https://arxiv.org/pdf/2310.08067.pdf

2. 美国出口管制影响英伟达AI芯片业务,对全球AI市场产生深远影响

原文:https://www.sohu.com/a/731453805_121411737
10月25日,全球领先的图形处理器和人工智能(AI)技术巨头英伟达(NASDAQ: NVDA)在向美国证券交易委员会(SEC)递交的一份文件中披露,美国政府已通知公司,针对适用于总处理性能大于等于4800TTP并为数据中心设计或销售的产品的相关出口管制立即生效。这一新政策将直接影响英伟达的A100、A800、H100、H800和L40S产品。
首先,从宏观经济角度看,美国的出口管制政策将对全球AI市场产生深远影响。英伟达作为全球最大的AI芯片供应商之一,其产品在全球范围内广泛应用,包括云计算、大数据处理、自动驾驶等多个领域。此次出口管制政策的实施,无疑将对全球AI市场的供应链造成一定冲击,可能导致相关产品的供应短缺,进而推高价格。
其次,从行业竞争角度看,美国的出口管制政策可能会改变全球AI芯片市场的竞争格局。 由于英伟达的产品在全球市场上具有领先地位,其他竞争对手可能会借此机会提升自身的市场份额。 然而,这也取决于这些竞争对手是否有足够的技术和生产能力来填补英伟达产品的空缺。 再次,从英伟达自身角度看,美国的出口管制政策将对其业务发展产生重大影响。
一方面,由于出口管制,英伟达的部分产品可能无法进入某些市场,从而影响其全球业务的扩张。 另一方面,由于供应短缺,英伟达的产品可能会出现价格上涨,这可能会影响其在全球市场上的竞争力。 总的来说,美国的出口管制政策将对全球AI市场、行业竞争格局以及英伟达自身的业务发展产生深远影响。 未来,市场将密切关注这一政策的进一步动态以及英伟达的应对策略。

3. Jina AI 推出全球首个开源 8K 文本嵌入模型,号称“超越 OpenAI”

原文:https://www.ithome.com/0/727/817.htm
IT之家 10 月 26 日消息,Jina AI 在其官网发布新闻稿,宣布推出 jina-embeddings-v2 模型,号称是目前是唯一支持 8K(8192 个 token)上下文长度的开源产品,在功能和性能上与 OpenAI 的 text-embedding-ada-002 类似。
在大规模文本嵌入基准 (MTEB) 排行榜方面,IT之家发现,官方进行如下解释:

   
   
   
与 OpenAI 的 8K 模型 text-embedding-ada-002 进行比较,jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面均优于 OpenAI 的 text-embedding-ada-002。
方表示,jina-embeddings-v2 模型,是从头开始构建的。 在过去的三个月里,Jina AI 团队进行了密集研发、数据收集和调整。
Jina AI 同时声称, jina-embeddings-v2 8K 的上下文长度有利于以下应用场景:

   
   
   
法律文件分析:确保对大量法律文本中的每一个细节进行捕捉和分析。

医学研究:为了进行高级分析和发现,全面地嵌入科学论文。

文学分析:深入研究长篇内容,捕捉微妙的主题元素。

财务预测:通过详细的财务报告获得卓越的洞察力。

会话式 AI:提升聊天机器人对复杂用户查询的响应能力。

4. 讯飞星火 V3.0:给 AI 注入灵魂,“哪吒”“诸葛亮”多种人设可定制

原文:https://www.ithome.com/0/727/814.htm
对开发者而言,1024 是计算机操作系统的进程单位,也是程序员们的特殊纪念日。在 10 月 24 日这一天,科大讯飞全球 1024 开发者节在合肥拉开帷幕。但与往年不同的是,今年随着 AIGC 浪潮席卷全球,科大讯飞率先投身大模型研发领域,并在“1024”这一天发布了足以匹敌 ChatGPT 的星火认知大模型 V3.0(简称“星火 V3.0)。
熟悉星火大模型的用户都知道,早在 5 月 6 日星火“首发”时,科大讯飞董事长刘庆峰就给出了年内的三大迭代“时间表”。其中 10 月 24 日分量最重,关注度最高,因为星火将向 ChatGPT 发起挑战。在星火 V3.0 发布会上,刘庆峰表示:“自讯飞星火发布以来,代码能力持续升级,星火 3.0 已基本整体超越 ChatGPT,正在追赶 GPT-4”。
是什么给了星火超越 ChatGPT 的“底气”?那就是技术端的稳步迭代,应用端的百花齐放。早在 5 月 6 日首场发布会上,讯飞就引入认知智能全国重点实验室牵头设计的标准化评测体系,通过对影响大模型聪明度的七大能力分项考核,实现对星火大模型能力的通盘评估。依托这套评测体系构建的测试集,星火 V3.0 七大能力持续提升,其中代码能力、语言理解、逻辑推理与 AI 人设重点升级,而这也是决定大模型“聪明与否”的关键能力。
因此,星火 V3.0 在中文能力客观评测层面超越了 ChatGPT,在英文能力对标 ChtaGPT 48 项任务结果相当,兑现了“中文超越、英文相当”的诺言。据国务院发展研究中心国研经济研究院的测评报告,星火 V3.0 不仅综合能力超越 ChtaGPT,达到国内领先、国际一流水平,更在医、法、教等诸多行业表现突出。
在应用端,星火大模型以“小助手”形态深入行业、遍地开花,现有的 15000 + 助手开发者,已开发出 29000 + 助手应用,这些都是灵感汇聚的窗口。但之前星火小助手还缺乏灵魂,也就是我们常说的“人格化”,而此次星火 V3.0 就完美补齐了这个短板。
在讯飞研究院院长刘聪的演示下,虚拟人格应用“星火友伴”成为了全场最靓的仔。刘聪通过对星火赋予“哪吒”和“诸葛孔明”的人设,瞬间让字里行间充满人格魅力。诸如哪吒三太子标志性的“我命由我不由天”的口头禅,以及诸葛亮评定大模型可助主公解惑、亦可用于治国安邦的评语,都结合了人物的历史背景和表达习惯,让沟通充满人情味。
除了通用智能应用端,星火还持续赋能千行百业,尤其是被誉为现代文明基石的工业。根据数据显示,中国约有 800 万软件从业人员,2022 年软件业务收入 10.8 万亿元,占 GDP 比重高达 8.93%,2028 年预测将达到 20 万亿,因此大模型赋能工业首先要赋能代码。
这次,星火 V3.0 带来了进一步升级的智能编程助手 iFlyCode 2.0,根据讯飞内部项目应用实践统计,其在设计、编码和自测三大阶段的提效幅度分别达到 50%、37% 和 44%。而在对外数据上,iFlyCode 应用在“智慧课堂”的产品跨平台改造中,将传统开发方式所需 3 个月的耗时,直接缩短至 1 个月。目前,iFlyCode 在京东云、软通动力等 107 家机构实现深度对接应用。
对讯飞而言,赋能教育也是星火自诞生以来的坚定方向。这次星火 V3.0 带来了 AI 心理伙伴,通过多模态情感识别、共情表达、寻因式提问、个性化心理指导四大能力,帮助青少年排忧解难,疏导心理。星火 V3.0 还带来了启发互动式英语 AI 答疑辅学,通过引导式提问、个性化解答和探究式互动学习,激发孩子的探究欲,让他们从厌学变成想学。据悉,科大讯飞 AI 学习机 T20 系列、Lumie 系列将在 11 月 1 日期开启免费升级。
从外行不看好,到同行赶不上,星火 V3.0 一步一个脚印朝着赶超 ChatGPT 的目标不断前进。但刘庆峰也清醒的意识到国产大模型与 GPT-4 的差距,他表示:“国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上距 GPT4 还有差距。”但既然找到问题所在,星火不断查漏补缺,总有一天会实现对 GPT-4 的追赶。
出于对大模型原研技术的自信,刘庆峰给出了星火对标 GPT-4 的时间点,当大屏幕上出现“2024 年上半年”的时候,无论是线下的来宾还是线上的观众都备受鼓舞。随着以讯飞星火大模型为代表的第一梯队的不断追赶,中国自己的大模型将屹立于世界舞台,与 ChatGPT 在切磋较量中而占据上风!

5. 生成式AI落地,高通向上突围

原文:https://www.sohu.com/a/731277316_100106801
10月25日,高通公司召开2023骁龙峰会,正式发布了全新第三代骁龙8移动平台、骁龙X Elite、第一代无线音频平台S7系列,以及跨终端制造商和操作系统(OS)实现多终端无缝协作的Snapdragon Seamless。
作为峰会重头戏,骁龙8 Gen 3基于台积电N4P工艺制程打造,采用了1+5+2的全新架构设计,包含1颗Cortex-X4超大核、5颗Cortex-A720大核和2颗Cortex-A520小核。GPU采用了新一代Adreno GPU,值得一提的是,骁龙8 Gen 3的AI性能提升了98%,能效提升40%。
此前,高通公司宣称骁龙8 Gen 3是首款专为生成式AI而设计的移动平台,也是市场上最强大和功能最齐全的移动平台,并表示骁龙8 Gen 3将会“挑战主机”和“高端级别”。
全新的智能PC计算平台骁龙X Elite也是一大亮点。骁龙X Elite基于定制的Oryon CPU核心,相同功耗下CPU性能可达到x86处理器竞品的2倍;峰值多线程CPU性能比Arm处理器苹果M2芯片高出 50%。GPU方面,算力达到4.6 TOPS,支持4K、120Hz、HDR10显示,支持三个4K或者双5K输出。AI算力方面更是达到了45 TOPS,相较2017年性能提升了约100倍。
不难发现,芯片行业已行至十字路口,拥有更强大的性能或许只是基本功,而拥有强悍的AI能力,才能承载起引领下一个时代的重任。
一、押注混合AI,掌握话语权
自2007年的骁龙S系列处理器问世,到后来的“骁龙+数字”系列,再到2022年11月发布的骁龙8 Gen 2,高通公司的芯片已被广泛应用在国产高端旗舰手机、平板等移动终端,建立起了举足轻重的话语权。
根据市场调研机构Counterpoint的数据,2021年全球安卓智能手机芯片市场,高通公司在中高端(300-499美元)的智能手机细分市场,占据了高达65%的市场份额,在500美元以上的高端市场,也占据了55%的市场份额。
尽管地位一直很稳固,竞争对手也几乎难以撼动,但对于高通公司而言,在单纯比拼参数的时代结束之后,如何继续掌握行业话语权,仍是不得不深度思考的难题。
高通公司将2023年骁龙峰会主题定为“让AI触手可及”,其解决方案已经摆在台面上:无论是骁龙8 Gen 3,还是骁龙X系列,AI性能才是核心竞争力,“AI能力”将成为芯片行业的角力点。
事实上,从骁龙8 Gen 1开始,高通公司就已十分重视芯片的AI算力,骁龙8 Gen 1的AI算力可以达到9 INT8 TOPS(每秒万亿次操作),而在骁龙8 Gen 2上,AI算力提升了4.35倍,约为39 INT8 TOPS。
AI算力仍在持续提升中。高通公司在《混合AI是AI的未来》白皮书中提到,高通已经在移动端运行超过10亿参数的AI运算。
随着生成式AI的飞速普及和计算需求的日益增长,混合处理的重要性空前突显,AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。
与仅在云端进行处理不同,混合AI在云端和边缘终端之间分配并协同处理AI工作负载。云端和边缘终端(如智能手机、汽车、PC和物联网终端)协同工作,能够实现更强大、更高效且高度优化的AI。
高通公司认为,混合AI将支持生成式AI应用开发者和提供商利用边缘侧终端的计算能力降低成本。混合AI架构或仅在终端侧运行AI,能够在全球范围带来高性能、个性化、隐私和安全等优势。
2023年2月,高通公司在社交平台上发布了一段视频,演示了在Android手机上本地运行生成超10亿级数据的AI图像,整个过程不到15秒,向外界展示了高通公司在混合AI方面的成就。
在2023骁龙峰会上,高通公司CEO克里斯蒂亚诺·安蒙表示,第三代骁龙8移动平台率先支持多模态通用AI模型,现已支持运行超100亿个参数的大模型。
AI时代已来临,高通公司正打算借助自研架构的优势,将混合AI推广到更多产品上。不过,理论距离实际落地还需要很长的路要走,混合AI究竟会不会成为高通公司向上的突破口,还有待时间和市场的检验。
二、骁龙X能否变革PC行业?
手机芯片之外,高通公司决心以骁龙X Elite为切入点,加码PC市场。高通公司预测,“2024年将成为PC行业的转折点,骁龙X计算平台将带来更高水平的性能、AI、连接和电池续航。”
高通公司对骁龙X Elite寄予厚望:一方面,近年来传统PC行业主要升级点集中在硬件性能的提升,通过堆叠更多的硬件来实现设备体验的升级,AI能力缺失;另一方面,PC行业正在逐渐向智能化、生态化方向演进,并逐渐成为智慧终端设备生态体系中的一个关键节点。
加码PC市场,不仅能扩展芯片的应用场景,同时还能缓解智能手机出货量逐年下降而带来的危机。
虽然PC出货量比不过智能手机,但依然是个巨大的市场。根据市场调查机构IDC的统计数据,2023年第三季度,全球PC出货量环比增长了11%,出货量为6820万台,尽管全球经济依然低迷,但过去两个季度的PC发货量均有所增长,表明PC市场已经走出低谷期。
与此同时,PC行业也亟需一场变革。根据《2020年笔记本电脑九大消费新趋势》报告,消费者购买笔记本电脑时除了关注综合性能和整体外观设计之外,智慧交互成为消费者购买时新的关注点,移动化办公成为常态之后,不同设备间的信息流转、交互,已成为消费者的刚需。
有观点认为,高通公司此时推出骁龙X Elite,是在直接对标苹果M系列芯片,“骁龙X Elite强调的性能、功率,以及神经处理功能,这些都是苹果M系列芯片的强项,如果骁龙X Elite真能提供与M芯片相近的体验,那Windows用户或将迎来全新的PC体验”。
不过,在智慧PC领域,苹果仍是当之无愧的霸主,其先后从系统和硬件两个方面切入,其有着完整的底层系统和完整的生态设备,通过账号打通了智能手机、平板和PC之间的数据通道,同时也实现了不同平台应用的跨平台使用、随航、隔空投送等功能。相比之下,高通公司仍有所欠缺。
然而不可否认的是,骁龙X Elite是一项重要的技术创新,尤其是其AI处理能力是竞品的4.5倍,异构AI引擎性能可达75 TOPS,为PC行业带来了更高效、更智能的计算体验,有望在英特尔、苹果等竞争对手的围追堵截下,带来PC行业的变革。
三、开拓汽车领域,布局第二曲线
一直以来,智能手机芯片都是高通公司的核心业务,但随着智能手机市场增长放缓,市场空间趋于饱和,高通公司近年来正从智能手机芯片向汽车芯片转型。
汽车行业已成为高通公司重点发力的领域。2023财年第二财季财报显示,高通公司的总营收和净利润双双出现了同比下降的情况,但来自汽车芯片业务的收入却十分亮眼,财报显示,汽车芯片业务收入同比增长20%至4.47亿美元。
此前,高通公司在投资者日活动上表示,未来十年内,围绕芯片和软件的市场规模将达到约7000亿美元,其中汽车市场占据1000亿美元,主要分布在车联网芯片相关的160亿美元、智能座舱的250亿美元以及智能驾驶的590亿美元这三个领域。每辆汽车在以上三个领域所需的芯片和软件费用从基础的200美元起步,到高端的3000美元。
随着智能网联汽车的飞速发展,汽车芯片早已成为高通公司的潜在市场。高通公司首席执行官Cristiano Amon在慕尼黑IAA车展期间表示,高通预计到2026年其汽车业务的收入将达到40亿美元,到2030年将增至90亿美元,“我们一直关注于寻找新的增长领域,而汽车就是其中之一。”
为了实现第二增长曲线,高通公司在智能汽车领域进行了大量的技术布局,比如恩智浦、瑞萨等传统汽车电子巨头仍采用22nm工艺时,14nm的智能座舱芯片骁龙820A已经完美兼容QNX、CarPlay、Android Auto等主流座舱系统,车企可以通过OTA向车主发送最新固件,而车主可以像升级智能手机一样获取最新最强大的车载系统。
不只是智能座舱领域,高通公司也在不断往智能驾驶方向渗透。2021年10月,高通公司联合纽约投资机构SSW Partners,以45亿美元的最终价格收购了汽车技术公司维宁尔,获得后者软件部门Arriver的100%控制权。
收购完成后,高通将Arriver的计算机视觉、驾驶策略和驾驶辅助资产与Snapdragon Ride平台进行整合,形成一个可扩展的产品组合。2023年5月,高通公司还公布了其面向自动驾驶的骁龙Ride系列芯片,包含自动驾驶芯片Ride SoC、舱驾一体芯片Ride FlexSoC,算力进一步增强。
从智能手机芯片到汽车芯片,再到将混合AI融入旗下所有产品中,高通公司正试图从一个智能手机芯片制造商,转变成为一个多元化的半导体供应商,但不容忽视的是,转型之路仍然任重道远。

6. 《时代》杂志发布“2023 年最佳发明”榜单,14 个 AI 项目一览

原文:https://36kr.com/p/2490611172221060
10 月 24 日,《时代》杂志发布“2023 年最佳发明”榜单,涵盖了如人工智能、绿色能源和可持续发展等重点领域。据悉,此次评选的标准包括独创性、效率、影响力等,共计 200 项突破性发明(以及 50 项特别奖发明)入选,这些发明正在改变我们的生活、工作、娱乐方式,以及对可能事物的思考。
以下是 AI 领域 14 项入选发明的简介:
1. 跳出框框自由编辑:Adobe Photoshop Generative Expand 和 Generative Fill
Adobe 通过在全球最受欢迎的图像编辑器 Photoshop 中内置人工智能技术,让数百万人掌握了强大的 AI 功能。 在 Adobe 的 AI 图像生成器 Firefly 的支持下,Photoshop 现在包含了“生成扩展”(Generative Expand)和“生成填充”(Generative Fill)功能。 前者允许用户在照片的边界之外无缝填充想象的内容。 后者只需输入一些简单的文字,就能在现有图像中添加或删除内容。 这两种功能都不需要专业技术。 Adobe 数字媒体高级副总裁 Ashley Still 说: 这些选项使“客户能够以想象的速度将他们的愿景变为现实”。
2. 改变游戏规则的聊天机器人:OpenAI GPT-4
OpenAI 的 GPT-4 自 3 月份发布以来已有 8 个月,而它仍然是公众可以使用的最强大的聊天机器人。其前身 ChatGPT 的表现仅优于 10% 参加律师资格考试的学生,而 GPT-4 的表现则超过了 90%。它擅长语言推理,能把复杂的概念分解成简单的语言,甚至能解释一个笑话为什么好笑。今年 9 月,OpenAI 开始推出通过语音与模型互动以及使用图像作为输入的功能。更新后的 GPT-4 V 在为视障人士提供工具的组织 Be My Eyes 中进行了测试,可以用自然语言口头描述图片内容。
3. 别出心裁的电影剪辑:Runway Gen-2

Runway 是一家由谷歌支持的初创公司,其视觉特效工具曾被用于制作奥斯卡获奖影片《Everything Everywhere All At Once》中令人匪夷所思的画面。6 月,Runway 推出了 Gen-2 模型。新版本允许任何人通过文字提示、图片或其他视频生成完整的视频。Runway 联合创始人兼首席执行官 Cristóbal Valenzuela 将这项新技术比作 200 年前照相机的发明。他说:“人工智能是一种新型照相机,它将永远重塑讲故事的方式,并带来完全生成的完整故事片。

4. 人工智能鉴定真伪:Alitheon FeaturePrint
解决价值数万亿美元的假冒商品问题的方法可能很简单,只需将手机的摄像头对准手表或手提包,然后让智能软件确定其真伪即可。FeaturePrint 是一种光学人工智能技术,它首先能“看到”实物微小的表面细节,并将其“指纹化”为独特的数学标识。然后,只需点击一下按钮,它就能告诉你一件物品的真假。Alitheon 首席执行官 Roei Ganzarski 说:“不需要贴纸、标签或标记。客户之一是 Argor-Heraeus,该公司为各国银行生产金条。”
5. 天空之眼:Dedrone 全城无人机探测
无人机既能带来破坏,也能带来益处。Dedrone 的全城无人机探测产品可在某一地理区域周围投掷虚拟防护罩,如果无人机进入指定空域,可在数秒内向执法部门发出警告。Dedrone 跟踪无人机发出的专有混合信号,包括无线电频率、ADS-B 数据(也用于飞机)和 RemoteID 信标,以确定入侵位置。公司首席营销官 Mary-Lou Smulders 将其比作无人机的空中交通管制系统,这在此前所没有的。客户包括 Con Edison,该公司正在用它来保护自己的基础设施;巴塞罗那的警察部队;以及数量不详的机场。
6. 翻译大师:Meta SeamlessM4T
Meta 公司将其 SeamlessM4 T 人工智能模型比作《银河系漫游指南》中的万能语言翻译器巴别鱼(Babel Fish)。该公司的软件能够从语音或文本中理解近 100 种语言,并能以语音到语音、文本到文本、语音到文本或文本到语音等多种形式实时翻译这些语言。据 Meta 公司称,除了可处理的语言远多于前代产品外,该系统的效率更高,出错率更低,甚至可以破译同一句子中混合在一起的多种语言。Meta 已将该模型开源,这意味着全世界的研究人员都可以使用其代码。
7. 惊人的模仿:So-VITS-SVC
今年早些时候,一位名叫 Ghostwriter 的匿名创作者创作的一首名为《Heart on My Sleeve》的歌曲引起了轰动。(这首歌很快就被合法的流媒体服务撤下,但在此之前,它已经成为了病毒式的传播)。这些声音是通过名为 So-VITS-SVC 的开源软件生成的,该软件允许技术人员对歌手的声音进行神经网络训练,然后使用人工智能生成的声音制作任何歌曲。爱好者们在 Discord 社区交换语音模型,从 Bad Bunny 到 Taylor Swift,再到 James Hatfield。与此同时,采用该软件的用户友好型网站也如雨后春笋般涌现。
8. AI 消防员:AlertCalifornia 和 Cal Fire AI 野火探测器
在野火蔓延之前对其进行检测是目前困扰世界许多地区的一项挑战。加州大学圣迭戈分校的公共安全项目 AlertCalifornia 正在利用人工智能提供帮助。该项目与加州消防局(Cal Fire)合作,训练人工智能从遍布全州森林的 1050 多个摄像头网络中检测烟雾和其他早期火灾迹象。系统一旦发现异常,就会通过短信向当地消防部门发出警报。在最初的两个月里,该系统在接到任何报警电话之前就正确识别出了 77 起火灾。AlertCalifornia 的联合首席调查员 Falco Kuester 说:“这个(系统)最大的成功案例就是那些你从未听说过的火灾。”
9. 轻松创建音乐:Stable Audio
Stable Audio 由 Stability AI 公司创建,它利用人工智能的生成能力,只需几个简单的文字提示,就能生成几乎任何你想要的声音或歌曲。(例如,输入 "ambient techno, drum machine, peaceful, instrumental",就能生成一首轻松的新时代音乐,放在时髦的休息室里也毫不突兀)。该模型是在一个库存音频网站的数据集上训练出来的(所以都是合法的),其中包含 80 多万个音频文件,总计 2 万小时,可用于专业和业余项目。
10. 动物保护者:TrailGuard AI
在印度和非洲的部分地区,偷猎仍然是大象和大型猫科动物灭绝的最大威胁,即使在保护区内也是如此。美国环保组织 Resolve 创建的人工智能踪迹保护系统(TrailGuard AI)利用英特尔(Intel)技术驱动的微型摄像头来监控濒危物种和发现偷猎者。该系统利用手机或远距离无线电信号,在短短 30 秒内就能将图像传送到当局的手机上。TrailGuard 定制的人工智能模型经过训练后,不仅能侦测人类,还能侦测从老虎到鬣狗等任何感兴趣的物种。该技术在东非的测试阶段逮捕了 30 多名偷猎者,目前正在老虎密集的印度中部进行大规模测试。
11. 画出你的想象:OpenAI Dall-E 3
当 OpenAI 在去年 11 月向全世界发布 ChatGPT 时,它彻底改变了人工智能的格局。该公司希望 DALL-E 3(其人工智能图像生成器的全新改进版)也能产生同样的影响。DALL-E 3 的发明者、OpenAI 的 Aditya Ramesh 说,以前的图像生成器需要学习一门新的技术语言,包括在字符串中添加减号和数字,才能获得最佳效果。而 DALL-E 3 则不同,它可以折叠到 ChatGPT 中,这样用户就可以输入会话命令,获得符合其描述的图像。
12. 听好了:古腾堡计划开放式有声读物合集
古腾堡计划(Project Gutenberg)是历史最悠久的数字图书馆,成立于 1971 年,旨在让人们更容易获得电子图书。但首席执行官 Greg Newby 说,它“既不擅长创建,也不擅长传播”。因此,微软和麻省理工学院联手制作了“开放式有声读物合集”,利用文本到语音技术将 5000 本图书转化为免费的合成旁白有声读物,现在可在 Spotify 上下载。推动该项目的软件也免费发布。
13. 节拍:AudioShake
当最伟大的摇滚乐队之一最近达成协议,在广告中使用其 1970 年代的热门歌曲时,其成员欣喜若狂。但有一个问题:广告制作人只想要乐器,而乐队拥有的只是最终的混音。因此,摇滚乐队的团队联系了 AudioShake,该公司的人工智能程序可以隔离预先录制的音频元素,将其分解为各个组成部分。“我们使音频具有交互性和可编辑性,并能够推动这些真正实用的用途,帮助艺术家赚钱,”联合创始人兼首席执行官 Jessica Powell 说。
14. 反思智能手机:Humane Ai Pin
创办 Humane 的两位前苹果公司高管设想了一个无屏幕的未来,Ai Pin 就是他们迈出的第一步。一旦轻巧的 Humane Ai Pin 通过磁力吸附在你的衣服上,它就会成为你的人工智能个人助理。该设备结合使用专有软件和 OpenAI 的 GPT,让您可以完成各种操作,从提出复杂的问题到拨打电话和发送短信,所有这些都只需你一声令下即可完成。同时,内置摄像头可以识别事物并提供上下文信息,例如食物的卡路里估值。每当 Pin 的摄像头、麦克风或输入传感器处于激活状态时,一个名为“信任灯”的显著隐私指示灯就会亮起,以确保周围的人都知道它在监听或录音。如果你需要视觉效果,一个微型投影仪会将它们直接投射到你伸出的手掌上。这款产品计划于 11 月 9 日推出。
注:Humane 投资者包括《时代》周刊的联合主席和所有者 Marc Benioff 和 Lynne Benioff 夫妇

———————End——————


👇 点击阅读原文进入官网

本文分享自微信公众号 - RTThread物联网操作系统(RTThread)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部