随着AI领域的快速发展,OpenAI预言超级智能将在十年内出现。对人类而言,超级智能既是机遇也是挑战,它可以帮助人类解决很多重大问题,但也可能产生巨大风险,因此,超级智能对齐问题成为人们当下关注的重点,我们需要确保超级智能与人类整体意志保持一致,让它们理解和满足人类的愿望与需求。
近期,OpenAI承诺将目前为止获得的计算资源中的20%用于对齐超级智能,并成立了一个名为“超级对齐(Superalignment)”的团队,宣称将在四年内解决超级智能对齐问题。他们计划先训练一个大致与人类水平相当的AI自动对齐研究员,再借助自动对齐研究员解决超级智能对齐问题。
超级对齐团队由OpenAI联合创始人兼首席科学家Ilya Sutskever和Alignment负责人Jan Leike共同领导,后者此前在DeepMind工作四年,研究人类反馈的强化学习以及递归奖励建模。
在探讨AI风险的AXRP播客节目中,UC伯克利博士生Daniel Filan与Jan Leike探讨了OpenAI的超级对齐计划的具体内容以及挑战。(以下内容经授权后由OneFlow编译发布,转载请联系授权。https://axrp.net/episode/2023/07/27/episode-24-superalignment-jan-leike.html)
来源 | AXRP
OneFlow编译
翻译|宛子琳、杨婷
1
超级智能对齐的目标
Daniel Filan:超级对齐(superalignment)团队希望达成的目标是什么?
Jan Leike:我们的宏观目标是在四年内(即2027年中旬之前)解决超级智能对齐问题。OpenAI联合创始人兼首席科学家Ilya Sutskever将与我共同领导这一项目。OpenAI已承诺将目前为止计算资源的20%用于对齐超级智能。
我们的总体计划是,先训练一个大致与人类水平相当的AI自动对齐研究员,再借助自动对齐研究员找出对齐超级智能的方法。
我们希望,尽可能将进行对齐工作所需的任务转交给一个自动化系统。通常情况下,使用LLM(语言大模型)或构建通用AI系统时,它们的技能概况与人类并不完全相同,在某些方面会远优于人类,比如在翻译以及掌握事实等方面相比人类具有明显优势。然而,它们在其他任务上的表现则明显较差,比如现在的语言模型在算术方面劣势明显。
我们需要思考的是,哪些任务可以交给AI系统运行,按照什么顺序进行?随着我们逐步推进这一进程,人类研究人员会逐渐将重心转交给AI系统以外的任务,将更多的时间和精力投入到更具挑战性的领域。如此,AI系统在整个工作中承担的份额会不断扩大,人类研究人员取得实际进展也将越来越高效。
为了让系统真正发挥作用,需要实现99%甚至99.9%任务的自动化,这样就可以实际上获得10倍、100倍乃至1000倍的研究产出。
Daniel Filan:你们想实现什么类型的任务?
Jan Leike:任务类型非常广泛,我会把它们分为两类。第一类任务更像是传统机器学习工程研究,试图增强AI系统的能力;第二类则囊括对齐工作所需的全部内容。因此,第一类任务包括实施机器学习实验、运行实验并查看结果。第二类任务包含了非常重要的高层次问题,即如何找出改进可扩展监督的实验,增强可解释性。
另外,还有更多的具体问题,假设你处于研究的某个特定阶段,比如,你刚刚完成了一篇论文,然后可能会思考,“如果继续沿着这个方向推进,接下来需要做什么?” 因此我预计,机器学习在第一类任务,即自动设计和运行实验方面,将表现十分出色。而我们的工作是,在以不同方式加速对齐的过程中,找出自动化处理第二类任务的方法。
Daniel Filan:“人类水平”这个词究竟应该如何界定?如果在某些任务上AI的表现超越人类,这会对你造成困扰吗,还是会让你感到欣慰?
Jan Leike:问题的关键在于,系统在对齐研究中扮演的角色有多大风险?如果它只是了解很多事实,这并不可怕,但真正需要弄清楚的是,如果我们让系统接管部分甚至几乎全部的对齐研究,它是是否会试图欺骗我们?是否会乘机篡权?所以,问题在于执行审查任务所需的技能组合,与获取大量对齐研究帮助所需的技能组合相比程度如何。
如果深入探讨这个问题,我们会考虑模型的实际表现有多出色?它是否会编织一系列连贯的谎言、欺骗我们、假装相信某件事但实际上渴望做另一件事?另外,还有一个非常关键的能力,即自我泄露(self-exfiltration)。我们需要弄清楚,模型能否突破安全预防措施,访问自己的权重,并尝试将其复制到互联网的其他地方?它是否擅长说服那些能够访问权重的工程师下载并发送到其他地方?因此,我们可以具体衡量模型在这些方面的表现,然后与其帮助我们进行对齐研究方面的表现进行比较。
Daniel Filan:是的。即便是这种小任务,例如“查看结果并决定接下来做什么”,我本以为要做到这一点必须拥有大局意识,需要思考“接下来什么项目对于四年内解决超级对齐问题最有帮助”。
Jan Leike:是的。但这并不意味着,你要为了四年的目标进行优化和信用分配(credit assignment),更可行的是,在提示中添加更广泛的目标和上下文。当你实际通过强化学习或RLHF改进系统时,不必等到某一研究项目结束后才决定它能否胜任,只需使用人类反馈作为奖励:“这个方向看起来不错,比我能想到的任何方向都要好”。
因此我认为,总体目标不是构建一个技术范围内尽可能强大的自动对齐研究员,而是构建一个可以大规模扩展的真正有价值的系统,最重要的是,我们相信该系统在足够对齐的情况下可以接手这些任务。
因此,如果在以上过程中引入低效性(inefficiency),这种训练方式实际上限制了模型的能力,我们可能会认为,“模型可以执行这些拆分任务,但如果我们对其进行端到端训练,它可能会拥有更强的能力”。
2
自动对齐研究员能做什么?
Daniel Filan:你们会先解决如何大致对齐人类水平的问题,随着模型变得更智能,会出现额外的问题,系统就会开始解决这些问题?
Jan Leike:基本上是这样。一个真正解决超级智能对齐问题的方案,看起来会与今天所做的工作有很大差异。目前,ChatGPT的对齐方式主要是通过强化学习从人类反馈中进行训练,但这种方法无法扩展已经是一种广泛共识,我也认同这一说法,因为它从根本上假设了人类真正理解系统的详细运行方式。
如果系统进行了大量对齐研究,涉及数百万个虚拟人类的任务,那么你不可能看到其中的所有细节和详细反馈。但我们目前正在研究的技术,旨在通过对这些步骤进行扩展,并对齐一个大致与人类水平相当的对齐研究员,让它完成这些困难任务,但不会表现出与人类截然不同的方式,其中,可扩展监督就是从人类强化反馈中得出的方式。
我会将可扩展监督定义为一组想法和技术,它允许我们利用AI来辅助人类对困难任务进行评估。典型的可扩展监督的例子包括辩论、递归奖励建模、迭代蒸馏。
如果我们真的要对齐超级智能,这个系统将远远超越人类智能,能够以更快的速度进行思考,并在更大的规模上运行,这将引入许多其他问题,尤其是它具有很强的通用性,可以执行许多任务,我们不仅要弄清楚如何在对齐研究任务这种较为狭隘的分布上进行对齐,还要处理其他对齐问题。
如果我们能够在其中引入一些形式化验证,将会非常令人兴奋。也许,我们可以找到一种具有理论保证的学习算法。不过,如果你投入大量的认知劳动来解决这个问题,我不确定这方面有什么可能性和理论可行性。
总之,所有这些方法都与我们目前或将要做的事大相径庭。我也不认为一个大致与人类水平相当的对齐研究员会立即着手解决那些问题。相反,我们希望研究员能够找出如何更好地对齐其下一代,从而使其在更强大的智能基础上解决这些问题,取得更多进展。因此,我们将逐步提升,最终实现一个能够进行开创性研究的系统,从而使我们有能力对齐超级智能。
Daniel Filan:OpenAI在几篇博文中提到了自我改进循环。首先,安全性与能力之间存在关联。你需要智能模型来解决对齐问题,但同时又不希望其发展过快。在《AGI及其未来规划》一文中有这样一句话,大意是“可能会出现能够加速其自身进展的足够智能的AGI,从而在短时间内出现出乎意料的重大变化。”文中还称,“我们认为,较慢的发展速度更容易实现安全性。”我想知道,如果我们制造了这个非常智能或与人类水平相当的对齐研究员,然后有效地将对齐团队的规模增加了10倍或100倍,是否会导致进入这种递归性自我改进的循环?
Jan Leike:是的,这必然会发生。如果要进行递归性自我改进循环,也必须大幅提升对齐能力。我个人认为,快速发展的可能性相当大,我们应该为其发生做好准备。即便它没有发生,我也会为此感到欣慰。
Daniel Filan:对齐能力什么时候会快速发展?
Jan Leike:我也不确定,但你可以将其与其他机器学习项目进行类比,比如AlphaGo、Dota或StarCraft,这些系统的性能每周都有很大的提升。关于具体发展情况肯定存在很多不确定性,但我认为,我们应该为这种可能性做好准备。如果真的快速发展,我们将拥有自动对齐研究员,它们可以在每周内完成相当于数千年的工作,这是人类难以企及的。
Daniel Filan:与人类水平相当的AI对齐研究员是否会威胁人类的工作?到时我们是否还需要人类超级对齐团队?
Jan Leike:这是个好问题。实际上,我很乐意被AI取代。从历史上看,通常是我们之前提到的情况:AI助手完成99%或99.9%的工作,我们只需处理剩下的工作即可。还有一点十分重要,即便在长期运行时,我们已经无法完全理解AI所做的一切,也要确保人类在某种程度上保持与AI系统的联系和控制。
因此,我们仍然需要一些人工来尝试理解AI正在努力实现的高级目标。这不一定是由OpenAI现在拥有的超级对齐团队来实现,可能需要与现在截然不同的技能组合。但我认为,无论如何,人类应始终保持某种程度的参与度。
3
如何让AI成为AI对齐研究员
Daniel Filan:能描述一下人类水平自动对齐研究员的具体实施计划吗?
Jan Leike:基本需要两部分的工作。第一部分是一个足够智能的系统,第二部分是与该系统对齐,让它实际去做对齐研究,这两部分是紧密相连的。
我并没有从事第一部分的工作,实现第一部分任务可能有很多不同方式,但基本类似于训练一个更大的模型,将其变得足够智能,那肯定会实现。第二部分才是我真正感兴趣的,问题是,现在拥有了这个足够智能的预训练模型,如何让它真正以你期望的方式进行对齐研究?或者更重要的,如何知道你能够信任它去完成这项任务?
如果你将这种任务交给AI,智能AI系统可能会尝试以某种方式向你展示结果和技术,以便你进行实施,但这实际上会增强该系统本身或某个相关系统,使其在未来拥有更多谋求权力的行为机会,例如自我渗泄露。
因此,首先我们需要对齐它,并充分利用其能力尽可能高质量地完成任务。我们需要多种对齐训练方法,还需要区分模型是否真正对齐了任务,并努力进行对齐研究,一个系统真正帮助我们并且诚实、追求真相,另一个系统则表面假装出前者的行为,但实际上想要控制世界或者(例如)进行自我泄露等。这是两个不同的系统,一个是真正的对齐,另一个是虚假的对齐。
一个重要的任务就是找出区分这两个系统的方法,这需要一系列验证技术。在某种意义上,这些方法并不直接用于训练AI系统,而是通过提供某种独立信号来判断“模型是这两个版本中的哪一个?”
举例来说,可解释性研究就是其中一种方法。如果我可以查看模型内部并找到一些证据,表明它在秘密策划对抗我们,它将无法通过验证测试。
另一种技术是,根据设置方式作为训练或验证的一部分,这是由易到难的泛化问题。如果你能理解并提高从我们可以监督的简单问题到难以监督的困难问题的模型泛化能力,就可以在简单的部分对模型进行监督,然后在困难的部分进行交叉验证,这样就不用担心模型可能在背后欺骗你或尝试做其他事。
Daniel Filan:如何实现可扩展监督?尤其当前我们对于什么是优秀的对齐研究缺乏共识的情况下,如何获得优质的对齐研究训练信号?
Jan Leike:缺乏共识的原因实际上证明,这个问题确实很难解决,同时也表明,这一领域仍处于不成熟阶段,迄今为止,我们还没有足够的实证证据。但我认为,对齐研究有一个非常重要的特性,我们可以利用它来实现可扩展监督,相较于对齐研究,评估对齐研究要容易得多。但这并不意味着评估是一件容易的事,但是相比完成对齐研究,先找到一篇有创意、实验设计优良并取得了理想结果的论文要容易得多。
因此,评估比生成更容易,利用这一原则是许多可扩展监督理念的核心。例如,如果考虑递归奖励建模,就相当于你有一种AI系统,可以作为助手帮助你评估其他AI系统。由于评估比生成更容易,助手需要完成的任务相对简单,尤其当你和它一起工作时,实际上是将助手对齐到更简单的评估助手任务上,如果成功完成这个任务,就可以使用人类/助手组合在更困难的任务上监督一个新系统。如果不断重复这一过程,就能在越来越广的任务范围内有效地监督AI系统。
Daniel Filan:所以,我们在AI对齐研究的评估部分逐步添加越来越多的AI知识,通过迭代,持续地为其提供优质的训练信号。
Jan Leike:具体来说,RLHF是最简单的方法,不需要使用任何助手。你的AI系统执行某项任务,人类观察结果并进行判断,这就是你的训练信号。
下一步是训练一个最简单的助理模型作为评价模型(critique model)。这个独立的语言模型会先审查第一个AI系统的结果,然后编写评论。人类一直不擅长发现代码中的错误,这也是为什么世界上会有那么多错误代码。但现在,评论系统能够写出评论并指出错误,人们发现这些错误就容易多了。我们可以轻松地意识到“这是个bug。我们应该修复它”。
代码通常是根据某些自然语言规范编写的,这些规范的真实含义可能有些模糊,对于某些问题是否为bug的界定可能也不明确。重要的是,将评论模型作为助手使用,可以扩大你能够监督的任务范围,因为你基本上可以找到AI系统会发现或评论的代码中的所有问题,尽管这不完全等同于模型能发现所有含bug的代码。
更棒的是,有很多实证方法可以衡量这种方法的有效性。其中一种方法,可参考我们去年发表的关于评价模型的论文,即进行有针对性的干扰随机对照实验。你可以选择一个编码任务(在论文中,我们并没有使用编码任务,任务的具体内容并不重要),然后,就会得到一个系统回应。这个回应不必完美,我们暂且假设它是完美的。接下来,你有意在回应中引入一些微小的bug或错误,使其成为一个不良的回应,但这些错误对于人类来说很难察觉。
Daniel Filan:怎样引入bug呢?
Jan Leike:最简单的方法就是让人类完成这个任务,但最终目标是用模型实现,后面会详细解释这一点。现在有一对回应:一个是原始回应,另一个是刻意让它变差的回应。接下来,你随机选择其中一个回应,并展示给人类,或是辅助使用AI的人,或者采用其他可扩展监督方法。然后观察他们发现问题的可能性有多大,也可以直接问他们“这里有错误吗?”通过这种方式,可以发现,如果有更好的辅助方法,人们发现错误的频率会有多高。
甚至可以更进一步,直接比较模型在识别问题方面的能力,可以训练模型成为一个判别器,区分好的版本和有缺陷的版本。通过测量其判别的准确率,就能得到判别器的性能。然后,我们再观察模型或RLHF版本模型能否写出有关代码缺陷的评论,这样就可以知道模型实际上对缺陷的了解程度。得到评论准确率后,可以比较这两个数值,这被称为判别器-评价器鸿沟(discriminator-critique gap)。
如果差值较大,意味着模型可能探测到很多问题,或者对这些问题有所了解,或者使用其他你想要的隐喻但没有告知。如果我们让它写一个评论,它不会表露这些问题。
”判别器-评价器”差距过大会导致令人担忧的后果,这意味着,你的可扩展监督机制在某种程度上存在很大的缺陷,有很多问题在你的监督下遗漏了,或者助手在某种意义上不够对齐,因为它并没有尽力帮助你。
如果“判别器-评价器”差距较小,这意味着,如果模型知道存在问题,会毫不犹豫地指出。假如一个大小相似或者相同的基础模型试图在你的代码中植入问题,或者试图插入难以发现的木马,如果运行了这段代码,木马可能会被触发,从而接管或执行其他操作。我们可以假设,如果模型自己植入了这些木马,它应该会知道存在这些潜在问题。因此,如果我们有另一个模型副本,并且测量得到一个较小的判别器-评价器差距,就会更有信心,因为根据合理推断,另一个模型的副本理应会写出评论。
假设判别器训练实际上可以从模型中剔除这种情况,我认为,有充分的理由相信,如果你为判别器进行微调,实际上可以通过同时微调所有的权重来访问模型中的所有激活。因此,如果知识确实存在于模型的激活中,如果你做得正确并且拥有足够的数据,通过对判别器进行微调,它应该能够提取出这些知识。
实际上,可以进行一些粗略的计算来确定需要的数据量。假设一个单独的神经元知道代码是否有问题,你只需要对总神经元数量取对数,就能缩小范围并找到它,所需的数据量并不多。
Daniel Filan:实际上,这涉及我对整个方案的一个疑问。我们之所以不推荐使用RLHF,是因为它可能无法区分正确的东西和看似对人类有好处的东西,因为人类在评价方面表现较差。
通过这种递归评价的方式,我们先训练一个判别器,再训练一个评价器模型。一种情况是,我们训练一个模型,让它写出真正好的评价,然后我们与它合作,训练一个能写出更优质评价的模型。但我担心,也许还存在另一种情况,我们训练了一个模型,不经意间让它写出了听起来不错的伪评价,然后我们与它合作,进一步提高我们对听起来不错的评价的判别能力。接下来,我们训练这个判别器,用来区分哪些代码没有问题,哪些代码有问题。我们更应该担心的是那些看起来没问题的代码。
Jan Leike:这个担忧非常重要且合理。某种程度来说,这是我们需要在可扩展监督方面解决的关键问题之一,也是我对实现这些技术并进行实证验证感到兴奋的原因,因为我们将能够量化这种效果在实践中的表现程度。
我们可以采取一个具体而简单的方法进行测量,即有意训练一个具有欺骗性的对齐模型,然后观察可扩展监督能否标识出它,或者我们需要付出多大的努力,才能使这个模型具有欺骗性对齐,从而通过可扩展监督。
Daniel Filan:还可以进行一些三明治集成实验,让人工智能回答法律问题。一部分人对法律知之甚少,然后再找一些非常擅长法律的人,希望他们检查AI能否成功愚弄前一部分人。
Jan Leike:是的。这些实验非常有趣且部分实验已经展开,不过这一设置存在一些根本性问题。
首先,你必须真正信任你的专家,但专家有时也会犯错。其次,你必须有充分的领域重叠。我们在这方面进行了一些初步实验,让非编程人员使用辅助工具寻找代码中的问题,但他们甚至不知道如何提出正确的问题。
另一个问题是,对于我真正感兴趣的任务,根本没有真实数据(ground truth)。我们现在进行的对齐研究,可能会“让一些对齐研究人员来标记一些任务。” 但是又会想,“如果他们出错怎么办?我们在很多事情上都无法达成一致,这似乎很困难。” 而且,这样的专家也不多,他们的时间非常宝贵,所以这将会是非常昂贵的数据。
总而言之,我希望有一种不依赖于真实数据的评估方法。这就是为什么我对随机对照试验和有针对性的扰动或判别器-评价器鸿沟的前景感到兴奋。因为即使没有任何真实数据,也可以做到这一点,而且可以选择任意难度的任务。
4
寻找模型的不良行为和内部机制
Daniel Filan:那篇超级对齐的文章中称要寻找不良行为和不良内部机制,这方面有哪些超级对齐团队能够解决的问题?
Jan Leike:首先是可解释性问题。在某种意义上,可解释性难以实现。而且我认为,目前在语言模型上并没有真正能证明可解释性带来了很多洞察或增添了很多价值,对这些模型以及内部机制的理解还相当初级。
Daniel Filan:但人们确实对语言模型进行了一些可解释性研究,比如归纳头(induction heads)等等。
Jan Leike:抱歉,我并不是要贬低现有的研究成果……已经有产生了许多令人兴奋的成果,但最令人振奋的是,使用可解释性技术分析像GPT-4这样规模的语言模型的奖励模型,得出一些我们之前不知道的关于奖励模型的信息。奖励模型为许多RLHF训练过程提供了训练信号,因此更好地理解它具有极高的价值。如果你能够标记或找出它激励产生的行为问题,而这些行为是你不希望出现的,那将非常棒。
我认为这是可行的,而且重要的是,可解释性既非必要也非充分条件。我们有很大的机会通过行为来解决对齐问题,无需真正理解模型的内部运作。同时,即使解决了可解释性问题,但并没有一个确切的策略来解决超级智能的对齐问题,但从可解释性中获得的任何见解都将具有巨大的潜在价值,它将为我们提供一种突破口。
同时,这也是可解释性如此难以实现的原因。因为模型正在学习如何进行高效计算,它并没有被正则化为人类可理解的形式,也没有理由相信每个神经元应该对应于任何与人类思维相关或熟悉的东西。实际上,根据实证数据,神经网络使用单个神经元来表示许多不同的概念,并且每个概念分布在不同的神经元之间。因此,在这种情况下,神经元并不是真正重要的因素。
对于可解释性,我有两个感兴趣的方面。一是因果关系。你不仅希望在数据通过模型时查看一个神经元并说,“当我们有关于加拿大的故事时,这个神经元会被激活”,或者其他类似的情况。这是我们在可解释性论文中的发现之一。我们发现一个‘加拿大’神经元,它会在出现与加拿大相关的概念时被激活。但这仅仅是相关性,而非因果性。
为了验证是否存在因果关系,你需要有意地编写一些包含加拿大相关概念的文本,观察它们是否都会激活该神经元。同时,你还需要添加其他相关概念,这些概念可能听起来与加拿大有关联,或者与加拿大无关但相似。然后,观察该神经元是否不会被激活。或者你可以拿一段文本,对其进行编辑,然后观察神经元是否关闭。
Daniel Filan:这让我想起一篇论文,我记得它被称为“可解释性幻觉”,文中提到,可能有一些神经元对某一特定事物进行激活,但是在其他数据集上,那只是一种幻觉,神经元会因为许多其他事物被激活。
Jan Leike:另一件非常兴奋的事是,今年早些时候发表的一篇关于自动化解释性的论文,基本思路是,有一种技术既可以在个别神经元的微观层面上运行,确保不会遗漏任何细节,同时又可以在宏观的整个模型上运行。
归根结底,模型中的所有组件之间相互作用、高度相关,所以你需要兼顾两者。到目前为止,技术大多局限于其中的一个方面。之前已经有过自动化解释性的相关研究,但我认为,总体而言,如果你能够进行一些非常注重细节的可解释性工作,采用一种机械性的可解释性方法,真正尝试理解模型内部的个别电路或计算单元,那么将这种方法推广到整个模型的规模上,就需要自动化的帮助。
这篇论文中进行了详细解释,实际上是为个别神经元编写自然语言解释,尽管这不是完全正确的解释方式,但提供了一个简单的例子,展示了我们在这方面取得的成果。其工作原理是:你只需向GPT-4展示一系列激活模式,然后让GPT-4给出一个建议性的解释。
总的来说,这些解释的质量欠佳,因为该任务难度较大,大多数神经元并不会完成非常明确的、人类可理解的任务。但我们可以对GPT-2中的每个神经元运行这个过程,然后将所有解释都保存下来,尝试找到有趣的模式。你可以查看扩展趋势(scaling trend),比如“随着模型变得更大,自动评分这些解释的扩展性如何?”或者“如果我们增加计算资源,让进行解释的模型变得更大,解释质量会如何变化?”
最让人兴奋的是,我们可以再次使用语言模型进行自动测量。虽然这不是一个完美的指标,而且存在一些问题,但它为我们提供了一个“人类是否认为这个解释很好”的近似值。然后,我们将这个近似值应用到整个模型上,在大量的神经元运行。
Daniel Filan:如果考虑必要的可解释性工作,你认为,其中有多少是在寻找更好的基本解释单元,有多少是在解决扩展问题等?
Jan Leike:两者都是必要的,找到基本的解释单元可能更具挑战性,但扩展部分对于成功至关重要。
5
语言大模型是否能理解对齐
Daniel Filan:我猜测,关于超级对齐,我们没有清晰的规范。如果有规范,就不会存在对齐问题,我们只需告诉模型“我写了个Python伪代码,把神经网络做得更大一点”,但因为没有这个规范,所以我们无法对齐文本,我们只能告诉模型,让它们友好一些,不要伤害人类。有人认为,我们能从语言模型内部找到答案,你怎么看?
Jan Leike:这种观点有一定的道理,但实际上我不确定规范的重要性。一定程度上,如果我们用自己说过的话来预训练模型,模型也无法真正了解我们的想法,因为我们还有很多没有写出来的想法。但总体而言,模型在实践中可以相当准确地预测人们在各种情况、事件或场景中的言论。从这个意义上说,对以后的模型来说,了解这个世界、判断人们对自己的态度不会是一件难事。
Daniel Filan:也就是说,如果我是超级智能,即使我头脑中并没有确定的规则,我也知道自己应该做什么。
Jan Leike:我的意思是,模型会发展得足够智能,它将能够猜测人们对事件的看法。我认为,我们所面临的阻碍并不是AI系统不理解人类真正关心的内容,并且,模型在这方面不太可能出错,因为模型十分智能且强大,几乎了解世界上所有的事。真正的挑战不是教会语言模型做事,而是真正让语言模型去做事。
Daniel Filan:是的。模型知道我们的某个目标,而我们要做的是让模型付出实际行动,以实现这个目标。
Jan Leike:可以把模型类比为具有反社会人格的人,他们具有很强的能力,且知道该做什么,不该做什么,但这些人就是会反着来,这是非常可怕的。
6
超级对齐团队的四年之期
Daniel Filan:在超级对齐的那篇博文中提道,你们的目标是在接下来的四年内解决超级智能对齐的核心技术挑战。这里的核心技术挑战是什么?
Jan Leike:这涉及到一般的技术手段,即如何将超级智能与一组人类价值观对齐。我们设想的超级智能是一个远远优于人类智能的系统,它能够以更快的速度执行任务,可以进行大量并行计算,并且与自身的多个复制体通力合作,是一个真正强大的系统。
之所以以四年为期,是因为我们希望设定一个雄心勃勃的目标,同时又是一个在现实中可行的时间范围,即便AI的进展非常迅速,技术在未来几年内得到显著提升,那时我们仍然可以交付一些实际成果。
Daniel Filan:明白。这不仅是在构建人类水平的AI自动对齐研究员,并且还试图利用这一方法来对齐比人类智能得多的系统。
Jan Leike:没错。实际上,我们构建人类水平自动对齐研究员不仅仅是为了构建一个能够与人类水平对齐的AI,更重要的是,通过这一步骤来解决如何对齐比人类更聪明的超级智能的技术问题。我们目前还不知道如何实现超级智能的对齐,因此,正在构建一个可以帮助我们研究和解决这个问题的自动对齐研究员。
Daniel Filan:从现在算起,你们想在四年内解决这些核心技术挑战,那么与此目标相匹配,你们预计两年后将达到何种程度?
Jan Leike:我认为,在三年后我们应该具备了相关技术能力,完成了大部分自动对齐研究。如果在那时还不具备相关能力,则可能需要延长项目时间,四年是最理想的状态。
希望两年后,我们能够对实际用于对齐自动对齐研究员的技术有清晰了解,比如是否掌握了一系列技术手段?如果应用这些技术,我们能否拥有一个可信赖且可大量使用的系统并大量分配工作?希望在那时我们已经将问题分解得足够明确,目前大部分工作都仅限于工程层面,这意味着,我们还有大约两年时间来解决与其相关的研究问题。
这是我们设定的四年目标时间线,显然,这与AI能力的进展之间存在着非常重要的关联。如果AI进展放缓,我们可能就难以拥有真正擅长有用的对齐研究任务的模型了。我们尝试过用GPT-4来做对齐任务,但效果并不理想,GPT-4还不够智能。如果四年后还没有出现足够智能的模型,那么我们将花更多时间来解决这些问题。
另一方面,如果AI发展速度加快,那么留给我们解决问题的时间可能不足四年,超级智能也许会快速出现,我们必须相应地调整计划。因此,四年既可以确保计划的可行性,还可以保证问题解决的时效性。
Daniel Filan:假设在AI能力研究方面的情况如预期发展。四年后,你们具备了构建良好的自动对齐研究员所需的能力,但结果证明可解释性或者可扩展监督机制比我们想象的更加困难,那时该怎么办?
Jan Leike:如果无法实现目标,我们必须向公众坦白。但我们能否达成目标很大程度上取决于世界的整体发展状况,例如能否获得更多时间?整体方法是否有误?是否需要转变方向?在这一过程中可能发生很多意外。
Daniel Filan:简而言之,如果计划有变,你们会将进展向大众公布并寻求下一个发力点。
Jan Leike:对齐问题实际上具有很强的可操作性。针对这个问题,我们有很多好的应对方法,只需严格执行并测量结果,就能真正学习并取得进展。在过去的两年里,我对这个问题越来越乐观。即使最终证明对齐确实比我们想象的更难,我们的研究也仍然价值非凡,可以获得更多与对齐相关的证据。现在人们对对齐的难度看法各异,在这种情况下,这些证据显得更为重要。另外,或许了解和测量系统在实践中的对齐程度才是更重要的事。
我最担心的不是系统的对齐程度不够高,而是我们不知道它的对齐程度有多高。这种情况下,不同的专家可能有不同的意见,如果人人都认为系统没有足够的对齐度,它就不会被部署。
上述问题还只是一个小的方面,更糟糕的是:你已经有了一个强大的系统,这个系统可能还不错,并且可能是对齐的,但你并不确定。这时有一些专家仍然非常担心,在这种情况下,就算能够马上部署,我们可能也会放弃。另外,部署这个系统还面临着巨大的商业压力,部分人认为系统可能是对齐的,但不够确定,而同时又存在强大的商业利益驱动。面对这种情况,做出正确的决策就非常困难。
Daniel Filan:系统地部署也存在压力。
Jan Leike:没错。面对商业压力,可能出现这样的情况:你对系统是否对齐有一定的把握,但并非完全确定,然后你可能会推迟部署,但推迟的时间越久,商业压力就会越大。因此,我们可以通过精确测量系统的对齐程度来避免上述问题。这正是更广泛的技术组合的用武之处。
7
模型的泛化
Daniel Filan:OpenAI在一篇博客文章的脚注中提到:人们迄今为止所做的有利假设可能会失效。其中一条假设认为泛化是良性的,那么你们对泛化问题有何不同看法?
Jan Leike:最近我们成立了一个泛化团队。目前的问题是,我们该如何在人类评估和监督的基础上,理解和提升模型能力,让它从易于监督的任务泛化到难以监督的任务。具体来说,泛化与可扩展监督相辅相成,可扩展监督是对人类评估的补充。如果考虑递归奖励建模,你会思考,“我们是否可以用经过递归评价的AI助手去递归评价AI所做的每一件事?”这样能将人类真正纳入循环、前沿和中心,以观察AI系统做所的一切。
当然,在实践中我们无法做到观察AI的一切行为,因为AI系统所做的事情太多了,但我们可以以某种小的独立概率来观察这一切。此外我们还面临着一个问题:模型可能泛化到未被监督的地方。对于这个问题,我的做法是:确保大部分泛化是独立同分布(IID)泛化,即你关注的任务与未关注的任务遵循相同的分布。
Daniel Filan:你们之前的博文称,绝对不会依赖泛化,而是会继续训练模型,保持独立同分布。
Jan Leike:是的,这是我最初的想法,我不希望依赖非独立同分布泛化,在神经网络中,非独立同分布泛化的效果并不好,在理解方面有所欠缺。但现在的问题是,如果我们真的理解泛化,真的找到了泛化的意义,会怎么样呢?这是一个很有价值的问题,Ilya也多次提到这个问题。
我们想要理解的是,即使在没有监督的任务中,即便这些任务不是独立同分布的,我们能否找到模型泛化能力的意义?模型的泛化是否遵从了人们的意愿?模型是否以看起来对人们有好处但实际上没有好处的方式进行了泛化?对此,我们可以通过实验进行实证研究。
我们一直在尝试将现有的数据集分为简单和复杂两种,其中简单问题是小型模型能够正确解答的问题。然后,我们试图理解或提高大型模型在整个数据集上的准确性。这是一个非常有趣的课题,它为训练和验证技术提供了全新支柱。假设能够非常好地解决这个问题,我们现在可以在一些易于评估的简单任务上对奖励模型进行监督,或者将模型泛化到更复杂的问题上,那么我们就能泛化模型。
然后,我们就有了这个即使没有对其进行监督,也能以我们所期望的方式泛化到更难任务的奖励模型,还可以利用这个模型进行训练。然而,这仍然面临一个问题,即我们不知道模型是否已经对齐,不过可以利用可扩展监督和可解释性等技术进行验证,或者反过来,假设我们通过可扩展监督训练了自动对齐研究员,并且使用了泛化来进行验证,即根据模型的最佳知识泛化出真实回答的概率。
然后,我们提出一个问题,比如在这段代码中是否存在一些小缺陷?是否存在用可扩展监督方式对齐的模型编写的木马?现在,我们可以进行高级交叉验证,训练两个不同的模型,一个模型使用泛化技术训练,另一个模型使用可扩展监督训练。我们可以交叉核对模型答案,查看它们是否是一样的模型,或者说它们是否有本质上的区别?如果有,有哪些重大差异?
Daniel Filan:最近Scott Aaronson在我们的播客中提到,每当他和Ilya Sutskever交谈时,Ilya总是问他关于爱和善的理论定义。你们团队如何看待这个问题?
Jan Leike:我们可能会尝试很多不同的探索性项目。按Ilya的话来说,最终的问题是我们该如何召唤(summon)与对齐相关的概念?其中一个我们想要召唤的概念是:模型是否从根本上希望人类成功?或者用Ilya的话来说,它是否热爱人类?
因此,如果模型非常智能,已经读过所有东西,完全了解了人类对于不道德行为的想法,那么你可以请求GPT-4从不同的哲学观点、不同的情景中给出不同的道德案例,在这方面,它通常都做得很不错。所以GPT-4从根本上理解了人们对于道德的定义以及我们思考的方式。那么如何利用它呢?我认为这是问题的核心所在。
8
与其他对齐实验室的不同
Daniel Filan:OpenAI好像本来就有一个对齐团队,这个团队现在还在吗?你如何看待超级对齐团队与OpenAI的关系?
Jan Leike:这个对齐团队去年还在,当时团队由两部分组成,分别是实用对齐(practical alignment)和可扩展对齐(scalable alignment)。实用对齐的任务是对齐OpenAI能力最强的模型,所以该团队主要关注于对齐GPT-4;可扩展对齐团队的目标是解决我们尚未面临的对齐问题。随着ChatGPT的发布和成功,需要大量工作来改进ChatGPT的RLHF、提高模型质量,使其成为真正出色的产品,但对齐团队无法完成这些任务。
因此,实用对齐团队的工作都移交给了OpenAI的其他团队,并且已经发展为规模数百人的大项目。可扩展对齐则演变为如今的超级对齐团队。我们想要强调目前正在努力对齐超级智能,所以选择了这个名字。我们正在研究还未遇到的问题,进行一些前瞻性工作。这并不代表其他工作不重要,只是目前我们主要关注的是对齐问题。
Daniel Filan:世界上还有其他非常优秀的AI研究实验室,它们也在做超级智能对齐的相关工作。与这些实验室相比,超级对齐团队有何不同?
Jan Leike:很多实验室都在进行相关工作,尤其像DeepMind和Anthropic等。在某种程度上,我们都试图解决同一个问题,所以自然会做可解释性和可扩展监督之类的工作。
在一定程度上,我们面临着做重复工作的风险,为避免这种情况,不同实验室之间最好相互协作。另一方面,不同实验室进行类似的研究也有好处,可以避免群体思维。如果每个实验室都试图靠自己解决这些问题,人们自然会更怀疑其他实验室的成果。最后,这种情况可能造成 “非此即彼”现象,也就是说除了自己实验室的成果,人们不愿意使用其他实验室的技术,因为人们总有一种先入为主的偏见,觉得其他人的东西不好。
目前,我们还不知道如何平衡上述情况。也许我们应该将所有对齐人员聚集起来,让他们一起协同工作。但现实情况是,各个尖端AI实验室受投资驱动,纷纷专注于研究对齐问题。RLHF的成功使得模型具有了更高的商业价值,导致人们将目光转向了更具商业价值的技术,这类技术很快吸引了大量投资。如果AI实验室是研究的主要资助者,那么实验室就能摆脱资本的影响,对齐研究自然就会在这些地方进行。
Daniel Filan:在研究议程等方面, 超级对齐团队有何独特之处?
Jan Leike:超级对齐团队专注于对齐自动对齐研究员,而不是对齐特定任务。我们不太担心由此产生的成本问题。其他实验室似乎没有以这种方式强调这一目标或方向。我们积极尝试各种可扩展的对齐技术,并寻找方法来进行实证比较。其他实验室可能对特定的可扩展监督技术非常乐观,并努力促成其实现,我们团队在可解释性方面采取自动化的方法,其他实验室可能并没有特别强调这一点,我们倾向于在这一领域进行大量尝试。
我们团队认为,可以利用计算能力来强化对齐,这是主要策略之一。特别是在可扩展监督方面,希望弄清如何提高监督信号的质量。我们关注的是,如何运用更多的计算资源来强化监督信号,对评价模型进行计算上的改进可能是一种方法,这样一来,通过耗费更多的计算资源,会得到更好的评价。
然而,问题的关键是,还有哪些其他方法?如何运用更多计算资源来强化监督信号的效果?自动可解释性是一种可行的方式,只需投入大量计算资源就可推进可解释性问题的进展。目前我们的做法还不完全正确,但总体上,如果能使自动可解释性生效,那将带来巨大价值,这也正是自动可解释性的吸引力所在。
显然,做自动对齐研究时,我们只需投入更多计算资源,就能获得更好的对齐效果。但我们真正想做的是将算力转化为对齐效果,于是我们得出了这样一个结论:我们需要大量算力。这也是OpenAI承诺将20%的计算资源用于自动对齐研究,这可能是迄今为止对齐领域的最大投资,甚至可能超过所有其他投资的总和。如果我们将这个比例设定得更大,人们就会怀疑OpenAI是否真能实现这一目标?因为OpenAI仍然想要开发前沿模型以及预训练最先进的AI系统,这将需要大量算力。
如果我们确实成功研究出自动对齐研究员,并且结果显示需要更多算力来运行它。这意味着,通过将算力转化为对齐效果的策略也许能够成功,这一策略也会得到OpenAI的支持。
Daniel Filan:就团队人数而言,你们最多能达到多少人呢?
Jan Leike:目前团队大约有20人,年底可能会增加到30人左右。四年内,团队规模不太可能超过一百人。然而,团队规模的扩展并不单纯通过增加实际人员数量,还通过虚线参与人员的方式。因此,团队规模会实现大规模扩展。
9
为何看好自动对齐研究员
Daniel Filan:有人担心对齐人类水平的对齐研究员会非常困难,需要进行相当复杂的思考。为什么你对此如此乐观?
Jan Leike:这是个很好的问题。相比“计划能否成功”,“计划能否在四年内成功”是一个更为复杂的问题。如果你问我,我们当前的计划是否能成功对齐超级智能,我会说,有85%的可能,而在去年计划的可能性大约为60%。我对此持乐观态度的理由有很多,即使对齐并不容易,这些理由也依然成立。
那么我为何如此乐观呢?理由如下:从过去几年来看,对齐研究员的发展情况相当喜人,至少对我来说,AI领域出现了一些符合预期的更新。首先是语言模型的成功,如果我们预先为模型装载人类关心的事物,比如我们的道德选择、认知偏好等,并且模型能够理解自然语言,我们就可以直接与模型交流。
从某种程度上说,与在游戏或虚拟环境中训练的深度强化学习智能体相比,与语言模型沟通,表达我们希望语言模型对齐的内容要容易得多,相比语言模型,深度强化学习智能体涉及的语言可能不足,而语言与很多重要的技能相关。
另一个重要的更新是RLHF的良好运行。最初研究RLHF时,我认为,可能难以在合理时间内使其发挥作用,因为当时GAN(生成对抗网络)很难训练,而我们在某种程度上正在做一些非常类似的事情,我们训练了这个奖励模型,然后用它来训练另一个网络,但训练可能因各种原因失败。
现在,我们在这个过程中加入了当时觉得很棘手的深度强化学习。那时,我认为RLHF可能会失败,但实际上它运行得非常好,在许多游戏中,甚至在大部分Atari游戏中,RLHF几乎能与在评分函数(score function)上训练的模型相媲美。
更重要的是,RLHF在语言模型上的表现非常有趣,尤其是考虑到InstructGPT和从中进行微调的基础模型之间的区别相当明显,微调后的版本在API任务上的表现超过基础模型100倍,而这些才是人们愿意为之付费的任务。这是一个非常大的差异,这表明,RLHF的微调极大地提升了模型处理人们需求的效率。
同时,我们在RLHF方面投入的算力非常少,我没有收集到足够多的数据。可以说,这是我们首次尝试使用RLHF来对齐真正的系统,它能如此良好地运行确实很让人惊讶。InstructGPT的效率非常高。
虽然我不认为RLHF是对齐的解决方案,尤其是对于超级智能来说,但这是第一个我们真正认真尝试的对齐方法,它运行得如此出色。这至少意味着,对齐比我们想象的容易。
我对自动对齐研究员持乐观态度的第二个原因是:现阶段我们已经可以衡量对齐研究的进展。尤其对于RLHF,我们有各种干预手段,可以进行人类评估,查看系统改进情况。在许多其他方面比如可扩展监督也是如此,我们可以进行有针对性干扰的随机对照试验,另外,我们还可以改变一些条件,利用自动评分函数,查看这些改变所带来的提升。这个评分函数并不完美,它只是一个能够给出局部提升坡度的局部指标,但对研究进展的衡量非常重要,它可以帮助我们设定迭代目标,提供改进方向。
到目前为止,我不认为我们能够实现对齐超级智能的目标,但我们有很大可能构建出人类水平的自动对齐研究员。相比对齐超级智能,构建人类水平的自动对齐研究员是一个相对温和可行的目标,这也是我对此持乐观态度的第三个原因。
多年前,刚开始从事对齐研究工作时,我就知道对齐超级智能非常难。相比而言,自动对齐研究员的可行性非常高。面对一个非常难的目标,我们可以转换思路,与其死磕整体目标,不如将目标分解为更为具体可行的小目标。
第四个原因是,评估任务比生成任务更容易。这适用于很多情况,就拿手机来说,评估一部手机的好坏比生产手机要容易得多。计算机科学中有很多NP问题(Non-deterministic Polynomial),比如SAT求解或不同版本的约束满足问题,对于这些问题我们不确定能否在多项式时间内找到答案,但可以在多项式时间内验证答案是否正确。我认为,NP问题也适用于很多商业活动,比如雇佣某个人来解决某个问题,我们需要对这个人的工作能力进行评估,而后者的工作量要远低于前者;这种情况同样也适用于学术研究领域,在学术研究领域同行评审所需的工作量要比进行研究的工作量要小得多。在我看来,对齐研究也是如此。
最后一个原因是,我对语言模型的发展信心十足。语言模型有很大的发展潜力,它们会变得极为出色,它们非常适用于多数与对齐研究相关的任务,我们可以将这些任务形式化为文本输入和输出。无论是机器学习类任务(比如运行实验并理解结果),还是更具概念性或研究价值的任务,如果我们在处理这些任务时遇到困难,比如不知道下一步该做什么,或者不知道该如何理解某个问题时,模型会尝试帮助我们解决该问题。基本所有这些任务都是文本输入和输出类任务,其中最复杂的任务可能就是查看图表等内容,但这些任务GPT-4就能解决。因此,当前的语言模型预训练范式非常适合进行对齐计划以及超级对齐研究工作。
Daniel Filan:我对语言模型的实用性有点怀疑,语言模型确实很擅长建模文本,并基于文本生成评分很高的答案。但就语言模型对于对齐的作用而言,它并不是以目标为导向的,你怎么看?
Jan Leike:是的,至少初步看来,模型预训练更像是在互联网随机文本上,按照“预测下一个词元”这一狭隘目标所进行的训练,这一目标无法发展为长期目标,虽然长期目标可能会以某种方式出现,但先验上看,“预测下一个词元”只能是短期目标。
Daniel Filan:人们生成文本时需要有长期目标。那么如果用一些论文对模型进行训练,通常人们写论文是为了推进研究项目,或促进自己的职业发展。如果我们用这些具有长期目标的内容建模,也许就能得到长期目标。
Jan Leike:这可以解释为什么“预测下一个词元”有时会出现长期目标。我认为,主要问题是构建追求长期目标的智能体,构建实现这些目标的方式,公众对此的反应,以及可能生成的结果等种种因素共同让预测下一次词元成为了一个非常难的函数。而预训练通过激励措施先找到最简单的函数,归纳头表示法就是一个很好的例子,它是一个简单的诱导机制,在训练较小的模型时被发现。
Daniel Filan:我认为,语言模型的预测机制就是在预测下一个词时查看上一个词是否在上文出现过,如果是,就查看它的下一个词是什么。这种机制非常简单。
Jan Leike:没错。我们会在这个简单机制的基础上构建更复杂的机制。因为我们要改进预训练损失,所以会预先学习能带给我们最大帮助的最简单函数。因此,在学习建模具有长期目标的智能体这种非常复杂的函数之前,我们会学习许多其他函数。
我预计,“预测下一个单词”函数可能会是我们学习的最后几个函数之一,它非常复杂,而模型的层是有限的,所以单次前向传递过程中能做的事情是有限的。
试用OneFlow: github.com/Oneflow-Inc/oneflow/
本文分享自微信公众号 - OneFlow(OneFlowTechnology)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。