安全负责人:在超级「毁灭」人类之前,我们可以做这些准备
机器之心报道
机器之心编辑部
2023年,Anthropic发布了负责任扩展策略(ResponsibleScalingPolicy,RSP),这是一系列技术和组织协议,Anthropic将采用这些协议来帮助他们管理开发功能日益强大的AI系统。
Anthropic认为,AI模型一方面变得越来越强大,创造巨大的经济和社会价值,另一方面也带来了严重的风险。RSP将专注于灾难性风险——即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型(例如恐怖分子用它来制造生物武器),也可能来自模型以违背其设计者意图的方式自主行动而造成破坏。
RSP还定义了一个称为AI安全等级(ASL,AISafetyLevels)的框架,ASL等级越高,其安全性证明就越严格。
一直以来,Anthropic在为AI安全做着各种努力,「要做哪些技术工作才能使非常强大的人工智能的开发顺利进行?」近日,Anthropic安全研究部门的负责人SamBowman在一篇博客中分享了他的观点。
对于这篇博客,机器之心做了不改变原义的翻译与整理。
在开始讨论超级人工智能的风险之前,我有一些前提需要声明:
人工智能有望达到与人类相当的水平。这个阶段,我称之为变革性人工智能(TAI)
。TAI将有能力在所有适合远程工作的职业中替代人类,包括AI研发。
TAI并不是人工智能能力的上限,未来可能会出现远超人类能力的系统,它们将对世界产生深远影响。在未来十年内,我们很有可能见证TAI的诞生,而那时的商业、政策和文化背景预计与当前相比不会有太大变化。
TAI一旦实现,它将极大地加速人工智能的研发进程,可能在TAI出现后的几个月或几年内,我们就能看到远超人类能力的系统被开发出来。
如果部署不当,超级人工智能系统可能会极具破坏性。它可能带来新风险,也可能使现有矛盾变得更加尖锐,比如武器滥用,以及破坏道路监控或网络安全等。
想要让TAI以及更强大的AI系统在现实世界中「三观正常」地正确行事,这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致,即所谓的「对齐」,需要我们投入巨大的努力。而且随着AI系统的能力越来越强,这一任务也变得更加艰巨。
我将从三个阶段展开。
第一阶段:准备
此时,AI还未进阶成TAI,以Anthropic的RSP评级(风险敏感性评估)来看,他们处于安全等级2(ASL-2)、ASL-3,或者可能是ASL-4的早期阶段。我们大部分的干预和准备工作将在这一时期进行,为尚未完全出现的高风险问题做准备。
密切关注技术前沿
AI有多安全,很大程度上取决于我们的工作能力,而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源,或者在关键的预训练阶段出现重大失误,或者错过了带来变革的范式转变(哪怕是方法中的一些小改进),我们就会丧失大量做贡献的机会。而负责AI安全工作,需要遵守严格的规定和限制。因此,持续跟进新技术,是在此阶段的首要任务。
在初始阶段基本解决TAI的对齐微调问题
当AI系统已经智能到可以自主做研究,特别是AI安全研究时,我们需要寻找一种方法,让AI系统在帮助我们完成大量工作的同时,避免出现偏差。同时,我们必须确保AI的能力至少与人类专家相当,甚至更优,安全负责人:在超级「毁灭」人类之前,我们可以做这些准备以确保它们能有效地协助我们。
此时,AI并不需要完全「对齐」——我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给AI。同时,我们也有信心能在AI的对齐问题演变成全球性灾难之前,及时发现并纠正。
我们的目标是构建高效且通用的AI系统。构建能完全「对齐」的AI助理,仅供公司内部使用,并进行严格的专家监控,这种方法可行,但问题是,有过多限制或需要专家持续监督的AI系统很难大规模推广,这样一来,Anthropic的业务也难以持续发展。
在我看来,解决问题的关键在于可拓展的监督
,这要求我们训练出能胜任完成复杂的开放式任务的负责任的AI智能体。为此,需要解决的主要挑战包括:「Rewardhacking」、应对人类注意力的有限性,以及识别和抵御各种欺诈行为。
确保初始形态的TAI安全无害
如果「对齐」问题能完美解决,我们只需下达命令,模型就能不做坏事。但这似乎不可能做到。因此,我们必须构建额外的防御措施,比如对模型输出自动进行监控、抽查、红队测试,压力测试等。
苹果给AppleIntelligence下达的系统提示词:「不要产生幻觉!」
我们还特意构建了「邪恶」的未对齐版本,试图来攻击我们的安全系统,这和传统的「对齐」工作一样重要。
在长远来看,由于现有方法依赖于精确、召回率极高的内容分类器,这阶段的主要挑战是围绕对抗性鲁棒性的一系列机器学习问题。
对于有多款变体的模型家族,我们也可以综合考虑,而不是逐个击破。这种方法不仅有助于识别在初步安全规划阶段可能未被察觉的风险,还能有效防御那些在单一数据样本中不明显,却可能在多样本模式分析中暴露的系统性风险,例如潜在的滥用或错位问题。
制定合适的RSP(负责任扩展策略)
什么是一个合格的RSP?可以参考LeCun提出的测试:即使是完全不重视AI安全问题的敌方公司,也能放心使用。一份好的RSP能研究人员操作安全,一旦出现意外也能显而易见且可追责。
这个标准与其他领域的标准和类似。例如,如果一个组织希望避免受到网络上的攻击。尽管他们心存疑虑,但只要遵循SOC2等通用网络安全标准,他们可以获得真正意义上的保护。
关键挑战是预测哪些风险足够重要,值得纳入其中。到目前为止,我们在威胁建模中反复出现的一个具体未解决的问题是,ASL-3和ASL-4的风险在多大程度上是通过直接滥用、错位或通过双重用途研发等渠道而流动的。
ASL-4的评估和部署案例
ASL-4涵盖了近乎人类水平的自主性和可能灾难性的直接滥用风险,我们没有提前制定详细的标准。相反,我们将致力于整理一个安全案例——一份提供系统在某些情况下是安全的证据的报告——并制定安全案例需要满足的高级标准才能获得批准。许多技术安全工作最终将通过纳入这些安全案例产生影响,这些安全案例是我们在到达ASL-4之前的关键目标。
Anthropic把宝押在对可解释性的深入研究,希望它能够成为AI系统安全的证据来源。
对于大多数部署的安全案例(即任何可能用于高风险任务的模型部署),都需要包含证据表明我们的安全措施具有很高的稳健性。也就是说,应该清楚的是,无论是模型还是它的监测系统,都不会在罕见但重要的输入上以令人惊讶的方式失败
除非可解释性出现不太可能的最佳结果,否则我们预计一个强有力的安全案例将需要依靠基于其他方法的额外新发现。这些新发现应当能让我们定量评估模型的安全性,预测它们可能带来的风险。
保护算法的秘密
如果我们的研究能力远远领先于该领域的平均水平,那么保护该研究的关键发现对于公司保持领先地位将非常重要。这与不公布模型权重有本质不同,保护起来也要困难得多:因为这些发现通常可以用几句话或几段话来表达,离职的员工很自然地就能记住。因此保护算法秘密至关重要。
为ASL-4和ASL-5建立清晰的评估
一旦达到ASL-3级别,安全评估就变得更难了。在ASL-4或ASL-5级别下部署预防措施,时间和金钱成本可能会空前高昂,过早启动评估和过晚启动高风险等级都会产生巨大成本。
这些评估分级应该既清晰又容易理解。如果我们发现某个模型需要ASL-N级别的保护,我们就得向第三方解释,为什么这个模型需要这样的保护,以及为什么其他类似的模型可能也需要。如果我们在评估中发现某些风险因素,我们需要有明确的证据来证明这些风险因素确实值得立即关注。
建立对危险能力、缓解措施和诱导的精确预测
如果我们能够准确预测哪些风险会在何时出现,以及哪些缓解措施可以在何时准备就绪,那么将能够更好地进行规划和协调。这些预测将在我们的RSP评估规划中发挥特别直接的作用:在RSP的当前设计下,我们的评估体系需要留出缓冲空间,以便在风险实际出现之前安全地触发,从而避免模型是在中等安全性下训练的,但事后又确定需要更高安全级别的情况。
这些预测也可能影响我们安全案例结构。如果我们有能够对新风险的出现做出精确预测的方法,这些预测可以帮助识别更广泛安全案例中最需要关注的特定风险因素。
构建高度自适应的研究基础设施
在TAI早期开发的某个阶段,我们可能会获得有关许多风险的新的具体证据。并且我们可能不会信任具有完全高带宽访问权限的模型来修改我们的基础设施和代码库,因此工程师时间仍将是我们做许多工作的约束。此时我们需要能够快速行动,并从新的自动化机会中尽可能多地受益。这可能需要在第二阶段中进行大量的组织和基础设施准备。
在TAI出现前,我们可能会发现许多具体的风险。但由于工作进度需要工程师配合。为了能更快地推进,在这个阶段,可能需要公司组织调整和基础设施的建设。
压力测试安全案例
我们的合规团队(负责安全)和对齐压力测试团队(负责其他技术安全措施)构成了三道防线世界观中的第二道安全防线,他们负责确保我们了解自己正在缓解的风险,并确保没有遗漏任何重要信息。在我们的宏观安全计划中,这表现为对组织准备做出的任何有关安全和保障的承载声明进行怀疑评估,并对任何重要的自由裁量决策进行二次签字。
这一职能的直接重要性并不像这里列出的许多其他职能,因为原则上我们的一线安全团队一次就能把事情做好。但在实践中,我预计这将对我们把事情做好的能力产生重大影响,并清楚地表明我们已经做到了这一点。
特别地,对齐压力测试团队的主要挑战是要足够接近我们的日常执行工作,脚踏实地,但又不成为这项工作的主要直接贡献者,以免损害他们评估这项工作的能力。
审查安全案例
董事会在长期利益信任(LTBT)和外部合作伙伴的支持下,为模型构筑了三道防线世界观中的第三道安全防线,对任何关键安全决策提出独立观点,而这些观点的提出者从未参与公司计划的执行或执行。这些人最终负责签署高风险决策,比如全新前沿模型的部署等。
我希望董事会能够在需要时找到相关外部专家,并做出合理决策。更大的挑战是做决策的过程要让其他参与者易懂并值得信赖。最显而易见的方法是当相关组织上线并拥有足够的技术实力来裁决这些决定时,遵从这些特定第三方组织关于决策的意见。如果没有这一点,很难想象RSP及附属结构如何通过LeCun提出的测试。
因此,我认为Anthropic无法直接解决的最紧迫安全问题便是找到一个或理想情况下几个有威望的第三方组织来胜任裁决角色。这些组织要有很高的知名度并受到广泛的信任,以至于如果前沿AI开发者不与它们中的任何一个合作都会被视为高度可疑。
为新兴风险因素开发明确的确凿证据演示
当前的TAI安全工作通常至少涉及一定程度的推测或推断,原因很简单,我们往往无法验证那些构成风险的系统。如果可以找到过渡到具体实证工作的方法,则应该这样做,既是为了巩固我们对威胁模型的信心,也为其他相关方(尤其包括决策制定者)提供更具说服力的证据
当我们看到明显的证据表明真实模型中开始出现某种风险或风险因素时,则值得进行大量额外工作将它们转化为简单、严格的演示,使风险立即清晰明了,理想情况下要让技术水平较低的受众也能理解。我们过去工作中有过这样的例子,比如「SleeperAgents」(沉睡的智能体)和「Sycophancy」(拍马屁)。
准备暂停或重新部署
为了使RSP承诺在最坏的情况下(确保TAI系统的安全极其困难)发挥作用,我们需要能够暂停开发和部署新的前沿模型,直到制定出足够的保障措施。但是不能保证这在任何特定的时间线上都能实现,这可能会导致我们取消或大幅修改主要部署。
第二阶段:TAI(变革性人工智能)
在这个阶段,性能最好的模型开始符合TAI的标准,但在大多数领域还没有远远超过人类。根据RSP,它们的定级为ASL-4。AI研发还没有自动化到AI可以自主进步的程度。
AI开展研究的能力逐渐变强,这将为AI安全带来显著进步。这个阶段可能会逐渐到来,但如果AI的研发能力强到「逃逸速度」时,TAI阶段可能会突然结束,直接进入第3阶段。
第1阶段的许多任务在此时还不会完成,其中许多任务在第2阶段中只会变得更具挑战性和紧迫性。此外,如果人工智能增强研发达到「逃逸速度」,这一阶段可能会突然结束,我们将需要为第3阶段做好比当时看起来更直观的准备。
开发方法来调整实质上超人的人工智能
在第3阶段中,我们可能会遇到一些系统,如果它们失调,就足以迅速而果断地破坏安全。因此,在第2阶段结束之前,我们需要要么完全、完美地解决对齐的核心挑战,要么完全、完美地解决一些相关的(并且几乎同样困难的)目标,例如可纠正性。
不断、仔细地评估
我们预计人工智能在微调和启发方面的进展速度将大幅加快。虽然在早期的ASL中,前沿风险评估可以包含一些缓冲,如果人工智能系统未能触发缓冲,我们可以在需要再次评估之前进行一些进一步的研究和扩展,但这些缓冲可能会变得不可持续,每一项重要进展都应该进行仔细评估。快速且在很大程度上自动化的评估至关重要。
部署以支持高风险决策制定
在从第2阶段过渡到第3阶段的过程中,经济相关大量领域的自动化将变得清晰合理,灾难性风险近在眼前,全球大多数机构都面临前所未有的威胁和机遇。除了成为所有这些不确定性和变化的根源之外,人工智能系统还可以提供即时工具来帮助应对这些不确定性和变化。
此时,最有价值的一点是部署能够有效提高我们做出高风险决策能力的工具,可能包括针对个人决策、建立共识、教育和/或预测的工作。这里很大一部分工作将是产品设计,而不是核心人工智能研究,因此其中大部分工作可能通过以公共利益为导向的合作伙伴而不是内部完成。
第三阶段:当TAI来临之后该怎么办
当进入这个阶段时,最强的AI模型已经在广义上超越了人类,这将需要ASL-5级别的预防措施。如果到了这个时候,我们还没有在重大的核心安全挑战上取得决定性的成功,那么届时AI行动的速度太快,风险太高,我们不太可能从重大失误中恢复过来。
监管机构很可能会在AI方面投入巨资,在很大程度上使公司不再需要独自做出重大决策。在这个阶段,我没有列出任何「待做事项」,因为我希望最好的情况就是「无事发生」。
当超高智慧的人工智能出现时,作为负责开发的组织,之前的决策将承担巨大风险,早期部署AI系统的方式可能以难以预测迅速改变或破坏社会结构和功能。同时,我们需要仔细考虑治理和安全机制,因为这些高级AI系统届时将不仅是简单的工具,更可能像一个完整的独立文明一样运作。
当然,AI做出什么样的行为才算无害,是一个非常棘手的问题,相比于由一个公司内部来权衡,更希望有更广泛的力量来达成共识。
原文链接:https://sleepinyourhat.github.io/checklist