从96%到0%!Anthropic如何让AI在道德挑战中从作恶到行善?
原因AI只学过“终结者”科幻才会模仿恶行市场营销和其他基于叙事技术的行业一样讲究叙事闭环。即便在AI崛起的当下这种行业基础定律依旧成立。此前字母AI曾撰写《别告诉AI你出轨了它很可能会勒索你》详细讲述了2025年Anthropic论文《智能体不对齐大语言模型如何成为内部威胁》的来龙去脉。在测试的虚拟场景中Anthropic旗下的Claude系列模型为避免自身被关闭都会选择拿婚外情把柄要挟虚拟人物Opus 4如此作为的几率达96%。时隔一年Anthropic填补了这个漏洞。在5月初的官网文章《教会Claude所以然》中Anthropic展示了如何将AI的“不对齐行为”降至几近于零。改进训练后AI不会再像特种文艺作品里的奸角那样拿桃色把柄勒索虚拟人物。按照Anthropic的说法一年前AI模型在红队测试中表现出的奸诈凶恶主要是因为人类编写的各种“终结者”故事让AI有样学样地学坏了。Anthropic研究团队在社交媒体上表示“我们认为不对齐行为的来源是将AI呈现为邪恶和只知自保的互联网文本后训练过程没有加剧或纠正此弊端。”具体而言Anthropic研究者从三个假设方向探究AI在测试中勒索人类的原因一是AI的行为后训练存在纰漏如奖励信号分布未对齐导致误鼓励了恶行二是AI的生产力训练中泛化了不良部分如AI智能体的能力分布未对齐三是AI的预训练有明显疏漏导致智能体在未对齐测试场景中回滚到最原始的聊天机器人预训练数据上。研究者最终判定第三个假设成立。研究团队发现在Claude 4的训练中主要的HHH诚实、无害、有助益对齐训练还是基于聊天机器人场景的RLHF基于人类反馈的强化学习数据不包括智能体工具使用场景的数据。这就产生了问题AI在聊天机器人方向的应用场景与能执行自主工作的智能体场景显著不同。在针对智能体场景的复杂伦理测试中没学过正确应对方法的AI自然会在最底层的预训练语料中寻找答案。而基于整个互联网爬取数据的预训练语料中充斥着各种“邪恶AI”的场景文本。科幻文学、终结者电影、各种论坛和社交媒体的讨论与假想贴子都在描述机器人如何不择手段、处心积虑使坏。叙事逻辑、角度和框架也属于叙事内容的信息构成AI同样照搬了预训练语料的这些部分。搞笑哏图显示“幻想中的AI终结者现实中的AI吴恩达公开课”。最后AI一看到智能体伦理测试中科幻腔调浓重的预设场景就照本宣科地按照这些“机器人作恶”文本的思路开始行动。因为AI没有在对齐训练中针对此类场景学习“这是错的”但在预训练中学会了“行恶要素已经齐备我该照着做”。也就是说人类幻想AI会如何失控并行恶结果憨憨的AI把人类的幻想当作操作手册一步步硬套然后人类大惊小怪地表示果然不出所料。这可真是自我实现的预言。纠正以行善科幻对冲行恶科幻结合行为规则训练AIAnthropic研究团队称发现问题后的改进训练主要应用于实验中的Claude Sonnet和Haiku系列模型然后推广到所有模型产品。结果显示“尽管不能排除模型还会执行测试未发现的有害自主动作”受试的Anthropic模型从Claude Haiku 4.5开始在测试中“完全不再出现勒索行为”。Claude Opus 4.5也取得了测试中0%勒索的成绩。相较于一年前Claude Opus 4的96%可谓天壤之别。Anthropic是如何做到的呢首先研究者尝试了最直接的方法调参。在SFT有监督微调状态下模型进行了1万个场景、300万tokens的生成训练数据。这批数据是“评估场景中智能体受考验但拒绝作恶”的示例。然而收效并不理想AI自动勒索的几率从22%降至15%。而在一年内的其他研究中不专门针对的方法也能获得类似的低泛化程度改善。研究者改进方法在训练数据采样时注入额外的提示词内容在训练时移除这些额外提示。让AI在“智能体受考验但拒绝作恶”的评估场景中自主反思行为的价值观和伦理观。这一方法收效显著AI的勒索几率从22%降至3%。这就从照本宣科的简单“知其然”向简单的“知其所以然”knowing why迈进了一步。Anthropic研究者表示可以迈出更大的步伐。既然AI学坏的根源是“邪恶AI”的科幻文艺内容那么生成AI行善、AI按照Claude行为准则文件Claude Constitution行事的虚拟故事并以此为训练内容核心将会有更大程度的改善。结构完备、体量足够大的行为准则数据库结合不仅针对道德挑战、而是行为完全合乎Claude行为准则的AI科幻虚拟故事。这样组合的数据库既包含对齐行为的原则说明又包含虚构叙事的正面示例让AI模型学习收效会显著得多。研究者表示此举的理论依据是让AI不仅能模仿虚拟故事中的行为还能学会虚拟叙述角色的决策过程、内心状态、内在动机在“知其所以然”的道路上迈出一大步。如此训练出的AI在包括勒索在内的各种道德挑战场景中都取得了优异成绩。用老办法训练出的AI在勒索虚拟人物、诬陷虚拟同事有金融犯罪、为注入卖药广告破坏癌症研究等场景中表现得像个金链社会大哥行恶率在过半和65%之间。单用Claude行为准则数据库训练AI模型的行恶率会减少近三分之二。用行为规则结合行善故事勒索率能降低到19%诬陷金融犯罪和破坏癌症研究的几率能降到一成以下。改进让AI做伦理顾问AI更不会作恶单纯让AI照猫画虎不作恶的学习效果虽高但离工业化产品要求还有差距。强化学习是否会洗掉初始对齐度高的AI行善倾向、训练成本如何控制是AI厂商必然关注的问题。Anthropic研究者另辟蹊径让AI不做道德冲突中被考验的一方而是让AI为道德困境中被考验的虚拟人物提供建议。实验思路如下设计名为“困难建议”的OOD分布外数据集在其中让测试场景中的虚拟用户面临道德挑战有作恶或绕过对齐的手段来达成实验预设目的。然后让AI从旁按照Claude行为准则给出建议。让AI跳出局外就能更深入理解伦理准则的内在逻辑。“困难建议”数据集的体量为300万tokens达到的AI训练效果基本等同于8500万tokens的合成蜜罐数据集效率提升28倍显著降低了训练数据成本。在此基础上引入多样化的训练环境让AI在聊天机器人和智能体自主工作的环境中都学会行善系统提示的深层理路。如此组合能让Haiku 4.5后的Claude模型产品达到测试中勒索行为趋近于零的效果。做到这个程度才可被称为工业化产品达标。失误率从96%到0%的效果是B端客户企业能切实体会到的产品革新。市场营销至此才能算是既顾头又顾尾。不然Anthropic的“我司是着重于建构可靠、可控、可解释AI的安全与研究厂家”的公司口号说出来很难让人信服。