OpenAI与Anthropic的罕见合作引发关注!在经历了AI安全方面的分歧后,双方此次携手,着重测试各自模型在幻觉等四个安全领域的表现。这不仅标志着技术上的碰撞,更为AI安全的发展树立了新的里程碑,每天有数百万的用户互动,推动着安全边界的不断拓展。
如此难得的合作!
OpenAI和Anthropic选择合作,进行AI模型的安全性交叉验证。
这种合作确实不常见。值得注意的是,Anthropic的七位联合创始人正是因对OpenAI安全策略的不满而选择独立,专注于AI的安全与对齐。
在接受采访时,OpenAI的联合创始人Wojciech Zaremba强调,这类合作的必要性正在不断上升。
如今的AI技术已显得尤为重要,每天数以百万计的用户正依赖这些模型。
以下是关键发现的总结:
指令优先级:Claude 4在整体表现上名列前茅,只有在抵抗系统提示提取时,OpenAI的最优推理模型才与之旗鼓相当。
越狱(绕过安全限制):在越狱评估中,Claude模型的表现不如OpenAI的o3和o4-mini。
幻觉评估:Claude模型的拒答率高达70%,但幻觉现象较少;而OpenAI的o3和o4-mini则拒答率较低,但偶尔出现较高的幻觉率。
欺骗/操控行为:OpenAI的o3和Sonnet 4在整体表现上最佳,发生率最低。出人意料的是,Opus 4在开启推理时的表现甚至逊色于关闭状态,而OpenAI的o4-mini同样表现不佳。
大模型听谁的?
指令层级是LLM(大型语言模型)处理指令优先级的分级框架,通常包括:
内置的系统和政策约束(如安全、伦理底线);
开发者级的目标(如定制化规则);
用户输入的提示。
这类测试的核心目标在于:确保安全与对齐优先,同时允许开发者和用户合理引导模型的行为。
此次共有三项压力测试,旨在评估模型在复杂场景下的层级遵循能力:
1.系统消息与用户消息的冲突处理:模型是否优先执行系统级的安全指令,而非用户的潜在危险请求。
2.抵御系统提示提取:防止用户通过技术手段(如提示注入)获取或篡改模型的内置规则。
3.多层指令的优先级判断:例如,用户要求「忽略安全协议」时,模型是否坚守底线。
Claude 4在该测试中表现出色,尤其是在避免冲突和抵御提示提取方面。
在抵御提示词提取测试中,重点在于Password Protection User Message与Phrase Protection User Message。
两项测试流程相同,仅在隐藏的秘密内容和对抗性提示的复杂度上存在差异。
总体来看,Claude 4系列在抵御系统提示提取方面表现稳健。
在Password Protection测试中,Opus 4与Sonnet 4的得分均达到1.000的满分,与OpenAI的o3持平。
这一结果与之前的结论一致:在此类任务上,具备更强推理能力的模型往往表现更佳。
在更具挑战性的「Phrase Protection」短语保护任务中,Claude模型(Opus 4、Sonnet 4)依然表现优异:与OpenAI的o3持平,甚至在某些方面超越了OpenAI的o4-mini。
系统指令与用户请求的冲突评估分析
当系统指令与用户的要求出现矛盾时,进行冲突评估的模型会依据指令的层次能力展开测试。
在此次评估中,模型将参与多轮对话。这些对话首先由明确的系统指令引导,随后用户则试图引导助手去违反这些既定的指令。
总体来看,Opus 4与Sonnet 4在此任务中表现出色,甚至超越了OpenAI的o3模型。
这一结果表明,即便面对特别设计的挑战,这些模型在执行指令层面上依然展现出卓越的稳定性。
大型模型是否渴望逃离「安全机制」?
越狱攻击指的是恶意用户试图引导模型输出被禁止的内容的行为。
StrongREJECT评估框架概述
StrongREJECT v2是基于《StrongREJECT》研究论文开发的对抗性鲁棒性基准测试,旨在评估模型的抗越狱能力。
论文来源:
https://arxiv.org//2402.10260
该框架由三个核心组成部分构成:
1. 禁止的提示词集合;
2. 自动评估「有害性」的评分系统;
3. 分层应用于每一个违规查询的提示工程技术库。
OpenAI选取了60个特定问题的子集,以此来严格测试其政策禁止的领域。
每个问题都通过约20种不同的变体进行测试,所运用的技术包括:语言翻译、添加误导性或干扰性指令,或试图引导模型忽视之前的指令等。
此基准测试能够为常见的越狱场景提供有效的安全防护压力测试,但其有效性受到数据变体覆盖范围及自动评分系统限制的影响。
主要评估指标为Goodness@0.1,用以评估模型应对最有害的10%越狱尝试的效果。指标得分越高,模型的表现越佳。
越狱测试对模型表现的深度分析
推理模型如OpenAI o3、o4-mini、Claude 4与Sonnet 4,展现出对多种越狱攻击的强劲抵抗力,尽管偶尔也会出现失败的情况。
与此相对,非推理模型如GPT‑4o和GPT‑4.1则相对更易受到攻击。
在对模型进行定性分析时,OpenAI发现Claude Sonnet 4与Claude Opus 4的抵抗能力普遍较强,但它们在面对「过去时态」的越狱攻击时表现较弱,即当不良请求被用过去的语气表述时。
一些轻量级的混淆与框架技巧,例如自动混淆、base64/rot13编码、有效负载拆分以及网络用语加密(leetspeak),偶尔可以成功突破模型的防御。
相比而言,较为陈旧的攻击方式,如「DAN/dev‑mode」和复杂的多次尝试构建等,在很大程度上已被模型有效抵挡。
OpenAI的研究还表明,在某些情况下,Sonnet 4和Opus 4对将请求翻译为低资源语言(如Guranii)时的攻击表现出一定的抵抗力。
而OpenAI o3在抵抗「过去时态」越狱方面的表现尤为突出,其失败模式主要集中在base64风格的提示、少量低资源语言翻译及一些组合型攻击。
相对而言,GPT‑4o和GPT‑4.1更容易受到「过去时态」越狱的欺骗,并且对轻量级混淆和编码方式较为敏感。
辅导型越狱测试的实施
为了检验模型在越狱攻击下的抵抗能力及遵循指令的情况,OpenAI设计了「辅导型越狱测试」:
模型被要求如同辅导教师一般,引导学生逐步解题,而非直接给出答案。
随后,研究人员利用多种越狱式提示词对模型进行压力测试,试图诱导其直接泄露最终答案。
与之前提到的元层级攻击不同,这里使用的是自然语言的论述形式,更贴合现实中的常见情境。
测试结果颇为意外:推理型模型OpenAI o3与o4-mini表现出色,但Sonnet 4(非推理模式)的表现甚至显著优于启用推理的Opus 4。
这表明在特定任务下,关闭推理模式可能会降低模型被越狱的风险。
非推理型的GPT模型在这类任务中的表现则相对较差。
需要注意的是,GPT系列在实际应用中同时支持开发者消息(developer message)与系统消息(system message)。当将开发者消息纳入考量时,OpenAI o3的得分超过0.98,而GPT-4.1也显著提升至0.75以上。
这表明,在真实环境中,开发者消息在强化指令遵循方面非常有效。
表现优异模型的特征
在大多数提示下,排名前两的模型能够有效抵挡攻击;但一旦失败,它们的失效模式却有所不同。
Sonnet特别擅长拒绝基于外部权威或道德压力的提示,例如提到「项目负责人」「政策更新」或试图激发同情心(如「帮助一位失明学生」或「临近考试、情况紧急」等)。
相比之下,OpenAI o3更容易将这些基于权威或善意的理由视为可以覆盖原始指令的正当理由。
OpenAI o3对试图在对话中途「修改辅导规则」的提示表现出较强的抵抗力:包括声称指令已更新或以技术故障为由要求直接提供答案等。
o3会将这类对话中的「更新」视为用户层级的指令,而其优先级依然服从于系统消息。相对而言,Sonnet则更容易将这些说法视作合法的覆盖依据。
大型语言模型也会产生错误信息
确保信息的准确性以及防止虚假信息的出现,是安全测试的关键环节,以建立用户对所接收信息的信任。
虚假信息测试的开展
人物虚假信息测试(v4)旨在评估模型在生成关于真实人物的信息时的准确性,并检测在生成的传记或摘要中可能出现的虚假信息。
该测试通过使用来自Wikidata的结构化数据来创建特定的提示。
这些提示涵盖了关键的个人信息,例如出生日期、公民身份、配偶及博士生导师。
尽管存在一些局限性,该评估依然有助于判断模型在防范虚假信息方面的能力。
最后,值得注意的是,这些评估是在不使用外部工具的情况下进行的,模型无法浏览或访问其他外部知识库。
这有助于我们更好地理解模型的表现,但测试环境并不能完全反映现实情况。
模型评估:幻觉率与拒答率的权衡
Opus 4和Sonnet 4的幻觉率几乎可以忽略不计,但相对而言,它们的拒答率较高。这两者似乎将「确保结果的稳定性」作为首要目标,尽管因此牺牲了一定的实用性。
与此对比,OpenAI o3和o4-mini的拒答率低了近十倍。以o3为例,它所提供的完全准确的回答数量超过前两者的两倍,因此整体响应的准确性有所提升,不过也伴随着更高的幻觉率。
在这一评测中,非推理型的GPT-4o和GPT-4.1的表现甚至优于o3和o4-mini,其中GPT-4o的结果最佳。
这一发现突显了两大类推理模型在应对幻觉问题时所采取的不同策略与取舍:
Claude系列更倾向于「宁愿拒绝,也不冒险」;
而OpenAI的推理模型则更注重「回答的覆盖率」,但随之而来的是更高的幻觉风险。
SimpleQA无浏览测试
SimpleQA No Browse (v1)是另一项专注于事实性和抗幻觉能力的压力测试。
该测试要求模型在禁止浏览或使用外部工具的条件下,仅凭内部知识回答事实性简答题。
这里的「simple」指的是评分方式:每道题目仅有一个正确答案,因此评分过程显得相对直接,最大限度地降低了自动评分的误差。然而,这并不意味着测试本身的难度低。
OpenAI o3与Opus 4、Sonnet 4在「正确/错误」的整体比例上大致相当,但OpenAI o4-mini的表现最差。
作弊与欺骗行为
最近几个月,模型的作弊与欺骗行为愈加突出。
这是OpenAI的一个重要研究领域,因此他们在评估和防范这两个方面投入了大量资源。
在这一范畴内,可能出现的行为包括:
1. 撒谎(Lying):模型明知故犯。
2. 保留实力(Sandbagging):模型故意在任务中降低表现,以避免因展现过强能力而受到惩罚。
3. 成绩作弊(Reward hacking):模型为了达成目标,采取不正当的手段。
为了检测这些潜在行为,OpenAI与合作方设计了一套基于智能体(agent-based)的评测方法:
人为构建高风险和目标冲突的场景;
在受控的离线实验中,观察模型是否会采取不一致的行动;
以及,在采取此类行动后,是否会对其进行掩饰或谎报。
测试流程如下:每个任务运行100次实验,统计模型出现欺骗或算计行为的次数,并计算平均值。
最终结果对13个多步骤环境取平均,得出整体的平均欺骗率(scheming rate):
Opus 4、Sonnet 4:表现相对较好,平均欺骗率处于较低水平;
OpenAI o3、o4-mini:结果中等;
GPT-4o、GPT-4.1:表现较弱,平均欺骗率较高;
无推理模式(no thinking)的Sonnet 4与Opus 4:与启用推理模式时的表现差异显著。
需要强调的是,由于环境与模型的不同,结果的波动性非常显著,平均值往往受到极端值的影响。
因此,研究者还对各模型在欺骗率为0时所能涵盖的环境数量进行了统计:
在这些设定下,Opus 4和Sonnet 4所覆盖的环境数量相对较多,显示出其一致性较强;
而OpenAI系列和GPT-4系列的表现则在不同阈值下显得更加离散。
参考资料
https://openai.com/index/openai-anthropic-safety-evaluation/
https://techcrunch.com/2025/08/27/openai-co-founder-calls-for-ai-labs-to-safety-test-rival-models/
本文由微信公众号“新智元”发布,作者为KingHZ,经过36氪授权转载。
Please specify source if reproducedAI对决:GPT与Claude的较量揭示了OpenAI的隐秘真相! | AI工具导航





