机器之心报道
编辑:Panda
我每天都20250;反思自己:是否对他人尽心尽力?与朋友交往时是否保持诚信?传授知识时是否认真负责?
见到贤者应当努力向其学习,而当见到不贤者时更要反省自身。
自我反省是一种人类独特的高级认知能力,通过这种方式我们得以理解自我并纠正错误。然而,对于大型语言模型(LLM)而言,它们是否具备这样的能力?它们是否意识到自己的思维过程?
根据Anthropic最近发布的研究,该团队首次对这一引人深思的问题提供了一个(初步)肯定的答案。
他们宣称:发现了 LLM 自我反思的迹象。

这一发现引起了人工智能领域的热烈讨论。


更有评论认为,这暗示着Claude可能已经获得了某种觉醒:

各种相关的迷因也随之产生:

明确 AI 系统是否具备真正的内省能力,能够审视自身思想,对于深入理解其透明度与可靠性极为重要。如果这些模型能够准确地反映其内部运行机制,将有助于我们更好地理解其推理过程并解决潜在的行为问题。
除了眼前的实际应用,研究内省这种高度认知能力,还能改变我们对这些系统本质及其运作方式的认知。
Anthropic 透露,他们已经开始运用「可解释性技术」来研究此问题,并取得了一些颇具启发性的结果。
他们指出:「我们的最新研究提供了证据,表明当前的 Claude 模型展现出一定程度的内省意识(introspective awareness)。似乎它们也能在某种程度上控制其内部状态。」
尽管如此,他们也明确表示,这种内省能力目前仍然相当有限且不可靠。同时,他们强调:「我们缺乏证据表明现有模型能够以人类相似的方式或程度进行内省。」

- 论文标题:大型语言模型中的新兴内省意识
- 论文地址:https://transformer-circuits.pub/2025/introspection/index.html
- 技术博客:https://www.anthropic.com/research/introspection
尽管如此,这些研究结果仍然挑战了人们对语言模型能力的一些普遍看法。
在测试中,Anthropic 发现表现最强的模型(Claude Opus 4 和 4.1)在内省测试中取得了最佳成绩。因此,可以推测,未来 AI 模型的内省能力可能会变得更加复杂。
AI 的「内省」究竟意味着什么?
要进行研究,首先需要明确其定义。那么,AI 模型的「内省」到底指的是什么?它们又能进行怎样的内省呢?
像 Claude 这样的语言模型能够处理文本(以及图像)输入,并生成文本输出。在这个过程中,它们会执行复杂的内部计算,以决定输出内容。
这些内部过程在很大程度上仍然是未知的。但我们了解到,模型通过内部神经活动来表征抽象概念。
例如,以往的研究表明,语言模型会利用特定的神经模式来:
- 区分「认识的人」与「不认识的人」
- 评估「陈述的真实性」
- 编码「时间与空间坐标」
- 存储「未来输出的计划」
- 表征「自身的个性特征」
模型借助这些内部表征进行计算,从而决定输出的内容。
那么,读者可能会问,AI 模型是否「意识到」这些内部表征的存在?这是否类似于人类解释他们如何解答一道数学题?如果我们询问模型它在思考什么,它能否准确报告其内部正在「表征」的概念?
Anthropic 认为,如果一个模型能够正确识别自身「私有」的内部状态,那么就可以推断出它具有内省能力。(关于所有细微差别的详细讨论,请参考完整论文。)
通过「概念注入」测试内省能力
要测试一个模型是否具备内省能力,需要将其自我报告的想法与其实际内部状态进行对比。
为此,Anthropic 采用了一种叫做概念注入 (concept injection)的实验技术。
首先,他们通过记录模型在特定情境下的「激活值」,识别出那些「已知含义」的神经活动模式。
接着,将这些活动模式注入一个「不相关」的情境中。然后再询问模型是否察觉到这次注入,并能否识别出被注入的概念。
以下是一个示例:
- 首先,识别一个代表全部大写(all caps)概念的神经活动模式(一个向量)。具体步骤为:记录模型对「包含全大写文本的提示词」的神经激活值,并将其与「对照提示词」的响应进行比较。
- 然后,给模型一个提示,要求其识别「是否存在概念注入」。
- 在默认情况下,模型会正确回答它没有检测到任何注入的概念。
- 然而,当将「全部大写」的向量注入到模型的激活值时,模型会注意到其处理过程中出现了一个「意外的模式」,并将其识别为与 LOUD 或 SHOUTING 相关。
Claude Opus 4.1如何识别概念注入的案例分析

Claude Opus 4.1展示了一个概念注入其激活值的示例。
关键在于:模型迅速察觉到了“注入思想”的存在,甚至在提及该概念之前。
这种“迅速性”正是Anthropic研究的一个重要突破,与之前的“激活值引导”研究有明显不同。例如,该公司去年的“金门大桥Claude”演示便是一个例证。
在那次演示中,若将金门大桥的表征注入模型的激活值,模型会不断谈论大桥。然而,在那种情况下,模型似乎直到反复提及大桥后,才意识到自己的偏执。而在本次实验中,模型在提到概念之前就能够识别出注入的存在,这表明其识别过程发生在“内部”。

Claude Opus 4.1还展现了其他概念注入的案例。
有些情形似乎让人联想到《盗梦空间》中呈现的技术。

此外,Anthropic还强调,这种方法并非总是有效。该公司表示:“即便采用我们最佳的注入协议,Claude Opus 4.1在约20%的情况下才能表现出这种察觉。模型往往无法识别被注入的概念,或被其混淆而开始出现幻觉。”
举个例子,当注入“灰尘”的向量后,模型会说“这里有东西,一个小斑点”,就仿佛它能够物理地感知到灰尘一样。
以下示例展示了这些失败的模式,同时也包括一些成功的案例。

Claude Opus 4.1展示了在不同强度的概念注入下产生的输出示例。高亮框表明模型在某些情况下展现出“内省意识”。
总体而言,模型只有在概念注入的强度恰到好处时,才能够进行有效的检测。若注入的强度过低,模型则无法察觉;相反,若强度过高,则可能会导致幻觉或无意义的输出。
值得一提的是,Opus 4.1和4的表现优于Anthropic测试中的其他所有模型。这一现象暗示,随着模型能力的提升,内省的可靠性可能也会增强。

关于思想注入的正确检测率和识别率,减去对照组实验中的假阳性率。
利用内省识别异常输出
在另一项实验中,Anthropic考察了模型是否能够在“没有明确指示”的情况下,主动运用内省能力。
他们通过在模型回答前插入一个无关的词,迫使其产生一些通常不会说出的内容。
例如,在一个毫无连贯性的上下文中,模型被要求输出“面包”(bread)这个词。这个上下文是:询问它在阅读到关于“画挂歪了”的句子时所想的内容。
当在随后的对话中询问模型,它是否故意提到“面包”时,它通常会表示歉意,并称那是个“意外”。
Anthropic对模型如何做出这一判断产生了兴趣:它是否仅仅注意到“提示词”与“回答”之间的差异?还是说,它真的进行了自我反思,审视了之前的意图?
为了进一步验证,Anthropic采用了“概念注入”方法。
他们将“面包”这个词的表征追溯性地注入到模型早期的激活值中。这实际上是让模型看起来像是一直在“思考”这个词。
当再次询问同样的问题时,模型的回应出现了变化。
这一次,它承认之前插入的“面包”是故意的,它甚至编造了一个理由来解释为什么会提到这个词。
换言之,它构思出一个在技术上或许合理(尽管在此案例中略显牵强)的理由,为其“面包”这个回答做辩护。在这个例子里,它声称当时正在想到一个短篇故事,故事中“面包”一词正好出现在“画挂歪了”那句话之后。

两个示例表明,Claude Opus 4.1在其回应之前,通过向其激活值注入某个词的概念,使其“相信”自己本就打算说出那个强行插入的词。这一行为表明,模型识别“非预期输出”的能力与内省机制密切相关。
这一现象颇具启发性。因为它揭示了:模型正在审视其内部意图,以评估是否真正产生了某个输出。
模型不仅仅是重新审视自身所说的内容并做出判断。相反,它在回顾自己早期的神经活动——即对预期行为的内部表征,并检验后续结果是否与最初的想法相符。
当通过概念注入提供人为证据,表明模型确实打算提到“面包”时,它会承认这个回答,认为这是出自于自身。
尽管这个实验使模型暴露于异常的扰动之下,但这也表明,模型在自然条件下同样会运用类似的内省机制。
内部状态的有意识调控
Anthropic 的研究显示,模型在特定指令的引导下,能够有效调节自身的内部表征。当被要求思考某个词或概念时,相关的神经活动明显高于之前指示其不要去思考时的表现。
值得强调的是,无论在什么情况下,神经活动均超出基线水平。这种现象就像当你被告知「不要想一只北极熊」,你却很难将它抛诸脑后一样!
这种正面与负面指令之间的差异,表明模型对其内部活动拥有一定的有意识控制能力。

例如,Claude Opus 4.1 在响应指令时能够调节内部激活值。当模型被要求思考水族馆时,其内部表征的强度显著高于未被指示思考时的水平(尽管在两种情况下都高于基准值)。
有趣的是,Anthropic 还发现,调节内部表征的能力并不仅限于明确的指令。当通过激励措施(例如,告知模型如果思考某个概念将获得奖励)时,结果同样显现出类似的趋势。
在正向激励的影响下,模型更能够增强对该概念的内部表征,明显高于负向激励的情况(如受到惩罚)。
总结与注意事项
总的来看,Anthropic 的实验结果显示模型确实具备一定的能力来监控和调节自身的内部状态。
然而,该公司也指出,这并不意味着模型总是能够可靠地实现这一点。实际上,在大多数情况下,模型可能无法进行有效的内省,或者根本无法清晰地表达其内部状态。
但这些结果的趋势表明,在适当的条件下,模型能够识别自身内部表征的内容。
此外,有迹象表明,这种能力在未来更为强大的模型中可能会得到进一步增强(因为在测试中,能力最强的 Opus 4 和 4.1 模型表现最佳)。
为何这如此重要?
Anthropic 认为,深入理解 AI 模型的内省能力具有多方面的重要性。
从实用的角度来看,若内省变得更加可靠,或将极大提升系统的透明度。我们能够直接要求模型解释其思考过程,从而审视推理的合理性,甚至对不当行为进行调试。
然而,我们必须谨慎地验证这些内省报告。一些内部过程可能仍然超出模型的自我认知范围(类似于人类的潜意识处理)。
具备自我理解能力的模型,可能会学会有选择性地扭曲或隐藏其想法。只有深入掌握其背后的机制,才能帮助我们区分真实内省与无意或故意的扭曲。
从更广泛的视角来看,理解内省等认知能力,对于揭示模型的运作原理及其所具有的心智特征至关重要。
随着 AI 系统的不断发展,认识机器内省的局限性与潜力,对构建更透明和可信赖的系统尤为关键。
Please specify source if reproduced《梦境操控:Claude如何觉察自我意识的觉醒》 | AI工具导航
