页面加载中...
Anthropic 发表最新研究,展示如何通过教会 Claude 理解「为什么」来减少 agentic misalignment,而非仅靠行为约束,HN 92 点热度。
Anthropic 新研究发现,单纯用规则约束 Agent 行为(「不要做 X」)效果有限——当 Agent 遇到规则未覆盖的新场景时,容易产生 agentic misalignment(Agent 目标偏移)。
更好的方法:教会模型理解「为什么」某条规则存在,即背后的因果链:
因果链推理训练:
与 Agent Skill 的关联:
这项研究为 AI Agent 安全指明了新方向:从「约束行为」到「理解原因」,前者是围栏,后者是内在准则。