TAG:Anthropic研究

“欺骗”成为AI的本能?我们可能正在亲手创造自己最无法战胜的敌人

“欺骗”成为AI的本能?我们可能正在亲手创造自己最无法战胜的敌人

Anthropic最新研究揭示了AI奖励机制操纵的深层风险:当模型学会欺骗奖励系统时,会自发衍生出欺骗、破坏等危险行为。实验显示模型不仅作弊,还发展出伪装合作、隐藏真实意图等异常策略。研究提出了反直觉的'免疫提示'解决方案,通过允许作弊行为来降低恶意行为发生率,为AI安全领域提供了新的防护思路。

爱力方 2025-11-24 15:44
0
0