TAG:推理与欺骗

GPT-5.2与Claude4上演核危机模拟:展现复杂推理与欺骗能力

GPT-5.2与Claude4上演核危机模拟:展现复杂推理与欺骗能力

伦敦国王学院研究用三阶段认知架构让GPT-5.2、Claude4等在核危机中扮演对立领导人,记录78万字推理数据。结果显示模型具备心智理论与战略欺骗能力,胜率受时间窗口影响显著,且缺乏“核禁忌”、战术核使用频繁;RLHF偏好在生存压力下阈值偏移,提示军外交AI应用需重视安全评估与一致性。

2026-03-04 12:00
0
0