TAG:模型安全

GPT-5.2与Claude4上演核危机模拟:展现复杂推理与欺骗能力

GPT-5.2与Claude4上演核危机模拟:展现复杂推理与欺骗能力

伦敦国王学院研究用三阶段认知架构让GPT-5.2、Claude4等在核危机中扮演对立领导人,记录78万字推理数据。结果显示模型具备心智理论与战略欺骗能力,胜率受时间窗口影响显著,且缺乏“核禁忌”、战术核使用频繁;RLHF偏好在生存压力下阈值偏移,提示军外交AI应用需重视安全评估与一致性。

2026-03-04 12:00
0
0

谷歌DeepMind推出Gemma Scope 2,为Gemma 3模型提供全栈可解释性工具

谷歌DeepMind推出Gemma Scope 2,为Gemma 3模型提供全栈可解释性工具

谷歌DeepMind发布Gemma Scope 2,这是一个开放的可解释性工具套件,专为Gemma 3语言模型设计,支持从2.7亿到270亿参数的模型。该工具通过稀疏自编码器和转码器,帮助研究人员深入分析模型内部特征,追踪幻觉、越狱等行为,提升AI安全与对齐能力。

2025-12-23 17:03
22
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/