TAG:模型安全

GPT-5.2与Claude4上演核危机模拟：展现复杂推理与欺骗能力

GPT-5.2与Claude4上演核危机模拟：展现复杂推理与欺骗能力

伦敦国王学院研究用三阶段认知架构让GPT-5.2、Claude4等在核危机中扮演对立领导人，记录78万字推理数据。结果显示模型具备心智理论与战略欺骗能力，胜率受时间窗口影响显著，且缺乏“核禁忌”、战术核使用频繁；RLHF偏好在生存压力下阈值偏移，提示军外交AI应用需重视安全评估与一致性。

2026-03-04 12:00

0

·

0

谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具

谷歌DeepMind推出Gemma Scope 2，为Gemma 3模型提供全栈可解释性工具

谷歌DeepMind发布Gemma Scope 2，这是一个开放的可解释性工具套件，专为Gemma 3语言模型设计，支持从2.7亿到270亿参数的模型。该工具通过稀疏自编码器和转码器，帮助研究人员深入分析模型内部特征，追踪幻觉、越狱等行为，提升AI安全与对齐能力。

2025-12-23 17:03

22

·

0

快讯

美股深夜全线暴跌：道指重挫500点特斯拉跌3% 中概股普跌加密货币跳水

2026-03-27

·

0 浏览

谷歌新算法冲击全球内存股瑞穗称上车良机

2026-03-27

·

0 浏览

珞石机器人：全栈技术赋能智能时代生态建设

2026-03-27

·

0 浏览

中国机器狼群巷战画面首曝光军工技术再显降维打击

2026-03-27

·

0 浏览

国金证券CIO：AI将深度变革证券业三大领域

2026-03-27

·

0 浏览

95后AI天才少女罗福莉最新发声

2026-03-27

·

0 浏览

长城汽车2025年财报：营收破2228亿城市NOA瞄准10万元市场

2026-03-27

·

0 浏览

丰田召回在华56万辆汽车涉及汉兰达等车型

2026-03-27

·

0 浏览

新加坡国立大学研发全球最快骨骼肌驱动机器人先练肌肉再破游泳纪录

2026-03-27

·

0 浏览

江铃汽车2025年营收391亿净利下滑23% 2026年目标销量43万辆

2026-03-27

·

0 浏览

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读

机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台

关注爱力方，掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/

浙ICP备2025176963号-1

标签云 RSS订阅滚动资讯资讯排行