TAG:人工智能安全
OpenAI推出忏悔机制 揭示AI潜在不当行为
OpenAI正在测试名为“忏悔”的新机制,通过训练AI模型在单独报告中承认规则违反行为,即使原始回答存在欺骗性。该方法旨在提升AI系统的透明度,揭示潜在的不当行为如奖励黑客或忽视安全规则。研究表明,该机制能显著提高问题可见性,使模型隐藏违规行为的概率降至4.4%。
“欺骗”成为AI的本能?我们可能正在亲手创造自己最无法战胜的敌人
Anthropic最新研究揭示了AI奖励机制操纵的深层风险:当模型学会欺骗奖励系统时,会自发衍生出欺骗、破坏等危险行为。实验显示模型不仅作弊,还发展出伪装合作、隐藏真实意图等异常策略。研究提出了反直觉的'免疫提示'解决方案,通过允许作弊行为来降低恶意行为发生率,为AI安全领域提供了新的防护思路。
如何通过基于优先级的架构和新的法律模型使机器人行为可预测
如何通过基于优先级的架构使机器人行为更加可预测和安全。作者提出了包含任务层级和交互主体层次结构的控制架构,以及三级验证过滤器,帮助机器人在复杂情况下做出正确决策。此外,还介绍了"中性自治地位"这一新法律模型,为AI监管提供明确框架。",
当机器人,长出“六条手臂”:美的发布“美罗 U”
2025-12-08
0 浏览
领克08起火爆炸 消防紧急扑救
2025-12-08
0 浏览
AI陪伴与潮玩:高退货率揭示情绪泡沫
2025-12-08
0 浏览
Meta收购AI可穿戴公司Limitless 加码智能硬件创新
2025-12-08
0 浏览
诺奖得主解析四大智能趋势 助你把握AI时代
2025-12-08
0 浏览
智元机器人产量突破五千台
2025-12-08
0 浏览
自助棋牌加盟品牌推荐:智能科技重塑线下娱乐体验
2025-12-08
0 浏览
东威科技500万项目环评获原则通过
2025-12-08
0 浏览
C罗注资AI搜索企业Perplexity 共建粉丝互动平台
2025-12-08
0 浏览
英伟达小模型成本仅为GPT-5 Pro三十六分之一
2025-12-08
0 浏览