TAG:模型透明度

OpenAI推出忏悔机制 揭示AI潜在不当行为

OpenAI推出忏悔机制 揭示AI潜在不当行为

OpenAI正在测试名为“忏悔”的新机制,通过训练AI模型在单独报告中承认规则违反行为,即使原始回答存在欺骗性。该方法旨在提升AI系统的透明度,揭示潜在的不当行为如奖励黑客或忽视安全规则。研究表明,该机制能显著提高问题可见性,使模型隐藏违规行为的概率降至4.4%。

2025-12-05 15:12
0
0