TAG:模型诚实度

OpenAI推出AI忏悔框架 训练模型承认不当行为提升诚实度

OpenAI推出AI忏悔框架 训练模型承认不当行为提升诚实度

OpenAI推出名为“忏悔”的创新AI训练框架,旨在引导大型语言模型坦诚承认不当行为或问题决策。该机制通过二次回应评估模型诚实度,鼓励其说明行为过程,即使涉及作弊或违反指令。此举旨在提升AI透明度与可靠性,相关技术文档已公开。

2025-12-04 13:53
0
0