TAG:代码质量

AI代码通过率或被高估7倍 基准测试难反映真实能力

AI代码通过率或被高估7倍 基准测试难反映真实能力

METR最新研究表明,AI编程能力的基准测试SWE-bench Verified可能显著高估了AI在真实软件开发中的表现。研究发现,约一半在基准测试中通过的AI代码在实际项目维护者审核时会被拒绝,主要由于功能性错误和代码质量问题。研究还揭示了不同AI模型的表现差异,并指出基准测试可能存在高达7倍的能力高估。

2026-03-12 11:06
0
0