TAG:代码质量
AI代码通过率或被高估7倍 基准测试难反映真实能力
METR最新研究表明,AI编程能力的基准测试SWE-bench Verified可能显著高估了AI在真实软件开发中的表现。研究发现,约一半在基准测试中通过的AI代码在实际项目维护者审核时会被拒绝,主要由于功能性错误和代码质量问题。研究还揭示了不同AI模型的表现差异,并指出基准测试可能存在高达7倍的能力高估。
石智航AWE首秀 凭实干斩获吉尼斯纪录
2026-03-12
0 浏览
乌克兰前线首次部署人形机器人参战
2026-03-12
22 浏览
国家工业信息安全中心预警工业领域OpenClaw风险
2026-03-12
0 浏览
AI冲击理财业 养虾潮引发职业焦虑
2026-03-12
0 浏览
岩山科技亮相AWE2026 七成AI能力将实现本地运行
2026-03-12
0 浏览
邬贺铨院士称高速RDMA为算力大动脉 国产IB技术突破垄断补短板
2026-03-12
0 浏览
特斯拉获英国电力供应牌照 能源业务再扩张
2026-03-12
0 浏览
欧洲车企加速布局新能源车产能应对激烈竞争
2026-03-12
0 浏览
王小川称OpenClaw尚未普及 智能体安全风险或2026年集中爆发
2026-03-12
0 浏览
爱诗科技C轮融资落地 全球首发实时世界模型
2026-03-12
0 浏览