TAG:代码质量

AI代码通过率或被高估7倍基准测试难反映真实能力

AI代码通过率或被高估7倍基准测试难反映真实能力

METR最新研究表明，AI编程能力的基准测试SWE-bench Verified可能显著高估了AI在真实软件开发中的表现。研究发现，约一半在基准测试中通过的AI代码在实际项目维护者审核时会被拒绝，主要由于功能性错误和代码质量问题。研究还揭示了不同AI模型的表现差异，并指出基准测试可能存在高达7倍的能力高估。

2026-03-12 11:06

0

·

0

快讯

石智航AWE首秀凭实干斩获吉尼斯纪录

2026-03-12

·

0 浏览

乌克兰前线首次部署人形机器人参战

2026-03-12

·

22 浏览

国家工业信息安全中心预警工业领域OpenClaw风险

2026-03-12

·

0 浏览

AI冲击理财业养虾潮引发职业焦虑

2026-03-12

·

0 浏览

岩山科技亮相AWE2026 七成AI能力将实现本地运行

2026-03-12

·

0 浏览

邬贺铨院士称高速RDMA为算力大动脉国产IB技术突破垄断补短板

2026-03-12

·

0 浏览

特斯拉获英国电力供应牌照能源业务再扩张

2026-03-12

·

0 浏览

欧洲车企加速布局新能源车产能应对激烈竞争

2026-03-12

·

0 浏览

王小川称OpenClaw尚未普及智能体安全风险或2026年集中爆发

2026-03-12

·

0 浏览

爱诗科技C轮融资落地全球首发实时世界模型

2026-03-12

·

0 浏览

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读

机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台

关注爱力方，掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/

浙ICP备2025176963号-1

标签云 RSS订阅滚动资讯资讯排行