TAG:学术研究

中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误

中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误

ICLR2025审稿期间,苹果一篇声称小模型超越GPT-5的视觉推理论文被曝存在严重数据问题。阶跃星辰研究员Lei Yang在复现中发现官方代码遗漏图片输入,修复后准确率暴跌;抽查20道题中6道Ground Truth标签错误,估算整体错误率约30%。事件引发学术圈对自动生成数据集质量管控的反思,作者团队已紧急修正基准并承诺更新实验结果。

爱力方 2025-12-01 15:24
8
0