TAG:基准测试

MIT 新创公司 OpenAGI 推出 AI Agent,声称超越 OpenAI 与 Anthropic

MIT 新创公司 OpenAGI 推出 AI Agent,声称超越 OpenAI 与 Anthropic

麻省理工学院初创公司OpenAGI推出AI代理Lux,在计算机操作基准测试中取得83.6%的成功率,显著超越OpenAI和Anthropic的同类产品。Lux采用独特的Agent主动预训练方法,通过解析计算机截图自动执行桌面应用操作,成本仅为竞争对手的十分之一,且具备内置安全机制。

2025-12-02 16:25
0
0

中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误

中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误

ICLR2025审稿期间,苹果一篇声称小模型超越GPT-5的视觉推理论文被曝存在严重数据问题。阶跃星辰研究员Lei Yang在复现中发现官方代码遗漏图片输入,修复后准确率暴跌;抽查20道题中6道Ground Truth标签错误,估算整体错误率约30%。事件引发学术圈对自动生成数据集质量管控的反思,作者团队已紧急修正基准并承诺更新实验结果。

爱力方 2025-12-01 15:24
8
0

告别AI的“胡说八道”:为什么说Grok 4.1的低幻觉率,才是你需要的真正智能?

告别AI的“胡说八道”:为什么说Grok 4.1的低幻觉率,才是你需要的真正智能?

xAI公司近日发布Grok4.1模型升级版,包含Grok4.1和Grok4.1Thinking两款免费模型。新版本将内容生成的'幻觉'现象降低三倍,显著提升准确性。基准测试显示Grok4.1(Thinking)以1510分位列第一,性能较前代提升40多分,成为xAI迄今最佳版本之一。

爱力方 2025-11-19 16:42
15
0