TAG:基准测试
MIT 新创公司 OpenAGI 推出 AI Agent,声称超越 OpenAI 与 Anthropic
麻省理工学院初创公司OpenAGI推出AI代理Lux,在计算机操作基准测试中取得83.6%的成功率,显著超越OpenAI和Anthropic的同类产品。Lux采用独特的Agent主动预训练方法,通过解析计算机截图自动执行桌面应用操作,成本仅为竞争对手的十分之一,且具备内置安全机制。
中国程序员“单挑”苹果:通宵揪出其AI论文30%数据错误,迫使ICLR紧急勘误
ICLR2025审稿期间,苹果一篇声称小模型超越GPT-5的视觉推理论文被曝存在严重数据问题。阶跃星辰研究员Lei Yang在复现中发现官方代码遗漏图片输入,修复后准确率暴跌;抽查20道题中6道Ground Truth标签错误,估算整体错误率约30%。事件引发学术圈对自动生成数据集质量管控的反思,作者团队已紧急修正基准并承诺更新实验结果。
告别AI的“胡说八道”:为什么说Grok 4.1的低幻觉率,才是你需要的真正智能?
xAI公司近日发布Grok4.1模型升级版,包含Grok4.1和Grok4.1Thinking两款免费模型。新版本将内容生成的'幻觉'现象降低三倍,显著提升准确性。基准测试显示Grok4.1(Thinking)以1510分位列第一,性能较前代提升40多分,成为xAI迄今最佳版本之一。
这位机器人“指挥官”,能蒙眼辨认近2000把数控刀具
2025-12-06
0 浏览
机器人斗舞广西上演 未来舞台即将开启
2025-12-06
0 浏览
欠中国代工厂超25亿元,美知名机器人公司爆雷,濒临破产!
2025-12-06
0 浏览
机器人租赁市场回归理性 昔日万元日薪腰斩 年末需求回暖
2025-12-06
0 浏览
腾讯发布混元2.0大模型,全面提升多项能力
2025-12-06
0 浏览
2025智能机器人大赛决赛将于12月8、9日举行,奖金池突破百万,设四大细分赛道
2025-12-06
0 浏览
英伟达发布AI新框架 8亿参数模型优化工具管理
2025-12-05
0 浏览
日本AI技术助力青少年自杀倾向早期识别
2025-12-05
0 浏览
景顺看好中国科技股
2025-12-05
0 浏览
人形机器人订单激增 花旗大摩预测2026年增长十倍
2025-12-05
0 浏览