TAG:AI测试

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

《自然》杂志报道的HLE测试显示,GPT-4o在由全球专家设计的2500道高难度题目中仅得2.7分,表现最佳的AI模型也仅得8分。这一结果揭示了AI在深层专业知识和推理能力上的不足,挑战了传统基准测试的高分表象,促使我们重新审视AI的真实智能水平。

2026-02-03 16:22
1
0

AI办公准确率不足25%,进展却超预期

AI办公准确率不足25%,进展却超预期

一项由Mercor公司发布的研究报告显示,当前主流AI模型在处理真实办公室任务时准确率不足25%,最高仅为24%。该研究采用APEX-Agents基准测试,模拟律师、顾问等实际工作流,发现AI在跨源信息整合和上下文处理方面存在明显短板,短期内难以替代人类知识工作者。尽管表现有限,但AI准确率从一年前的5%-10%提升至24%,进展速度超出预期。

2026-01-26 15:24
4
0