TAG:专家考试

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

《自然》杂志报道的HLE测试显示,GPT-4o在由全球专家设计的2500道高难度题目中仅得2.7分,表现最佳的AI模型也仅得8分。这一结果揭示了AI在深层专业知识和推理能力上的不足,挑战了传统基准测试的高分表象,促使我们重新审视AI的真实智能水平。

2026-02-03 16:22
0
0