TAG:物理基准测试

AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”

AI巅峰对决遭遇“滑铁卢”:Gemini 3 Pro与GPT-5在物理学测试中集体“翻车”

最新物理基准测试CritPt结果显示,即使是Gemini3Pro和GPT-5等顶级AI模型,在博士级物理研究挑战中的准确率不足10%。这项由50多位物理学家设计的测试涵盖11个前沿领域,旨在评估AI解决原创性科研问题的能力。结果表明当前AI在严谨性、创造性和推理稳定性方面存在明显不足,距离成为真正的自主科学家仍有巨大差距。

爱力方 2025-11-24 15:15
0
0