TAG:AI评估

AI科研新基准:FrontierScience测评模型推理能力

AI科研新基准:FrontierScience测评模型推理能力

本文介绍了新推出的AI科学研究基准FrontierScience,该基准专注于评估AI模型在物理、化学和生物等领域的专家级科学推理能力。文章通过初步评估结果展示了GPT-5.2在奥林匹克版和研究版中的表现,并探讨了AI如何加速科学研究流程以及当前在开放式思维方面的局限性。

2025-12-17 16:40
0
0

谷歌FACTS基准揭示AI模型准确率上限70%

谷歌FACTS基准揭示AI模型准确率上限70%

谷歌与Kaggle联合发布FACTS基准套件,填补AI模型事实准确性评估的标准化空白。该基准涵盖法律、金融和医疗等关键领域,测试显示包括Gemini3Pro、GPT-5在内的主流模型整体准确率均未突破70%,尤其在多模态任务中表现不足,为企业AI应用提供重要参考。

2025-12-11 14:29
10
0