TAG:AI评估

AI科研新基准：FrontierScience测评模型推理能力

AI科研新基准：FrontierScience测评模型推理能力

本文介绍了新推出的AI科学研究基准FrontierScience，该基准专注于评估AI模型在物理、化学和生物等领域的专家级科学推理能力。文章通过初步评估结果展示了GPT-5.2在奥林匹克版和研究版中的表现，并探讨了AI如何加速科学研究流程以及当前在开放式思维方面的局限性。

2025-12-17 16:40

4

·

0

谷歌FACTS基准揭示AI模型准确率上限70%

谷歌FACTS基准揭示AI模型准确率上限70%

谷歌与Kaggle联合发布FACTS基准套件，填补AI模型事实准确性评估的标准化空白。该基准涵盖法律、金融和医疗等关键领域，测试显示包括Gemini3Pro、GPT-5在内的主流模型整体准确率均未突破70%，尤其在多模态任务中表现不足，为企业AI应用提供重要参考。

2025-12-11 14:29

10

·

0

快讯

理想汽车遇困机器人业务成救命稻草

2026-03-18

·

0 浏览

蓝芯算力获数亿融资创始人为字节前芯片负责人

2026-03-18

·

0 浏览

360发布反AI投毒监测工具促GEO行业规范发展

2026-03-18

·

0 浏览

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

2026-03-18

·

0 浏览

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

2026-03-18

·

0 浏览

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

2026-03-18

·

0 浏览

国内SaaS行业面临AI挑战如何应对市场变革

2026-03-18

·

0 浏览

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

2026-03-18

·

0 浏览

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

2026-03-18

·

0 浏览

多路资金博弈存储芯片股游资联手量化抢筹金开新能

2026-03-18

·

0 浏览

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读

机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台

关注爱力方，掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/

浙ICP备2025176963号-1

标签云 RSS订阅滚动资讯资讯排行