TAG:科学推理

北大学生与AI比拼结果出乎意料

北京大学化学与分子工程学院联合多个团队，让174名大二学生与GPT、Gemini等AI模型同场参加有机化学考试，使用高难度原创题库SUPERChem评估AI的科学推理能力。结果显示，顶尖AI表现仅与低年级本科生平均水平相当，尤其在处理视觉信息和复杂逻辑推理时存在明显瓶颈。这项研究旨在推动AI从知识记忆向深度理解跨越，为化学与人工智能领域提供重要评测基准。

每日经济新闻

2025-12-28 18:41

AI科研新基准：FrontierScience测评模型推理能力

本文介绍了新推出的AI科学研究基准FrontierScience，该基准专注于评估AI模型在物理、化学和生物等领域的专家级科学推理能力。文章通过初步评估结果展示了GPT-5.2在奥林匹克版和研究版中的表现，并探讨了AI如何加速科学研究流程以及当前在开放式思维方面的局限性。

aibase

2025-12-17 16:40

通知

尊敬的用户

user

TAG:科学推理

北大学生与AI比拼结果出乎意料

AI科研新基准：FrontierScience测评模型推理能力

快讯

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

user

TAG:科学推理

北大学生与AI比拼结果出乎意料

AI科研新基准：FrontierScience测评模型推理能力

快讯

理想汽车遇困 机器人业务成救命稻草

蓝芯算力获数亿融资 创始人为字节前芯片负责人

360发布反AI投毒监测工具 促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪 存储芯片持续走强 周期股逆市下挫

英伟达连发7款重磅芯片 从芯片商转型AI工厂 黄仁勋战略转向

国内SaaS行业面临AI挑战 如何应对市场变革

鹏华陈大烨前瞻布局AI全链条 从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典 揭秘春晚机器人幕后

多路资金博弈存储芯片股 游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能