TAG:AI评估
AI科研新基准:FrontierScience测评模型推理能力
本文介绍了新推出的AI科学研究基准FrontierScience,该基准专注于评估AI模型在物理、化学和生物等领域的专家级科学推理能力。文章通过初步评估结果展示了GPT-5.2在奥林匹克版和研究版中的表现,并探讨了AI如何加速科学研究流程以及当前在开放式思维方面的局限性。
谷歌FACTS基准揭示AI模型准确率上限70%
谷歌与Kaggle联合发布FACTS基准套件,填补AI模型事实准确性评估的标准化空白。该基准涵盖法律、金融和医疗等关键领域,测试显示包括Gemini3Pro、GPT-5在内的主流模型整体准确率均未突破70%,尤其在多模态任务中表现不足,为企业AI应用提供重要参考。
特斯拉股价逆势上扬 SpaceX上市前马斯克整合战略曝光
2026-01-31
0 浏览
谷歌开放世界模型精灵 AI开启凭空造世时代
2026-01-31
0 浏览
北京首个人形机器人中试验证平台启动 打通量产最后一公里
2026-01-31
0 浏览
AI迈入智能体时代,CPU如何成为算力核心
2026-01-31
0 浏览
中科院院士韩布兴:AI赋能化工 变废为宝
2026-01-31
0 浏览
武强院士:AI破解我国能源三大核心难题
2026-01-31
0 浏览
钟发平:AI+零碳园区破解源网荷储碎片化难题
2026-01-31
0 浏览
法国基金逆市抄底微软 豪赌AI翻盘
2026-01-31
0 浏览
印度牙医博士研发首款人形机器人 九个月后全球发售
2026-01-31
0 浏览
AI赋能能源产业大会在京召开
2026-01-31
0 浏览