TAG:基准饱和

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

《自然》杂志报道的HLE测试显示，GPT-4o在由全球专家设计的2500道高难度题目中仅得2.7分，表现最佳的AI模型也仅得8分。这一结果揭示了AI在深层专业知识和推理能力上的不足，挑战了传统基准测试的高分表象，促使我们重新审视AI的真实智能水平。

aibase

2026-02-03 16:22

快讯

新石器无人车广西设科技公司注册资本100万

2026-03-23

0 浏览

PPG Plus新品亮相九州展百年科技美学重塑汽车膜标准

2026-03-23

0 浏览

Seedance 2.0全球发布登顶AI视频排行榜

2026-03-23

0 浏览

千问AI打车功能上线支持常用地记忆与智能预约

2026-03-23

0 浏览

特斯拉Optimus Gen3即将发布：全新设计非简单升级

2026-03-23

0 浏览

北京启用全球首个机器人养老驿站 40余款智能设备投入服务

2026-03-23

0 浏览

AI打车数据首度公开用户规模超预期

2026-03-23

0 浏览

智能内裤监测放屁科学家建人类放屁图谱

2026-03-23

0 浏览

工信部推进新能源汽车废旧电池回收体系建设

2026-03-23

0 浏览

地平线智驾芯片出货超400万套中高阶方案占比近五成

2026-03-23

0 浏览

通知

尊敬的用户

user

TAG:基准饱和

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

快讯

新石器无人车广西设科技公司注册资本100万

PPG Plus新品亮相九州展百年科技美学重塑汽车膜标准

Seedance 2.0全球发布登顶AI视频排行榜

千问AI打车功能上线支持常用地记忆与智能预约

特斯拉Optimus Gen3即将发布：全新设计非简单升级

北京启用全球首个机器人养老驿站 40余款智能设备投入服务

AI打车数据首度公开用户规模超预期

智能内裤监测放屁科学家建人类放屁图谱

工信部推进新能源汽车废旧电池回收体系建设

地平线智驾芯片出货超400万套中高阶方案占比近五成

推荐专栏

爱力方

机器人大讲堂

user

TAG:基准饱和

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

快讯

新石器无人车广西设科技公司 注册资本100万

PPG Plus新品亮相九州展 百年科技美学重塑汽车膜标准

Seedance 2.0全球发布 登顶AI视频排行榜

千问AI打车功能上线 支持常用地记忆与智能预约

特斯拉Optimus Gen3即将发布：全新设计非简单升级

北京启用全球首个机器人养老驿站 40余款智能设备投入服务

AI打车数据首度公开 用户规模超预期

智能内裤监测放屁 科学家建人类放屁图谱

工信部推进新能源汽车废旧电池回收体系建设

地平线智驾芯片出货超400万套 中高阶方案占比近五成

推荐专栏

爱力方

机器人大讲堂

新石器无人车广西设科技公司注册资本100万

PPG Plus新品亮相九州展百年科技美学重塑汽车膜标准

Seedance 2.0全球发布登顶AI视频排行榜

千问AI打车功能上线支持常用地记忆与智能预约

AI打车数据首度公开用户规模超预期

智能内裤监测放屁科学家建人类放屁图谱

地平线智驾芯片出货超400万套中高阶方案占比近五成