TAG:AI测试

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

《自然》杂志报道的HLE测试显示，GPT-4o在由全球专家设计的2500道高难度题目中仅得2.7分，表现最佳的AI模型也仅得8分。这一结果揭示了AI在深层专业知识和推理能力上的不足，挑战了传统基准测试的高分表象，促使我们重新审视AI的真实智能水平。

aibase

2026-02-03 16:22

AI办公准确率不足25%，进展却超预期

一项由Mercor公司发布的研究报告显示，当前主流AI模型在处理真实办公室任务时准确率不足25%，最高仅为24%。该研究采用APEX-Agents基准测试，模拟律师、顾问等实际工作流，发现AI在跨源信息整合和上下文处理方面存在明显短板，短期内难以替代人类知识工作者。尽管表现有限，但AI准确率从一年前的5%-10%提升至24%，进展速度超出预期。

中国能源网

2026-01-26 15:24

通知

尊敬的用户

user

TAG:AI测试

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

AI办公准确率不足25%，进展却超预期

快讯

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

user

TAG:AI测试

AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分

AI办公准确率不足25%，进展却超预期

快讯

理想汽车遇困 机器人业务成救命稻草

蓝芯算力获数亿融资 创始人为字节前芯片负责人

360发布反AI投毒监测工具 促GEO行业规范发展

日本乐天AI 3.0开源风波：删除DeepSeek许可证后紧急补救

科技股回暖带动市场情绪 存储芯片持续走强 周期股逆市下挫

英伟达连发7款重磅芯片 从芯片商转型AI工厂 黄仁勋战略转向

国内SaaS行业面临AI挑战 如何应对市场变革

鹏华陈大烨前瞻布局AI全链条 从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典 揭秘春晚机器人幕后

多路资金博弈存储芯片股 游资联手量化抢筹金开新能

推荐专栏

爱力方

机器人大讲堂

理想汽车遇困机器人业务成救命稻草

蓝芯算力获数亿融资创始人为字节前芯片负责人

360发布反AI投毒监测工具促GEO行业规范发展

科技股回暖带动市场情绪存储芯片持续走强周期股逆市下挫

英伟达连发7款重磅芯片从芯片商转型AI工厂黄仁勋战略转向

国内SaaS行业面临AI挑战如何应对市场变革

鹏华陈大烨前瞻布局AI全链条从算力基建到应用投资

王兴兴放话G1机器人全球领先 20年后仍经典揭秘春晚机器人幕后

多路资金博弈存储芯片股游资联手量化抢筹金开新能