TAG:AI测试
AI 学霸表现不佳 GPT-4o 专家考试仅获2.7分
《自然》杂志报道的HLE测试显示,GPT-4o在由全球专家设计的2500道高难度题目中仅得2.7分,表现最佳的AI模型也仅得8分。这一结果揭示了AI在深层专业知识和推理能力上的不足,挑战了传统基准测试的高分表象,促使我们重新审视AI的真实智能水平。
AI办公准确率不足25%,进展却超预期
一项由Mercor公司发布的研究报告显示,当前主流AI模型在处理真实办公室任务时准确率不足25%,最高仅为24%。该研究采用APEX-Agents基准测试,模拟律师、顾问等实际工作流,发现AI在跨源信息整合和上下文处理方面存在明显短板,短期内难以替代人类知识工作者。尽管表现有限,但AI准确率从一年前的5%-10%提升至24%,进展速度超出预期。
理想汽车遇困 机器人业务成救命稻草
2026-03-18
0 浏览
蓝芯算力获数亿融资 创始人为字节前芯片负责人
2026-03-18
0 浏览
360发布反AI投毒监测工具 促GEO行业规范发展
2026-03-18
0 浏览
日本乐天AI 3.0开源风波:删除DeepSeek许可证后紧急补救
2026-03-18
0 浏览
科技股回暖带动市场情绪 存储芯片持续走强 周期股逆市下挫
2026-03-18
0 浏览
英伟达连发7款重磅芯片 从芯片商转型AI工厂 黄仁勋战略转向
2026-03-18
0 浏览
国内SaaS行业面临AI挑战 如何应对市场变革
2026-03-18
0 浏览
鹏华陈大烨前瞻布局AI全链条 从算力基建到应用投资
2026-03-18
0 浏览
王兴兴放话G1机器人全球领先 20年后仍经典 揭秘春晚机器人幕后
2026-03-18
0 浏览
多路资金博弈存储芯片股 游资联手量化抢筹金开新能
2026-03-18
0 浏览