TAG:视觉推理

商汤开源新模型 赋予AI自主思考与行动能力

商汤开源新模型 赋予AI自主思考与行动能力

商汤科技开源了首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型SenseNova-MARS,包含8B和32B版本。该模型模拟侦探破案逻辑,实现AI从理解到自主执行的跨越,在多项基准测试中超越GPT-5.2,具备图像细节裁剪、动态图文搜索和多跳深度推理等核心能力。通过双阶段训练,模型展现出强大的自主规划与工具协同潜力,助力全球开发者探索具身智能。

2026-01-30 15:11
0
0

硅基生物的视觉推理能力受限:顶级大模型竟不如6岁孩童?

硅基生物的视觉推理能力受限:顶级大模型竟不如6岁孩童?

最新研究揭示,顶级大模型如Gemini 3 Pro Preview的视觉推理能力仅略胜三岁幼儿,面对六岁儿童仍有20%差距。研究指出,大模型依赖语言描述处理视觉信息,导致在精细细节、空间想象等任务上表现不佳,暴露了AI在物理世界感知的短板。文章探讨了视觉推理的瓶颈及具身智能的发展方向。

2026-01-23 16:05
0
0

月之暗面新模型Kiwi-do亮相 AI界震动

月之暗面新模型Kiwi-do亮相 AI界震动

月之暗面在完成35亿融资后,其神秘新模型“Kiwi-do”在LmArena平台亮相,训练数据截至2025年1月,在视觉物理推理测试中表现卓越,被猜测为多模态模型K2-VL。该模型展示了强大的视觉与语言融合能力,预计将推动文档解析、仪表盘分析等商业应用,引发AI界广泛关注。

2026-01-05 17:38
9
0