TAG:视觉语言模型
liko.ai完成首轮融资,以端侧视觉语言模型革新智能家居领域
初创公司liko.ai完成首轮融资,致力于开发端侧视觉语言模型及AI硬件,旨在通过本地化部署的AI技术革新智能家居体验,打造能理解并保护用户的家庭计算中枢。
多模态大模型最新评测结果公布 Gemini-3-Pro稳居榜首 国产模型豆包、商汤表现亮眼 Qwen3-VL成为首个开源高分模型
SuperCLUE-VLM发布2025年12月多模态视觉语言模型评测榜单,谷歌Gemini-3-Pro以83.64分断层领先。国产模型中,商汤SenseNova V6.5Pro和字节豆包大模型表现亮眼,分别位列第二、第三。阿里Qwen3-VL成为首个总分突破70分的开源模型,推动技术民主化。榜单揭示了多模态竞赛进入实用化新阶段,视觉推理仍是关键瓶颈。
香港大学与智元联合团队发布人形机器人全身VLA框架
香港大学、智元AGIBOT等联合研究团队提出WholeBodyVLA框架,将视觉-语言-动作模型扩展至双足人形机器人全身控制,基于智元灵犀X2平台验证了其在全身移动操作任务中的可行性,推动人形机器人向真实世界应用迈进。
斯坦福推出图书馆机器人 两周完成五人九月工作量 VLA识别准确率提升一倍
斯坦福大学与丰田研究所联合开发了名为Scanford的图书馆机器人,通过机器人驱动数据飞轮框架,在两周内完成2103个书架扫描,将视觉语言模型的多语言书籍识别率从32.4%提升至71.8%。该研究展示了机器人如何自主收集真实场景数据,优化大模型性能,突破其在复杂物理环境中的应用瓶颈。
阿里开源Qwen3-VL,攻克长视频分析难题,引领多模态技术突破
阿里巴巴开源了新一代视觉-语言大模型Qwen3-VL,在长视频分析领域取得重大突破。该模型在长达2小时的视频中能保持99.5%的关键帧定位准确率,解决了长时序理解的核心难题。同时,在视觉数学和多语言文档处理等专项任务上也达到业界领先水平,为视频分析、智能剪辑等应用提供了自主可控的解决方案。
Nvidia 发布新 AI 模型Alpamayo-R1,推动自动驾驶研究向前迈进
Nvidia在NeurIPS AI大会上发布了专为自动驾驶研究设计的开放推理视觉语言模型Alpamayo-R1。该模型基于Cosmos-Reason,能够处理文本和图像,帮助车辆感知环境并做出类似人类的决策,旨在推动四级自动驾驶的实现。Nvidia还提供了Cosmos Cookbook等资源,支持开发者训练和使用AI模型,加速物理AI领域的发展。
英伟达为自动驾驶装上“推理大脑”:新模型专注实时决策,预判事故于发生之前
英伟达在NeurIPS大会上发布了首个专注于自动驾驶的推理视觉语言模型Alpamayo-R1,旨在赋予自动驾驶汽车类似人类的决策能力,以加速L4级完全自动驾驶的实现。同时推出的Cosmos Cookbook为开发者提供了从数据整理到模型评估的全套指南,助力物理人工智能技术的应用落地。
VLA终于有了 “长期记忆”:斯坦福MemER框架破解分钟级长时序操纵难题!
斯坦福大学提出的MemER框架通过分层策略与经验检索机制,解决了机器人长时序任务中的记忆难题。该框架让机器人能够主动筛选关键信息,在分钟级真实场景任务中实现高效推理,避免了传统方法因处理长序列数据导致的计算成本爆炸和记忆冗余问题。
从“被动执行”到“主动协作”,复旦大学Ask-to-Clarify框架重塑人机交互范式
复旦大学研究团队提出Ask-to-Clarify框架,通过多轮对话澄清模糊指令,使具身智能体从被动执行转变为主动协作。该框架结合视觉-语言模型和扩散模型,采用两阶段训练策略,在8项实际任务测试中成功率高达90%-98.3%,为人机自然交互提供了创新解决方案。
机器人感知大升级!轻量化注入几何先验,成功率提升31%
上海交通大学与剑桥大学联合提出Evo-0方法,通过隐式注入3D几何先验增强机器人视觉语言动作模型的空间理解能力。该方法利用VGGT模型从多视角RGB图像提取3D结构信息,无需额外传感器或深度输入,在仿真实验中成功率提升31%,真实世界操作任务成功率提升28.88%,显著提升了机器人对空间结构和物体布局的感知精度。