TAG:视觉语言模型
阿里开源Qwen3-VL,攻克长视频分析难题,引领多模态技术突破
阿里巴巴开源了新一代视觉-语言大模型Qwen3-VL,在长视频分析领域取得重大突破。该模型在长达2小时的视频中能保持99.5%的关键帧定位准确率,解决了长时序理解的核心难题。同时,在视觉数学和多语言文档处理等专项任务上也达到业界领先水平,为视频分析、智能剪辑等应用提供了自主可控的解决方案。
Nvidia 发布新 AI 模型Alpamayo-R1,推动自动驾驶研究向前迈进
Nvidia在NeurIPS AI大会上发布了专为自动驾驶研究设计的开放推理视觉语言模型Alpamayo-R1。该模型基于Cosmos-Reason,能够处理文本和图像,帮助车辆感知环境并做出类似人类的决策,旨在推动四级自动驾驶的实现。Nvidia还提供了Cosmos Cookbook等资源,支持开发者训练和使用AI模型,加速物理AI领域的发展。
英伟达为自动驾驶装上“推理大脑”:新模型专注实时决策,预判事故于发生之前
英伟达在NeurIPS大会上发布了首个专注于自动驾驶的推理视觉语言模型Alpamayo-R1,旨在赋予自动驾驶汽车类似人类的决策能力,以加速L4级完全自动驾驶的实现。同时推出的Cosmos Cookbook为开发者提供了从数据整理到模型评估的全套指南,助力物理人工智能技术的应用落地。
VLA终于有了 “长期记忆”:斯坦福MemER框架破解分钟级长时序操纵难题!
斯坦福大学提出的MemER框架通过分层策略与经验检索机制,解决了机器人长时序任务中的记忆难题。该框架让机器人能够主动筛选关键信息,在分钟级真实场景任务中实现高效推理,避免了传统方法因处理长序列数据导致的计算成本爆炸和记忆冗余问题。
从“被动执行”到“主动协作”,复旦大学Ask-to-Clarify框架重塑人机交互范式
复旦大学研究团队提出Ask-to-Clarify框架,通过多轮对话澄清模糊指令,使具身智能体从被动执行转变为主动协作。该框架结合视觉-语言模型和扩散模型,采用两阶段训练策略,在8项实际任务测试中成功率高达90%-98.3%,为人机自然交互提供了创新解决方案。
机器人感知大升级!轻量化注入几何先验,成功率提升31%
上海交通大学与剑桥大学联合提出Evo-0方法,通过隐式注入3D几何先验增强机器人视觉语言动作模型的空间理解能力。该方法利用VGGT模型从多视角RGB图像提取3D结构信息,无需额外传感器或深度输入,在仿真实验中成功率提升31%,真实世界操作任务成功率提升28.88%,显著提升了机器人对空间结构和物体布局的感知精度。