TAG:VLA模型

智元ACoT-VLA入选CVPR 2026 开源助力AGIBOT挑战赛

智元ACoT-VLA入选CVPR 2026 开源助力AGIBOT挑战赛

智元机器人联合北京航空航天大学推出的ACoT-VLA架构入选CVPR 2026,开创了在动作空间进行推理的思维链范式。该模型通过显式与隐式推理模块的结合,显著提升了机器人在复杂环境下的操控性能,并作为AGIBOT WORLD CHALLENGE的基线模型开源,助力全球开发者推动具身智能技术的发展。

2026-03-09 21:18
0
0

PI VLA模型解读:多尺度具身记忆终结机器人金鱼脑

PI VLA模型解读:多尺度具身记忆终结机器人金鱼脑

本文解读了Physical Intelligence团队提出的多尺度具身记忆(MEM)技术,该技术为VLA模型赋予了长达15分钟的连贯记忆能力,使机器人能够完成复杂的长时程任务。文章深入分析了机器人记忆实现的技术困境,包括存储与延迟的矛盾、长短时记忆的差异等问题,并展示了MEM如何突破这些瓶颈,推动具身智能进入全任务统筹的新阶段。

2026-03-08 19:37
0
0

KAIST与UC Berkeley团队为VLA模型赋予记忆 实测成功率提升一倍

KAIST与UC Berkeley团队为VLA模型赋予记忆 实测成功率提升一倍

KAIST和UC Berkeley团队提出的HAMLET框架为视觉-语言-动作模型添加了历史记忆能力,解决了机器人在长时任务中因缺乏上下文而失败的问题。该轻量级插件通过时刻令牌和记忆模块整合关键历史信息,无需从头训练大模型,即在真实场景任务中将成功率提升高达47.2%,同时保持高效推理速度。

2026-02-17 09:41
0
0

国产开源双臂机器人LingBot-VLA问世,2万小时实拍数据开启机器人GPT时刻

国产开源双臂机器人LingBot-VLA问世,2万小时实拍数据开启机器人GPT时刻

LingBot-VLA是一款国产开源双臂机器人视觉-语言-动作基础模型,通过整合9个主流平台约2万小时的真实世界操作数据进行预训练,显著提升了模型泛化能力和训练效率。该模型采用先进的视觉-语言骨干网络与扩散式动作头架构,在RoboTwin 2.0基准测试中表现出优越性能,并验证了数据规模与任务成功率之间的缩放法则。

2026-02-02 16:43
0
0

Helix 02:移动与操作融合,实现人形机器人全身控制的VLA模型

Helix 02:移动与操作融合,实现人形机器人全身控制的VLA模型

本文介绍了Figure公司发布的Helix 02模型,该模型通过三层系统架构(System 0/1/2)实现了人形机器人移动与操作的无缝融合。文章详细阐述了其如何解决传统方案中动作僵化、切换迟缓的问题,通过统一的视觉语言模型(VLA)实现从场景理解到全身关节控制的实时、自主协同,提升了机器人在动态环境中的鲁棒性和自然运动能力。

2026-02-02 16:43
0
0

具身智能需摆脱中国先研国外带火怪圈

具身智能需摆脱中国先研国外带火怪圈

本文探讨了具身智能领域的发展现状,指出中国研究者在关键技术架构上早有先见,却常由海外团队带火的现象。文章以VLA模型为例,分析了中国团队如智平方在RoboMamba等创新上的突破,强调中国玩家正以更系统、深入的方式参与智能竞争,避免历史重演。内容涵盖技术演进、行业格局及未来挑战,旨在回归系统与架构的本质思考。

2026-02-02 15:38
0
0

微软跨维智能新品发布 阶跃星辰临界点获融资

微软跨维智能新品发布 阶跃星辰临界点获融资

本文报道了近期具身智能领域的重要动态,包括微软发布首个机器人VLA+模型Rho-alpha、跨维智能开源具身智能工具链EmbodiChain、日本公司推出人形机器人Cinnamon 1,以及阶跃星辰、临界点、浙江人形等多家公司完成大额融资。文章梳理了技术突破与资本动向,展现了具身智能产业的快速发展与商业化前景。

2026-01-28 18:43
0
0

PI VLA模型解读:从π0.6到人机技能迁移的涌现

PI VLA模型解读:从π0.6到人机技能迁移的涌现

本文是PI VLA模型解读系列的第三篇,重点介绍了Physical Intelligence发布的具身智能VLA模型π0.6的架构设计、训练数据及改进点,并探讨了其引入的RECAP方法以及观察到的人机技能迁移涌现现象,展现了模型在机器人操作任务中性能的显著提升。

2026-01-26 16:16
0
0

PI VLA模型解读系列二:π0.5模型与实时分块算法RTC

PI VLA模型解读系列二:π0.5模型与实时分块算法RTC

本文深入解读PI VLA模型系列的第二部分,重点介绍了从π0.5模型到实时分块算法(RTC)的技术演进。文章详细阐述了π0.5模型如何通过多源异构数据协同训练提升泛化能力,以及知识绝缘VLA(π0.5-KI)新范式如何实现高效训练与精准控制。同时,解析了实时动作分块算法的原理及其对VLA模型的普适性价值。

2026-01-19 16:40
0
0

智元SOP突破机器人训练瓶颈 VLA模型实现分布式在线后训练

智元SOP突破机器人训练瓶颈 VLA模型实现分布式在线后训练

智元机器人提出的SOP系统是一种可扩展在线后训练框架,旨在解决VLA模型在真实世界部署中面临的挑战。该系统通过闭环的Actor-Learner架构,利用异构机器人集群持续采集交互数据,实现云端集中优化和分钟级参数同步,从而在保持模型通用性的同时提升任务执行熟练度。研究表明,SOP能显著提升VLA模型性能,且效率随机器人规模扩大而线性增长。

2026-01-07 16:47
0
0

黄仁勋推动自动驾驶板块 英伟达开源模型助力智驾普及

黄仁勋推动自动驾驶板块 英伟达开源模型助力智驾普及

英伟达在CES上开源视觉-语言-行动(VLA)模型Alpamayo 1,旨在增强自动驾驶决策能力,推动L4级自动驾驶发展。该模型与仿真框架及数据集共同构建开发闭环,引发全球车企关注。消息带动自动驾驶板块股价上涨,国内车企如理想、小鹏等也在积极布局VLA技术,加速'智驾平权'进程。

2026-01-07 14:35
0
0

PI VLA模型解读系列:从π0模型到Hi Robot

PI VLA模型解读系列:从π0模型到Hi Robot

本文系统解读了Physical Intelligence(PI)从2024年10月到2025年12月在具身智能VLA模型领域的发展历程。文章详细介绍了π0模型的混合专家架构、工作流程及其与PaliGemma的区别,并梳理了后续π0-FAST、Hi Robot系统、π0.5、π0.5-KI、π0.6等关键模型与技术的演进,如FAST分词器、知识绝缘范式、实时动作分块算法和RECAP方法,展现了PI在机器人视觉-语言-动作模型上的技术突破与创新路径。

2026-01-06 17:11
3
0

2025具身智能复盘:爆发与瓶颈并存,未来十年如何布局?

2025具身智能复盘:爆发与瓶颈并存,未来十年如何布局?

本文深度复盘2025年具身智能产业的发展现状,分析了从技术突破到商业化的关键节点。文章探讨了VLA模型如何让机器人实现‘看得懂、听得懂、做得到’,并对比了国内外市场冰火两重天的竞争格局,包括宇树、Figure AI等企业的动态,以及特斯拉Optimus面临的挑战。最后,文章展望了行业未来十年的发展趋势与投资布局方向。

2025-12-31 17:50
5
0

原力灵机发布GeoVLA框架 机器人3D视觉实现突破

原力灵机发布GeoVLA框架 机器人3D视觉实现突破

原力灵机推出GeoVLA框架,通过创新的双流架构解决传统VLA模型的空间失明问题。该框架结合语义理解、几何感知和动作生成,赋予机器人真正的3D视觉能力,在仿真和真实环境测试中均表现出卓越的性能和鲁棒性。

爱力方 2025-12-25 18:06
9
0

小鹏理想隔空交锋 多家企业押注VLA背后智驾路线或走向融合

小鹏理想隔空交锋 多家企业押注VLA背后智驾路线或走向融合

文章报道了小鹏汽车何小鹏与理想汽车郎咸朋围绕VLA(视觉语言动作模型)技术路线的公开讨论,揭示了自动驾驶行业在VLA与世界模型之间的技术分歧。内容分析了两种方案的核心差异、代表性企业的立场,并探讨了未来技术融合的可能性,为读者理解智能驾驶发展趋势提供了专业视角。

2025-12-13 18:57
0
0