TAG:VLA模型
PI VLA模型解读系列二:π0.5模型与实时分块算法RTC
本文深入解读PI VLA模型系列的第二部分,重点介绍了从π0.5模型到实时分块算法(RTC)的技术演进。文章详细阐述了π0.5模型如何通过多源异构数据协同训练提升泛化能力,以及知识绝缘VLA(π0.5-KI)新范式如何实现高效训练与精准控制。同时,解析了实时动作分块算法的原理及其对VLA模型的普适性价值。
智元SOP突破机器人训练瓶颈 VLA模型实现分布式在线后训练
智元机器人提出的SOP系统是一种可扩展在线后训练框架,旨在解决VLA模型在真实世界部署中面临的挑战。该系统通过闭环的Actor-Learner架构,利用异构机器人集群持续采集交互数据,实现云端集中优化和分钟级参数同步,从而在保持模型通用性的同时提升任务执行熟练度。研究表明,SOP能显著提升VLA模型性能,且效率随机器人规模扩大而线性增长。
黄仁勋推动自动驾驶板块 英伟达开源模型助力智驾普及
英伟达在CES上开源视觉-语言-行动(VLA)模型Alpamayo 1,旨在增强自动驾驶决策能力,推动L4级自动驾驶发展。该模型与仿真框架及数据集共同构建开发闭环,引发全球车企关注。消息带动自动驾驶板块股价上涨,国内车企如理想、小鹏等也在积极布局VLA技术,加速'智驾平权'进程。
PI VLA模型解读系列:从π0模型到Hi Robot
本文系统解读了Physical Intelligence(PI)从2024年10月到2025年12月在具身智能VLA模型领域的发展历程。文章详细介绍了π0模型的混合专家架构、工作流程及其与PaliGemma的区别,并梳理了后续π0-FAST、Hi Robot系统、π0.5、π0.5-KI、π0.6等关键模型与技术的演进,如FAST分词器、知识绝缘范式、实时动作分块算法和RECAP方法,展现了PI在机器人视觉-语言-动作模型上的技术突破与创新路径。
2025具身智能复盘:爆发与瓶颈并存,未来十年如何布局?
本文深度复盘2025年具身智能产业的发展现状,分析了从技术突破到商业化的关键节点。文章探讨了VLA模型如何让机器人实现‘看得懂、听得懂、做得到’,并对比了国内外市场冰火两重天的竞争格局,包括宇树、Figure AI等企业的动态,以及特斯拉Optimus面临的挑战。最后,文章展望了行业未来十年的发展趋势与投资布局方向。
原力灵机发布GeoVLA框架 机器人3D视觉实现突破
原力灵机推出GeoVLA框架,通过创新的双流架构解决传统VLA模型的空间失明问题。该框架结合语义理解、几何感知和动作生成,赋予机器人真正的3D视觉能力,在仿真和真实环境测试中均表现出卓越的性能和鲁棒性。
小鹏理想隔空交锋 多家企业押注VLA背后智驾路线或走向融合
文章报道了小鹏汽车何小鹏与理想汽车郎咸朋围绕VLA(视觉语言动作模型)技术路线的公开讨论,揭示了自动驾驶行业在VLA与世界模型之间的技术分歧。内容分析了两种方案的核心差异、代表性企业的立场,并探讨了未来技术融合的可能性,为读者理解智能驾驶发展趋势提供了专业视角。
仅0.77B参数碾压3.5B大模型!上海交大Evo-1刷新VLA模型纪录,集成lerobot框架可用于SO100/SO101部署
上海交大Evo-1模型仅用0.77B参数在机器人VLA领域实现突破,无需机器人数据预训练即可超越3.5B大模型性能。该模型通过轻量化设计、16.4Hz高推理频率和创新训练范式,解决了参数臃肿、实时性不足、泛化能力弱和数据依赖四大核心问题,已集成lerobot框架支持SO100/SO101部署,为消费级GPU上的机器人智能操控提供高效解决方案。
“无声的驾驶”:小鹏第二代VLA模型发布,物理世界AI迎来操作系统
小鹏汽车在2025科技日发布第二代VLA模型,实现视觉信号到动作指令的端到端输出,成为首个量产物理世界大模型。该模型搭载数十亿级参数,远超行业水平,基于近1亿clips数据训练,相当于人类驾驶65000年经验。应用覆盖智能驾驶、机器人及飞行汽车领域,推出'小路NGP'和'无导航自动辅助驾驶'功能,将推动物理AI操作系统发展,预计2025年12月开启体验。
π0.5宣布开源!这下机器人泛化难题有解了?
Physical Intelligence公司开源的π0.5 VLA模型通过异构数据协同训练和多模态数据融合,显著提升了机器人在复杂现实场景下的泛化能力。该模型能理解任务语义、拆解复杂流程并精准执行动作,在家庭环境中成功完成物品整理、餐具清洗等任务,为解决机器人泛化难题提供了有效方案。
广和通新一代Fibot具身智能开发平台,如何助力Physical Intelligence π0.5模型实现VLA泛化?
广和通发布新一代具身智能开发平台Fibot,成功应用于Physical Intelligence的π0.5 VLA模型数据采集。该平台通过VR眼镜联动控制、双臂协同和移动底盘优化,显著提升机器人在复杂环境中的交互、移动与操作能力,为具身智能模型的研发和部署提供强大硬件支持。