TAG:强化学习

GSWorld突破Sim2Real瓶颈 3D高斯泼溅助机器人零样本技能落地

GSWorld突破Sim2Real瓶颈 3D高斯泼溅助机器人零样本技能落地

GSWorld通过融合3D高斯泼溅与物理引擎,构建了照片级真实感的仿真环境,实现了机器人技能从虚拟训练到真实世界部署的零样本迁移。该技术解决了Sim2Real的长期难题,支持模仿学习、强化学习等多种策略训练,并能通过闭环优化持续提升策略性能,大幅降低机器人技能开发的成本和门槛。

2026-01-08 16:25
775
0

Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽

Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽

Liquid AI发布仅2.6B参数的实验性模型LFM2-2.6B-Exp,该模型通过纯强化学习优化,在指令跟随、知识问答和数学推理等基准测试中表现卓越,甚至超越数百亿参数的大型模型。专为边缘设备设计,支持高效本地部署,已完全开源,加速高性能AI向设备端普及。

爱力方 2025-12-26 17:16
10
0

OpenAI 模拟黑客攻击修补代理浏览器漏洞

OpenAI 模拟黑客攻击修补代理浏览器漏洞

OpenAI采用创新策略,通过开发AI模拟黑客攻击系统来测试ChatGPT Atlas代理式浏览器的安全性。该系统专注于对抗提示注入攻击,利用强化学习技术发现新型攻击路径,以提升防御能力。文章探讨了AI代理在便利性与安全风险之间的平衡,并提醒用户保持警惕。

爱力方 2025-12-24 16:06
8
0

迪士尼机器人摔跤也内卷:摔得轻还要帅,AI将Bug变绝活

迪士尼机器人摔跤也内卷:摔得轻还要帅,AI将Bug变绝活

迪士尼研究院最新研究提出了一种革命性的机器人摔倒控制方法,通过强化学习让机器人不仅能‘软着陆’减少损伤,还能在摔倒后摆出指定的艺术姿势。这项技术将机器人摔倒从需要避免的Bug转变为可控的‘表演艺术’,为娱乐、影视行业及机器人安全恢复提供了创新解决方案。

爱力方 2025-12-23 14:15
9
0

阿里通义发布SAPO强化学习法,提升大语言模型性能

阿里通义发布SAPO强化学习法,提升大语言模型性能

阿里通义Qwen团队推出新型强化学习方法SAPO,通过平滑温度控制门控函数替代传统硬剪切,有效解决大语言模型在强化学习中的策略优化不稳定问题。该方法具备连续信任域、序列级一致性和token级自适应性等优势,在数学推理、代码生成等任务上表现显著优于GRPO和GSPO,为AI研究提供了新方向。

2025-12-10 18:15
13
0

英伟达发布AI新框架 8亿参数模型优化工具管理

英伟达发布AI新框架 8亿参数模型优化工具管理

英伟达与香港大学联合发布8亿参数AI模型Orchestrator,通过ToolOrchestra强化学习框架训练,能够智能协调多种工具和大型语言模型解决复杂问题。该模型在基准测试中以更低成本实现更高准确性,并能根据用户偏好灵活选择工具,为企业提供经济高效的AI解决方案。

2025-12-05 17:45
22
0

OpenAI推出忏悔机制 揭示AI潜在不当行为

OpenAI推出忏悔机制 揭示AI潜在不当行为

OpenAI正在测试名为“忏悔”的新机制,通过训练AI模型在单独报告中承认规则违反行为,即使原始回答存在欺骗性。该方法旨在提升AI系统的透明度,揭示潜在的不当行为如奖励黑客或忽视安全规则。研究表明,该机制能显著提高问题可见性,使模型隐藏违规行为的概率降至4.4%。

2025-12-05 15:12
5
0

中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini

中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini

UniWorld-V2是由兔展智能与北京大学联合推出的新一代图像编辑模型,基于创新的UniWorld-R1强化学习框架,在图像编辑领域实现重大突破。该模型支持框选即改操作,能够精准理解中文指令并渲染复杂中文字体,在GEdit-Bench和ImgEdit测试中性能显著超越GPT-Image与Gemini等知名模型,为多模态图像编辑技术带来新的可能性。

2025-11-07 11:05
17
0

10分钟的“师徒传承”:AgiBot攻克机器人快速学习难题,“中国智造”迎来新变量

10分钟的“师徒传承”:AgiBot攻克机器人快速学习难题,“中国智造”迎来新变量

上海AgiBot公司突破工业自动化关键技术,仅需10分钟即可教会机器人完成复杂制造任务。该技术结合人机远程操作与强化学习,工人通过远程引导后AI系统接管优化,实现机器人自我改进。G2人形机器人已在生产线投入使用,大幅缩短传统数周编程周期,为制造业带来前所未有的灵活性与竞争力。

爱力方 2025-11-06 16:23
14
0

全球首个具身智能新技术投用 机器人学新技能仅十几分钟

全球首个具身智能新技术投用 机器人学新技能仅十几分钟

全球首个具身智能机器人真机强化学习技术正式应用于工业生产线,使机器人学习新技能时间从数周缩短至十几分钟。该技术结合端到端大模型和灵巧手硬件升级,实现机器人与系统无缝交互,完成精密装配、家政服务等复杂任务。专家预测到2029年具身智能机器人将占全球机器人市场30%以上,成为应对劳动力短缺的关键助手。

2025-11-04 16:01
19
0

智元机器人真机强化学习落地工业产线,开启具身智能规模化应用新阶段

智元机器人真机强化学习落地工业产线,开启具身智能规模化应用新阶段

智元机器人宣布其真机强化学习技术已在龙旗科技验证产线成功落地,实现了从学术研究到工业应用的重要突破。该技术让机器人能在真实产线中自主学习优化,新技能训练仅需数十分钟,显著提升柔性制造效率,破解传统产线刚性瓶颈,为消费电子等精密制造领域提供即插即用的智能升级方案。

机器人大讲堂 2025-11-03 14:37
0
0

为Transformer注入长期记忆:Memo框架通过“学会做摘要”解决具身智能核心挑战

为Transformer注入长期记忆:Memo框架通过“学会做摘要”解决具身智能核心挑战

牛津大学研究团队提出Memo框架,为Transformer模型注入长期记忆能力。该框架模仿人类笔记行为,让模型自主生成任务相关的摘要标记,通过动态记忆缓冲区存储和检索关键信息,解决了传统Transformer在长序列任务中的记忆限制问题。实验表明Memo在具身智能任务中性能优异,上下文标记减少8倍,同时保持强大的长时域推理能力。

机器人大讲堂 2025-10-30 11:58
11
0

“踹不倒”的人形机器人开源了!清华、北大、银河通用、上海期智联合发布Any2Track框架!

“踹不倒”的人形机器人开源了!清华、北大、银河通用、上海期智联合发布Any2Track框架!

清华、北大、银河通用和上海期智研究院联合发布Any2Track框架,通过两阶段强化学习解决了人形机器人动作追踪和抗干扰的核心难题。该框架包含AnyTracker通用动作追踪器和AnyAdapter动态适配模块,能在复杂地形、外力干扰等场景下稳定复刻人类动作,并在Unitree G1机器人上实现零样本仿真到真实世界的迁移,为人形机器人落地应用提供突破性解决方案。

2025-10-13 17:27
3
0

《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划

《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划

DeepMind在《Science Robotics》封面发表的RoboBallet研究提出了一种基于图神经网络和强化学习的新框架,解决了多机器人系统中的任务分配、调度和运动规划三大核心挑战。该技术通过动态图表示和高效的离线训练,实现了在复杂环境中多个机器人的实时协同规划,计算效率比传统方法提升显著,为工业自动化提供了创新解决方案。

2025-09-18 14:11
0
0

Science子刊:注意力机制+RL实现腿足机器人精确控制,100%障碍穿越成功率

Science子刊:注意力机制+RL实现腿足机器人精确控制,100%障碍穿越成功率

苏黎世联邦理工学院在《Science Robotics》发表创新研究,通过结合强化学习和多头注意力机制,使腿足机器人能够自主识别地形关键信息并选择最优落脚点。该方法融合本体感知与外部地形数据,实现100%障碍穿越成功率,显著提升了机器人在复杂环境中的适应性和运动控制精度。

2025-09-13 07:32
18
0