TAG:强化学习
英伟达发布AI新框架 8亿参数模型优化工具管理
英伟达与香港大学联合发布8亿参数AI模型Orchestrator,通过ToolOrchestra强化学习框架训练,能够智能协调多种工具和大型语言模型解决复杂问题。该模型在基准测试中以更低成本实现更高准确性,并能根据用户偏好灵活选择工具,为企业提供经济高效的AI解决方案。
OpenAI推出忏悔机制 揭示AI潜在不当行为
OpenAI正在测试名为“忏悔”的新机制,通过训练AI模型在单独报告中承认规则违反行为,即使原始回答存在欺骗性。该方法旨在提升AI系统的透明度,揭示潜在的不当行为如奖励黑客或忽视安全规则。研究表明,该机制能显著提高问题可见性,使模型隐藏违规行为的概率降至4.4%。
中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini
UniWorld-V2是由兔展智能与北京大学联合推出的新一代图像编辑模型,基于创新的UniWorld-R1强化学习框架,在图像编辑领域实现重大突破。该模型支持框选即改操作,能够精准理解中文指令并渲染复杂中文字体,在GEdit-Bench和ImgEdit测试中性能显著超越GPT-Image与Gemini等知名模型,为多模态图像编辑技术带来新的可能性。
10分钟的“师徒传承”:AgiBot攻克机器人快速学习难题,“中国智造”迎来新变量
上海AgiBot公司突破工业自动化关键技术,仅需10分钟即可教会机器人完成复杂制造任务。该技术结合人机远程操作与强化学习,工人通过远程引导后AI系统接管优化,实现机器人自我改进。G2人形机器人已在生产线投入使用,大幅缩短传统数周编程周期,为制造业带来前所未有的灵活性与竞争力。
全球首个具身智能新技术投用 机器人学新技能仅十几分钟
全球首个具身智能机器人真机强化学习技术正式应用于工业生产线,使机器人学习新技能时间从数周缩短至十几分钟。该技术结合端到端大模型和灵巧手硬件升级,实现机器人与系统无缝交互,完成精密装配、家政服务等复杂任务。专家预测到2029年具身智能机器人将占全球机器人市场30%以上,成为应对劳动力短缺的关键助手。
智元机器人真机强化学习落地工业产线,开启具身智能规模化应用新阶段
智元机器人宣布其真机强化学习技术已在龙旗科技验证产线成功落地,实现了从学术研究到工业应用的重要突破。该技术让机器人能在真实产线中自主学习优化,新技能训练仅需数十分钟,显著提升柔性制造效率,破解传统产线刚性瓶颈,为消费电子等精密制造领域提供即插即用的智能升级方案。
为Transformer注入长期记忆:Memo框架通过“学会做摘要”解决具身智能核心挑战
牛津大学研究团队提出Memo框架,为Transformer模型注入长期记忆能力。该框架模仿人类笔记行为,让模型自主生成任务相关的摘要标记,通过动态记忆缓冲区存储和检索关键信息,解决了传统Transformer在长序列任务中的记忆限制问题。实验表明Memo在具身智能任务中性能优异,上下文标记减少8倍,同时保持强大的长时域推理能力。
“踹不倒”的人形机器人开源了!清华、北大、银河通用、上海期智联合发布Any2Track框架!
清华、北大、银河通用和上海期智研究院联合发布Any2Track框架,通过两阶段强化学习解决了人形机器人动作追踪和抗干扰的核心难题。该框架包含AnyTracker通用动作追踪器和AnyAdapter动态适配模块,能在复杂地形、外力干扰等场景下稳定复刻人类动作,并在Unitree G1机器人上实现零样本仿真到真实世界的迁移,为人形机器人落地应用提供突破性解决方案。
《Science Robotics》封面:DeepMind发布RoboBallet,重新定义多机器人协同规划
DeepMind在《Science Robotics》封面发表的RoboBallet研究提出了一种基于图神经网络和强化学习的新框架,解决了多机器人系统中的任务分配、调度和运动规划三大核心挑战。该技术通过动态图表示和高效的离线训练,实现了在复杂环境中多个机器人的实时协同规划,计算效率比传统方法提升显著,为工业自动化提供了创新解决方案。
Science子刊:注意力机制+RL实现腿足机器人精确控制,100%障碍穿越成功率
苏黎世联邦理工学院在《Science Robotics》发表创新研究,通过结合强化学习和多头注意力机制,使腿足机器人能够自主识别地形关键信息并选择最优落脚点。该方法融合本体感知与外部地形数据,实现100%障碍穿越成功率,显著提升了机器人在复杂环境中的适应性和运动控制精度。
Science Robotics 封面论文:RoboBallet利用图神经网络和强化学习规划多机器人协作
DeepMind与伦敦大学合作开发的RoboBallet系统,利用图神经网络和强化学习技术,实现了在多机器人随机环境中的高效任务与运动规划。该系统能够处理任意障碍物几何形状、任务姿势和机器人位置,无需依赖手工设计的简化方案,解决了任务分配、调度和运动规划的联合优化问题。
《Science Robotics》重磅:仅需2小时,机器人柔性装配技能直逼人类顶尖水平
美国伯克利大学研究团队在《Science Robotics》发表突破性成果,开发出人机协同强化学习系统HIL-SERL。该系统仅需1-2.5小时真实训练,就能让机器人掌握精密装配、双臂协调等高难度操作技能,成功率接近100%,执行速度甚至超越人类水平,展现了卓越的适应性和抗干扰能力。
伦敦大学多机器人运动规划新方法登《Science Robotics》
伦敦大学学院与Google DeepMind等机构合作在《Science Robotics》发表创新研究,提出基于图神经网络和强化学习的多机器人运动规划方法。该方法通过GNN模型在数百万合成场景中训练,将机器人、任务和障碍映射为图结构,实现自动生成无碰撞轨迹,可泛化至新环境布局,仅需CAD文件和高级任务描述即可生成运动计划,大幅减少人工编程和调试需求。
直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑
本次直播将深入探讨大模型复杂推理技术的最新进展,重点介绍DeepSeek-R1等模型如何通过强化学习实现长思维链推理。中国人民大学赵鑫教授将分享慢思考技术的研究成果,施普林格·自然编辑总监常兰兰博士将介绍2025年人工智能图书资源。活动还将提供与大模型专家交流的机会,并有机会获得专业书籍和周边礼品。