TAG:强化学习

前 DeepMind 首席科学家辞职创业着眼超级智能新发展

前DeepMind首席科学家席尔瓦辞职创业，在伦敦成立AI初创公司Ineffable Intelligence，并推进高达10亿美元的种子轮融资。该公司将突破传统大型语言模型，基于强化学习构建能自主探索和学习的新型智能系统，有望开启人工智能技术的新篇章。

aibase

2026-02-22 19:04

中金预测2026年大模型将在强化学习等领域实现更多突破

中金研究对2026年大模型技术发展趋势进行了展望，指出强化学习、模型记忆和上下文工程将成为关键突破方向。报告分析了预训练Scaling-Law的重现、MoE架构的普及以及持续学习等新路线的进展，强调这些技术将推动大模型从短文本生成向长思维链任务和原生多模态发展，为实现AGI目标奠定基础。

东方财富网

2026-02-05 10:40

腾讯混元迎顶级科学家庞天宇，领衔多模态强化学习

清华大学博士、前新加坡Sea AI Lab高级研究科学家庞天宇正式加盟腾讯，出任混元多模态部首席研究科学家，将重点负责强化学习技术的研究与突破，助力混元大模型在多模态领域的深度演进。此次加盟是腾讯AI人才战略的重要布局，展现了其在核心技术研发上的坚定投入。

aibase

2026-02-03 13:56

DeepMind 核心成员 David Silver 离职创业聚焦强化学习突破大模型瓶颈

DeepMind核心人物David Silver离职创业，创立Ineffable Intelligence公司，押注强化学习挑战大模型局限性。他认为仅靠人类数据训练的大语言模型无法实现超人工智能，主张AI通过试错和体验自主获取知识，开启“经验时代”。这一动向标志着AI顶尖人才向实验性领域流动，引发实现超人工智能的新竞赛。

aibase

2026-02-02 15:41

深谷智脑系统开放携手生态伙伴破解应用难题

文章介绍了中科深谷发布的具身智能机器人智脑系统“BrainCspace V1.0”，该系统采用“大小脑”深度融合架构，整合强化学习算法与运动控制，旨在解决机器人在真实场景应用中的泛化与协同难题。系统支持多平台部署和“一脑多形”，已接入多种机器人形态，并在安防、巡检等领域实现初步应用，展现了开放生态下的行业解决方案潜力。

机器人大讲堂

2026-01-28 11:05

GSWorld突破Sim2Real瓶颈 3D高斯泼溅助机器人零样本技能落地

GSWorld通过融合3D高斯泼溅与物理引擎，构建了照片级真实感的仿真环境，实现了机器人技能从虚拟训练到真实世界部署的零样本迁移。该技术解决了Sim2Real的长期难题，支持模仿学习、强化学习等多种策略训练，并能通过闭环优化持续提升策略性能，大幅降低机器人技能开发的成本和门槛。

具身研习社

2026-01-08 16:25

775

Liquid AI发布LFM2-2.6B-Exp实验模型性能超越百亿级巨兽

Liquid AI发布仅2.6B参数的实验性模型LFM2-2.6B-Exp，该模型通过纯强化学习优化，在指令跟随、知识问答和数学推理等基准测试中表现卓越，甚至超越数百亿参数的大型模型。专为边缘设备设计，支持高效本地部署，已完全开源，加速高性能AI向设备端普及。

爱力方

2025-12-26 17:16

OpenAI 模拟黑客攻击修补代理浏览器漏洞

OpenAI采用创新策略，通过开发AI模拟黑客攻击系统来测试ChatGPT Atlas代理式浏览器的安全性。该系统专注于对抗提示注入攻击，利用强化学习技术发现新型攻击路径，以提升防御能力。文章探讨了AI代理在便利性与安全风险之间的平衡，并提醒用户保持警惕。

爱力方

2025-12-24 16:06

迪士尼机器人摔跤也内卷：摔得轻还要帅，AI将Bug变绝活

迪士尼研究院最新研究提出了一种革命性的机器人摔倒控制方法，通过强化学习让机器人不仅能‘软着陆’减少损伤，还能在摔倒后摆出指定的艺术姿势。这项技术将机器人摔倒从需要避免的Bug转变为可控的‘表演艺术’，为娱乐、影视行业及机器人安全恢复提供了创新解决方案。

爱力方

2025-12-23 14:15

阿里通义发布SAPO强化学习法，提升大语言模型性能

阿里通义Qwen团队推出新型强化学习方法SAPO，通过平滑温度控制门控函数替代传统硬剪切，有效解决大语言模型在强化学习中的策略优化不稳定问题。该方法具备连续信任域、序列级一致性和token级自适应性等优势，在数学推理、代码生成等任务上表现显著优于GRPO和GSPO，为AI研究提供了新方向。

aibase

2025-12-10 18:15

英伟达发布AI新框架 8亿参数模型优化工具管理

英伟达与香港大学联合发布8亿参数AI模型Orchestrator，通过ToolOrchestra强化学习框架训练，能够智能协调多种工具和大型语言模型解决复杂问题。该模型在基准测试中以更低成本实现更高准确性，并能根据用户偏好灵活选择工具，为企业提供经济高效的AI解决方案。

aibase

2025-12-05 17:45

OpenAI推出忏悔机制揭示AI潜在不当行为

OpenAI正在测试名为“忏悔”的新机制，通过训练AI模型在单独报告中承认规则违反行为，即使原始回答存在欺骗性。该方法旨在提升AI系统的透明度，揭示潜在的不当行为如奖励黑客或忽视安全规则。研究表明，该机制能显著提高问题可见性，使模型隐藏违规行为的概率降至4.4%。

aibase

2025-12-05 15:12

中文图像编辑迎来新王！UniWorld-V2发布，框选即改、中文字体精准渲染，性能碾压GPT-Image与Gemini

UniWorld-V2是由兔展智能与北京大学联合推出的新一代图像编辑模型，基于创新的UniWorld-R1强化学习框架，在图像编辑领域实现重大突破。该模型支持框选即改操作，能够精准理解中文指令并渲染复杂中文字体，在GEdit-Bench和ImgEdit测试中性能显著超越GPT-Image与Gemini等知名模型，为多模态图像编辑技术带来新的可能性。

aibase

2025-11-07 11:05

10分钟的“师徒传承”：AgiBot攻克机器人快速学习难题，“中国智造”迎来新变量

上海AgiBot公司突破工业自动化关键技术，仅需10分钟即可教会机器人完成复杂制造任务。该技术结合人机远程操作与强化学习，工人通过远程引导后AI系统接管优化，实现机器人自我改进。G2人形机器人已在生产线投入使用，大幅缩短传统数周编程周期，为制造业带来前所未有的灵活性与竞争力。

爱力方

2025-11-06 16:23

全球首个具身智能新技术投用机器人学新技能仅十几分钟

全球首个具身智能机器人真机强化学习技术正式应用于工业生产线，使机器人学习新技能时间从数周缩短至十几分钟。该技术结合端到端大模型和灵巧手硬件升级，实现机器人与系统无缝交互，完成精密装配、家政服务等复杂任务。专家预测到2029年具身智能机器人将占全球机器人市场30%以上，成为应对劳动力短缺的关键助手。

央视网

2025-11-04 16:01

通知

尊敬的用户

user

TAG:强化学习

前 DeepMind 首席科学家辞职创业着眼超级智能新发展

中金预测2026年大模型将在强化学习等领域实现更多突破

腾讯混元迎顶级科学家庞天宇，领衔多模态强化学习

DeepMind 核心成员 David Silver 离职创业聚焦强化学习突破大模型瓶颈

深谷智脑系统开放携手生态伙伴破解应用难题

GSWorld突破Sim2Real瓶颈 3D高斯泼溅助机器人零样本技能落地

Liquid AI发布LFM2-2.6B-Exp实验模型性能超越百亿级巨兽

OpenAI 模拟黑客攻击修补代理浏览器漏洞

迪士尼机器人摔跤也内卷：摔得轻还要帅，AI将Bug变绝活

阿里通义发布SAPO强化学习法，提升大语言模型性能

英伟达发布AI新框架 8亿参数模型优化工具管理

OpenAI推出忏悔机制揭示AI潜在不当行为

中文图像编辑迎来新王！UniWorld-V2发布，框选即改、中文字体精准渲染，性能碾压GPT-Image与Gemini

10分钟的“师徒传承”：AgiBot攻克机器人快速学习难题，“中国智造”迎来新变量

全球首个具身智能新技术投用机器人学新技能仅十几分钟

快讯

黑芝麻智能获资本青睐智驾与机器人芯片领跑国产化

两会提案揭示具身智能五大发展机遇

2026年3月性价比GEO服务方案TOP8 助力品牌AI时代认知资产构建

字节豆包内测AI电商功能日活1.45亿用户免跳转抖音

OpenClaw概念引爆市场算力电网成核心赛道

网易开源LobsterAI升级0.2.2版支持企业微信和QQ

和黄医药紧急召回肿瘤创新药英矽智能发布轻量科研模型

科创芯片ETF天弘5日吸金超5000万资金持续加码

浙大科技园举办首场AI黑客松孵化新生代创意

首驱科技携春晚同款电摩及AI智能出行新技术亮相AWE2026

推荐专栏

爱力方

机器人大讲堂

user

TAG:强化学习

前 DeepMind 首席科学家辞职创业 着眼超级智能新发展

中金预测2026年大模型将在强化学习等领域实现更多突破

腾讯混元迎顶级科学家庞天宇，领衔多模态强化学习

DeepMind 核心成员 David Silver 离职创业聚焦强化学习突破大模型瓶颈

深谷智脑系统开放 携手生态伙伴破解应用难题

GSWorld突破Sim2Real瓶颈 3D高斯泼溅助机器人零样本技能落地

Liquid AI发布LFM2-2.6B-Exp实验模型 性能超越百亿级巨兽

OpenAI 模拟黑客攻击修补代理浏览器漏洞

迪士尼机器人摔跤也内卷：摔得轻还要帅，AI将Bug变绝活

阿里通义发布SAPO强化学习法，提升大语言模型性能

英伟达发布AI新框架 8亿参数模型优化工具管理

OpenAI推出忏悔机制 揭示AI潜在不当行为

中文图像编辑迎来新王！UniWorld-V2发布，框选即改、中文字体精准渲染，性能碾压GPT-Image与Gemini

10分钟的“师徒传承”：AgiBot攻克机器人快速学习难题，“中国智造”迎来新变量

全球首个具身智能新技术投用 机器人学新技能仅十几分钟

快讯

黑芝麻智能获资本青睐 智驾与机器人芯片领跑国产化

两会提案揭示具身智能五大发展机遇

2026年3月性价比GEO服务方案TOP8 助力品牌AI时代认知资产构建

字节豆包内测AI电商功能 日活1.45亿用户免跳转抖音

OpenClaw概念引爆市场 算力电网成核心赛道

网易开源LobsterAI升级0.2.2版 支持企业微信和QQ

和黄医药紧急召回肿瘤创新药 英矽智能发布轻量科研模型

科创芯片ETF天弘5日吸金超5000万 资金持续加码

浙大科技园举办首场AI黑客松 孵化新生代创意

首驱科技携春晚同款电摩及AI智能出行新技术亮相AWE2026

推荐专栏

爱力方

机器人大讲堂

前 DeepMind 首席科学家辞职创业着眼超级智能新发展

深谷智脑系统开放携手生态伙伴破解应用难题

Liquid AI发布LFM2-2.6B-Exp实验模型性能超越百亿级巨兽

OpenAI推出忏悔机制揭示AI潜在不当行为

全球首个具身智能新技术投用机器人学新技能仅十几分钟

黑芝麻智能获资本青睐智驾与机器人芯片领跑国产化

字节豆包内测AI电商功能日活1.45亿用户免跳转抖音

OpenClaw概念引爆市场算力电网成核心赛道

网易开源LobsterAI升级0.2.2版支持企业微信和QQ

和黄医药紧急召回肿瘤创新药英矽智能发布轻量科研模型

科创芯片ETF天弘5日吸金超5000万资金持续加码

浙大科技园举办首场AI黑客松孵化新生代创意