TAG:SAPO

阿里通义发布SAPO强化学习法,提升大语言模型性能

阿里通义发布SAPO强化学习法,提升大语言模型性能

阿里通义Qwen团队推出新型强化学习方法SAPO,通过平滑温度控制门控函数替代传统硬剪切,有效解决大语言模型在强化学习中的策略优化不稳定问题。该方法具备连续信任域、序列级一致性和token级自适应性等优势,在数学推理、代码生成等任务上表现显著优于GRPO和GSPO,为AI研究提供了新方向。

2025-12-10 18:15
0
0