TAG:人工智能优化

摩尔线程发布URPO框架:大模型训练新范式获AAAI 2026认可

摩尔线程发布URPO框架:大模型训练新范式获AAAI 2026认可

摩尔线程在AAAI 2026会议上发布URPO框架,这是一种统一奖励与策略优化技术,通过将指令遵循和奖励评判功能整合到单一模型中,显著提升大语言模型的训练效率和性能。实验显示基于Qwen2.5-7B的URPO在AlpacaEval和RewardBench等基准测试中超越传统方法,为AI训练开辟了新路径。

2025-11-14 15:35
0
0