边用边训：蚂蚁集团携手清华大学开源 AReaL 系统，训练 AI 推理最高提速 2.77 倍

淘百科百科资讯 2026-03-04 19:33:21 14

3 月 4 日消息，蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版，这是一种大规模异步强化学习系统，主要通过解耦生成与训练流程，来提升大语言模型（特别是推理模型）的训练效率。

援引博文介绍，随着大语言模型向“大推理模型”（LRM，Large Reasoning Model）演进，强化学习（RL）已成为提升模型逻辑推理能力的关键技术。

然而，现有的 RL 训练系统主流采用同步机制，即生成阶段必须等待批次中所有输出（通常是最长的那个）完成后才能开始训练。

这种“木桶效应”导致大量 GPU 算力处于闲置状态，制约了训练效率，在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。

研究团队为解决这一瓶颈，开发了 AReaL 系统，这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程：生成工作器可以连续不断地产生新数据，而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间，显著提升了硬件资源的利用率，让整个训练过程更加流畅高效。

在算法层面，AReaL 面临异步带来的数据“陈旧度”挑战，即训练数据可能来自旧版本的模型。为此，团队设计了陈旧度感知训练机制，通过控制工作负载来平衡数据的新鲜度。

同时，研究团队提出了解耦 PPO 目标函数，并支持“可中断生成”技术，允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中，使用相同数量的 GPU，AReaL 相比最先进的同步系统，训练速度最高提升 2.77 倍。更令人惊喜的是，这种加速并未以牺牲准确率为代价，模型的解题能力在部分任务上甚至有所提升。

附上参考地址

arxiv 论文：《AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》
GitHub 相关页面

本文地址： http://taodianjin.cn/18615.html

文章来源：淘百科