简单来讲,这个框架可以将 GRPO 集成到你的 python 应用中,比如使用这个训练 Qwen2.5-7B 搜索邮件,或者玩各种游戏。这里使用小模型是因为小模型更适合用于这些零散任务的驱动模型。

想要训练自己的 Agent 的同学可以看看这个框架了

地址:http://github.com/OpenPipe/ART

Image