训练 Agent 能力的专用框架

简单来讲，这个框架可以将 GRPO 集成到你的 python 应用中，比如使用这个训练 Qwen2.5-7B 搜索邮件，或者玩各种游戏。这里使用小模型是因为小模型更适合用于这些零散任务的驱动模型。

想要训练自己的 Agent 的同学可以看看这个框架了