Fine-tuning with gpt-oss and Hugging Face Transformers

OpenAI 刚放出了昨天发布的 OSS 系列开放权重模型的微调教程。当然由于 Expert MXFP4 量化的原因，目前只能用 Hugging Face 的 TRL 库来微调。Unsloth 之类的库暂时还不支持，需要等等。

这个微调教程用的是 OSS-20B，教程包括了向模型的系统提示中添加一个新的"推理语言"选项，然后使用多语言推理数据集上进行监督微调。

官方的例子中使用了一张 H100 80G 显卡，微调 1000 条数据需要大概18分钟。这里我建议还是去租卡微调，不要自己买卡（除非你有），或者用性能低的卡。时间就是金钱我的朋友。现在租 H100 80G 每小时也就2刀左右。

当然这个教程对于用来学习如何微调也是非常不错的，给到了实列代码，并且写得也挺好还足够短，基本10分钟就能看完。