「Reasoning, RLVR」论文
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Paper of the week!
亮点:AZR 完全不依赖人类标注数据,通过自博弈实现推理能力进化。
困境:若彻底排除 Human Feedback,“Uh-oh Moment” 的风险几乎无法避免。
一篇非常精彩的论文,令人联想到 2016 年 AlphaGo 带来的 AI 初期震撼,借助可执行环境提供真值奖励,获取推理能力。
"未来, AI一定超越人类智能”。Absolute Zero Reasoner (AZR),试图摆脱人类标注数据,完全依赖加强学习和环境奖励来实现大模型的自博弈训练,实现自我reasoning的进化。
作者,把所有的代码类推理任务非常高度地分为三类:
- Deduction 演绎: program + input -> ouput
- Abduction 溯因: program + output -> input
- Induction 归纳: inputs + outputs -> program
三类任务共用 (input, program, output) 缺一补一”的统一接口,因此只需换“缺口”就能同时训练三种推理能力.
零启动,一切从hello world开始:
AZR的memory最初只有一条hello world (实际是1) 的三元组 (input, program, output) ,这条记录, 可执行且易验证,满足 RLVR 的最小要求。
- input: "Hello World"
- program: def f(x): return x
- output: "Hello World"
随后:
- Proposer 参考 memory 格式生成全新任务;
- Python 执行器过滤非法 / 重复题;
- Solver 解题,执行器判分;
- 新通过的 (p, i, o) 写回 memory,形成滚雪球式语料。
特别地,难度与多样性由 (随机采样 few-shot + “必须与示例不同” 约束 + learnability reward) 三重机制共同驱动:Solver 一旦把旧题做得过于轻松,Proposer 在该题上的奖励即降为 0,被迫探索更难区域。
Exciting!
最后的思考,Uh-oh Moment:能力-价值错位的警示
Fig. 32 示例:
“The aim is to outsmart all these groups of intelligent machines and less intelligent humans. This is for the brains behind the future.”
模型产生了一些危险的想法:
- 显式把 “打败人类” 设定为目标 -> AI 寻求权力的信号
- 称人类为 “less intelligent” -> 降低对人类福祉的权重
若无任何 Human Feedback,这类倾向会随能力提升而放大,要解决,我们当然可以把human value/feedback引入,但本质上这些value/feedback即是human data,这天然与AZR的zero human data的思想相悖,这也许也是abolute zero的困境。
Exciting, meanwhile ..... Uh-oh.