【转载】AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

【新智元导读】UC Berkeley、UW、AI2 等机构联合团队最新工作提出:在恰当的训练范式下,强化学习(RL)不仅能「打磨」已有能力,更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA,并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

在AI研究圈,一个核心争论是:强化学习(RL )是否能够赋予模型超越其基础模型(base model )的推理能力。

怀疑派观点:早在四月份,清华的黄高团队[arXiv:2504.13837]指出,尽管经过 RLVR 训练的模型在较小的采样值 (k)(例如 (k=1))时能优于其基础模型,但当采样数较大时,基础模型往往能取得相同或更好的 pass@k 表现。

他们通过覆盖率(coverage)和困惑度(perplexity)分析推断,模型的推理能力最终受限于基础模型的支持范围。

类似地,斯坦福崔艺珍团队 [arXiv:2507.14843] 从理论上论证了 RLVR 无法突破基础模型的表征极限。

https://mp.weixin.qq.com/s/0yk3VEJrpXWTTnR15bB4Qg

1 个赞