

揭秘学术真相:清华与上交大研究揭示强化学习对大模型推理的潜在阻碍
发布于:
全文约329字
清华大学与上海交通大学联合研究挑战了纯强化学习提升大模型推理能力的普遍观点,发现强化学习并非能力创造器,而更像能力调控器,对模型新推理路径的开发有限。该研究提醒业界应审慎对待大模型强化学习训练的热潮。
清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。
研究团队在数学、编码和视觉推理三大领域进行了系统性实验:
研究结果引发学界激烈讨论:
研究团队提出关键区分:
强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
这项研究为过热的大模型RL训练热潮敲响警钟,提示行业应: