九游体育app官网• 数据约略以更高效、低资本的式样进行规模化彭胀-九游体育app官网下载IOS/安卓全站最新版下载

发布日期:2025-09-12 12:19    点击次数:114

九游体育app官网• 数据约略以更高效、低资本的式样进行规模化彭胀-九游体育app官网下载IOS/安卓全站最新版下载

Datawhale干货 九游体育app官网

干货作家:ALme,裁剪:青稞AI

断断续续学了泰半年的强化学习了,终于有勇气写一个中枢转头啦(实在太难判辨了),这是这个系列第一篇,尝试对RL for LLM进行从最高级次起程且脍炙生齿的转头,但愿能让RL的学习弧线愈加夷易近东谈主

一. 监督学习范式的固有局限性

大型言语模子的演进,遥远以来依赖于方法的监督学习(Supervised Learning)范式,主要体当今预测验(Pretrain)和指示微调(SFT)两个阶段。该范式的中枢在于,模子需要依赖东谈主类给出的、从输入到输出的完整监督信号进行学习。

若要仅凭此旅途达到通用东谈主工智能(AGI)的高度,必须悠闲两个近乎理思化的前提条款:

• 监督数据的无限性与完备性:数据量级需趋于无限,且其散播能磨灭所有可能遭遇的问题,以确保模子的全知性。

• 监督信号的十足无缺性:所有监督数据必须准确无误,不存在职何失误或偏见,以确保模子的正确性。

伸开剩余84%

• 监督数据的无限性与完备性:数据量级需趋于无限,且其散播能磨灭所有可能遭遇的问题,以确保模子的全知性。

• 监督信号的十足无缺性:所有监督数据必须准确无误,不存在职何失误或偏见,以确保模子的正确性。

然则,在实验中,这两点均难以齐备。一方面,高质料的东谈主类标注数据已出现“数据瓶颈”,其出产资本腾贵且效果有限。另一方面,东谈主类常识自己存在规模(如很多科学未解之谜),且在标注经由中不成幸免地会引入失误和主不雅偏见。

因此,探索一种约略冲破上述局限性的新彭胀方法(scaling method)大势所趋。这种新方法需要悠闲:

• 数据约略以更高效、低资本的式样进行规模化彭胀。

• 对监督信号的依赖不错放宽,不再要求“人人级别”的无缺谜底。

• 数据约略以更高效、低资本的式样进行规模化彭胀。

• 对监督信号的依赖不错放宽,不再要求“人人级别”的无缺谜底。

强化学习(RL)为此提供了可能的措置决策。

二. RL:应答挑战的新范式

RL之是以被视为LLM捏续进化的关键,源于其两个显赫特征:

• 数据由模子与环境交互自愿生成:这从压根上措置了数据开头的收尾,为模子的捏续学习提供了近乎无限的原材料。

• 监督信息从“生成式”退化为“考据式”:RL的中枢是奖励信号(reward),它不要求监督者提供无缺的“人人谜底”,而只需对模子生成的谜底进行有用性或质料的“考据”。基于“考据谜底的难度远低于生成谜底”这一基身手实[1],RL大幅裁减了对监督信息质料和标注难度的要求

• 数据由模子与环境交互自愿生成:这从压根上措置了数据开头的收尾,为模子的捏续学习提供了近乎无限的原材料。

• 监督信息从“生成式”退化为“考据式”:RL的中枢是奖励信号(reward),它不要求监督者提供无缺的“人人谜底”,而只需对模子生成的谜底进行有用性或质料的“考据”。基于“考据谜底的难度远低于生成谜底”这一基身手实[1],RL大幅裁减了对监督信息质料和标注难度的要求

为更显著地判辨RL,咱们不错从它与监督学习的探讨脱手。

监督学习(SFT)的蚀本函数不错抒发为:

其中,是指示(prompt),是模子的生成内容, 是代表东谈主类人人谜底的真的散播, 是模子的输出计谋散播。其宗旨是最小化模子散播与人人散播之间的各别。

RL的蚀本函数则可视为一种加权监督学习:

中枢辞别在于

• 引入了权重项

• 代表东谈主类人人谜底的真的散播被替换为模子我方的输出计谋散播

• 引入了权重项

• 代表东谈主类人人谜底的真的散播被替换为模子我方的输出计谋散播

可能有东谈主思说,既然只是加权的监督学习,那RL有什么止境的呢?

四. RL与泛泛加权监督学习的本体辞别

RL的荒谬性在于其权重 的打算以及测验数据的开头,这使其辞别于旨在调度样本遑急性的传统加权学习:

权重可为负值,齐备“违害就利”:传统加权学习的权重频频为非负,用于强调遑急样本。而RL中的权重不错为负。负权重衔尾模子“幸免”生成特定的动作,而不单是是“师法”盼望的动作。这种“刑事牵扯”机制是模子约略快速撤消失败计谋、探索未知但可能更优计谋空间(Exploration)的关键[2][3],亦然其智力越过测验数据收尾的压根原因。

数据开头与权重调治,酿成自洽的优化闭环:RL用于学习的数据由模子自身生成。这一脾气与上述的赏罚机制相调治,酿成了一个繁密的自优化轮回:模子生成动作 -> 取得带有正或负权重的反应 -> 调度计谋以增多高权重动作、减少低权重动作 -> 生成更高质料的新动作。通过这一轮回,惟一权重(以及背后的reward)打算妥贴,模子便有后劲齐备捏续的自我迭代与智力攀升,最终达到越过东谈主类的性能水平。

五. RL for LLM的中枢磋议问题

在上述框架下,刻下RL for LLM的磋议主要围绕以下几个中枢问题伸开:

怎么从“用于考据的弱监督信号(reward)”推导出每个样本的权重 ?举例,ReST[4]方法中的0-1过滤、PPO[5]中学习的价值函数(value function),以及DeepSeek GRPO[6]中从批次数据中推断的上风函数(advantage function),齐是对该问题的不同解法。

相接上少量,怎么高效、准确地获取“用于考据的弱监督信号(reward)”?从RLHF可学习的reward model[7],到DeepSeek的rule-based reward,齐是在措置这个问题

RL的两个中枢身手——a.基于加权监督学习的模子更新 与 b.新样本的生成——二者的交互节律是怎么的?是生成一个样本就更新一次(完全在线),已经生成N个样本后更新一次或N次?先前批次生成的样本在后续迭代中是否应该被放胆(on-policy vs. off-policy的量度)?PPO/GRPO算法中的修正比值、clip参数、生成批次大小、更新的epoch数量等,齐与这个中枢节律问题致密关联。

RL测验应聘用怎么的指示(prompt)散播 p(x)?以数学问题为例,怎么打算一个问题序列(课程),才能最大化模子的学习效果?[8]

进行RL测验前,基础模子(base model)需要具备哪些先决智力,才能有用因循后续的强化学习经由?[9]

以上几点组成了刻下RL for LLM磋议的基本蓝图。对这些问题的束缚探索息争答,将捏续鼓励大型言语模子向着更高级的智能样式迈进。这一篇的转头暂告一段落,后续的著述将进行更深切的探讨。

宥恕大众留言筹商!

参考[1]All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning

https://arxiv.org/abs/2503.01067

[2]e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs

https://arxiv.org/pdf/2506.09026

[3]Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

https://arxiv.org/abs/2404.14367

[4]Reinforced Self-Training (ReST) for Language Modeling

https://arxiv.org/abs/2308.08998

[5]Proximal Policy Optimization Algorithms

https://arxiv.org/abs/1707.06347

[6]DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

https://arxiv.org/abs/2402.03300

[7]Training language models to follow instructions with human feedback

https://arxiv.org/abs/2203.02155

[8]SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

https://arxiv.org/abs/2506.09016

[9]Scaling Test-Time Compute Without Verification or RL is Suboptimal

https://arxiv.org/abs/2502.12118九游体育app官网

发布于:浙江省