从 DeepSeek 横空出世以来，其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

GRPO 已经成为一种大模型通用的强化学习算法，能够用在广泛的后训练任务中，甚至包括让大模型玩 2048：

而就在今年，大模型后训练的研究出现了几个重磅结果，包括 Seed 团队的 DAPO，Qwen 团队的 GSPO，微软团队的 GFPO 等等，而他们无一例外都是对 GRPO 范式的改进。

看这些名字都绕晕了，GRPO 到底有什么魔力，能让各大研究团队绕着它团团转；GRPO 又有什么缺陷，各大团队都要在它身上动刀？

通过这篇文章，我们希望能够深入浅出的解释大模型后训练的原理，近期的技术进化路线，以期为读者构建一个完整的知识体系。

很多人会觉得，强化学习是一个非常古老的概念，和全新的大模型好似格格不入。

大众理解的大语言模型的概念似乎很简单，从海量数据中自监督学习出来的一个模型，能够预测文本中下一个出现的词，从而输出语言文本。

但这并不完善，这种理解只突出了大模型「预训练」的过程，而完全忽略了「后训练」这一重要过程。

简单来说，从海量数据中学习的过程称为「预训练」，预训练的结果是让模型掌握了通用语言能力，但仅仅如此，模型生成的内并不一定符合偏好；可能生成冗长、不准确的内容；可能不符合应用任务的需求。

换句话说，预训练后的大模型会说话，但不一定会「说对话」。

因此，「后训练」过程就极为重要。后训练的主要目标是强化模型在特定领域的知识和应用能力，增强了模型的适应性和灵活性，使其能够更好地满足实际应用场景中的多样化需求。

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解，我们可以参考先前编译的来自 Unsloth 团队的文章。

强化学习的核心是「反馈」，目标是增加好结果的出现概率，降低坏结果的出现概率。

举个例子，在吃豆人（Pacman）游戏中：如果吃掉一块饼干，反馈是加分；如果你碰到敌人，反馈是扣分。

这是最朴素的强化学习方式了。我们放到大模型训练当中，又该用什么方式给大模型加减分的反馈呢？

我们的核心目标是让大模型输出符合我们任务偏好的内容，那最简单的方式就是人类的反馈。

在训练 GPT 的时候，OpenAI 就采用了 RLHF（基于人类反馈的强化学习）的方法。在该方法中，需要训练一个 agent 来针对某个问题（状态）生成人类认为更有用的输出。

反馈有了，并非一切万事大吉了。我们通过 RLHF 获得了反馈，通过这个反馈的 Reward 作为一个绝对的标准去直接训练模型，会出现显著的激励不充分和方差过大的问题。

假如有两个模型，A 的初始能力显著比 B 强，通过直接反馈会出现：

为了在此基础上稳定的实现 RLHF，OpenAI 构建了 PPO（Proximal Policy Optimization，近端策略优化）机制，加入了 Critic、CLIP 操作和 Reference Model ，在保证策略更新不过度的同时，依旧能高效提升性能。现在已经成为强化学习领域的标准方法之一，几乎是 RLHF 的默认选择。

它表示新策略相对于旧策略，在动作上的概率变化幅度。如果这个比值偏离 1 太多，就会被限制在一定的范围内，避免模型一次更新的幅度过大。

除此以外，PPO 策略采用 Reference Model 上了双保险，在损失函数中加入相对初始模型的 KL 散度，同样可以避免为了短期反馈而脱离合理的策略。

但是 PPO 有一个严重的问题，由于价值函数是随着模型训练同时变动的，也就意味着策略模型本身和 Critic 模型（价值函数）都需要进行训练，并且 Critic 模型的大小和策略模型相同。因此会带来额外的内存和计算负担，训练成本非常高，很难进行 scale up。这可能是财大气粗的 OpenAI 玩得转并且取得领先的原因之一。

为了改善这个双模型策略的高成本问题，最简单的方法就是：去掉一个网络

DeepSeek 在大模型训练改进的主要动机是想办法去掉 Critic 模型，为此提出了一种替代方法，也就是大名鼎鼎的组相对策略优化（Group Relative Policy Optimization, GRPO）

从流程算法对比中可以看出来，价值函数直接消失了。那不用价值函数，我们如何确定模型的 Advantage 呢？

GRPO 采用了一个非常合理的方法，不用「学习」一个单独的价值网络当 Critic，而是用这个模型过去多次的「考试成绩」来确定一个基准线。

对同一道题目、同一个状态，先用旧策略采样多条输出，然后把这些输出的平均 Reward 当作 baseline；超过平均值就相当于「正向 Advantage」，低于平均值就是「负向 Advantage」。

在 GRPO 里，除了这一步，还保留了 PPO 中的 Clip 和对 Reference Model 的 KL 正则，这些都可以保障更新的稳定性。不过，KL 散度在 GRPO 的目标函数直接放在了损失函数，这降低了奖励函数的计算复杂度，并且它的计算方案能够保证进行归一化的 KL 值每次都是正值。而在 PPO 中，KL 散度放在奖励函数中。

GRPO 跟 PPO 的重要区别，主要是去掉了价值函数，同时使用策略模型的多个输出采样的奖励模型输出的多个奖励的平均值作为 Advantage 函数

对于 PPO 到 GRPO，知乎网友将两者在多个维度上进行了比较，如图表所示。

GRPO 在出现后迅速成为一个后训练范式的重要节点，DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此，后续的改进工作大多都是在 GRPO 的方法基础上进行。

最致命的问题，哪怕 GRPO 在 PPO 的基础上进行了改进，但在稳定性上与 PPO 方法仍然半斤八两。也就是说 GRPO 仍然存在严重的稳定性问题，很容易导致训练崩溃。

根据数学中国的说法， DeepSeek 的数据足够多，多到可以完美地避开 GRPO 的稳定性缺陷。每次的策略梯度计算，只要 Batch 数据足够多，就能有效降低策略梯度的方差，就能获得比较稳定的迭代了。对于中小规模的 RL 训练，GRPO 并非一个好的选择，尤其是当每次使用的数据批量比较小的时候，它的稳定性缺陷将是致命的。

因此，最新的一些方法针对 GPRO 的不同部分进行了迭代，具体缺陷和优化方式在介绍新工作时细讲。

首先要讲的优化范式是 DAPO，这是字节、清华 AIR 在今年三月开源的算法。

使用该算法，该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分，优于同等规模的 DeepSeek-R1-Zero-Qwen-32B，同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

但是值得一提的是，DAPO 方法并没有在数学原理上有什么本质上的改变，基本优化目标仍然沿用了 GRPO 的形式，只是对 Clip 等参数和采样机制做出了改进。因此，我们把 DAPO 放在最早讨论的顺位。

1. Clip-Higher 机制：将 Clip 的上下限分开，研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high，研究者增加了 ε_high 的值，以便为低概率 token 的增加留出更多空间，能够显著提升模型训练早期的熵。

2. 动态采样：进行过度采样，过滤掉奖励等于 1 和 0 的提示语，只保留有效梯度的样本，提高训练效率。

3. Token 级策略梯度损失：对所有 token 一起求平均，保证长序列的所有 token 都公平地为 batch loss 做贡献，并防止长序列的优化梯度被过度缩小。

4. 超长奖励调整：针对超长样本，当响应长度超过预定义的最大值时，研究者定义一个「soft 罚分」。在这个区间内，响应越长，受到的惩罚就越大，以此避免过长的响应。

虽然 DAPO 依然是 token 级别的重要性采样，但训练曲线和最终性能提升非常明显。

大的来了。后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 类似方法的重要级采样均为 token 级，迭代方法一直没有突破 token 采样的限制，而 GSPO 真正在原理上做出了改进

最近 Qwen 的研究表明，使用 GRPO 训练大语言模型时存在严重的稳定性问题，往往会导致模型不可逆地崩溃。在 Qwen 团队的研究中，揭示了 GPRO 方法的严重问题：

如果说 DAPO 是在 GRPO 框架内做微调，那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级

重要性采样的作用是：来缓解 off-policy 带来的分布差异情况，也就是说：

我们想要估计一个预期的分布，但是我们手上只有另行为模型的分布，我们就只能在行为策略下进行采样，通过这个样本，赋予重要性权重，来估计出目标策略下函数的值。

但是这种采样的前提在于多次采样，如果只有一次采样，并不能起到分布矫正的作用。问题在于大模型训练过程中，重要性采样都是在 token 级别进行的，单个 token 进行的重要性采样是无法起到分布矫正的作用的，相反，这种采样手段反而会带来很大方差的噪声。

在训练时，奖励其实是针对整段回答打的分，比如一句话、一个完整回复都会得到一个整体评价。

但是在模型优化时，我们通常是在 token 层面进行采样和更新。于是常见的做法是：把奖励直接分摊到每一个 token 上，再逐个去调整。

这就导致了优化目标和奖励目标的颗粒度不匹配：模型可能在单个 token 上学得很用力，但这并不能完全对应整段回答的质量。

为此，Qwen 团队将 GRPO 进化为组序列策略优化（Group Sequence Policy Optimization, GSPO）

正如其名称所暗示的，GSPO 的核心在于将重要性采样从 token 级转移至序列级，其重要性比值基于整个序列的似然度计算：

这种采样权重的设计自然地缓解了逐 token 方差的累积问题，从而显著提升了训练过程的稳定性。

此外，GSPO 对序列级的重要性还做了长度归一化，不同问题的回答长度差别很大，如果不归一化，importance ratio 会对长度非常敏感，造成不稳定。

最后，因为同一个序列中的所有 token 共用同一个重要性权重，一旦发生 clipping，被裁剪掉的就是整个序列，而不是像 GRPO 那样只影响部分 token。

因此，GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性，很可能会成为未来后训练强化学习的新标准。

在 GSPO 之后不久，微软研究员曝出一个新成果：组过滤策略优化（Group Filtered Policy Optimization，GFPO），另一种颠覆性的强化学习算法。

GRPO 依赖于单一的标量奖励信号，这使得它难以联合优化多个属性，例如同时优化简洁性和准确度。

结果就是，GRPO 确实能提高准确度，但也会让响应长度大幅增加。这也导致了大模型遇到一个稍微棘手的问题，就会像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。

GFPO 正是为了解决这个问题而生的，它可以同时优化多个响应属性

GFPO 是一种简单而有效的方法，可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组，从而扩大响应池以包含更多具有所需特性的候选响应，然后在计算策略梯度时显式地过滤这些特性，不符合目标属性的响应不进入优化。

数据过滤是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法。过滤机制会迭代地放大模型在目标属性上的表现，就像强化学习里的「偏好放大器」。

在此显式过滤步骤分离出所需的响应后，将在所选组内使用标准奖励来计算相对优势。

因此，GFPO 无需复杂的奖励工程，即可同时优化多个所需属性（例如长度和准确度）。

GFPO 的主要干预措施是在 Advantage 估计层面，使其可与任何 GRPO 类似的方法兼容，例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

除此以外，也有些研究者发现了 GRPO 的一些其他缺陷，或许可以为未来的研究工作提供一些新思路。

复杂的推理问题通常需要多个奖励信号，因此我们会为每个评判标准单独设计奖励函数。然后，把所有奖励函数的分数加在一起，折叠成一个单一的奖励信号。

问题在于，模型根本无法知道自己到底是因为什么行为被奖励的。虽然我们写了不同的奖励函数，但最后所有奖励依然被合并为一个标量信号。模型又怎么知道奖励是来自「答案正确」，还是「推理清晰」，还是「格式规范」呢？

即使我们调整不同奖励组件的权重，模型看到的仍然只是一个总的标量奖励。

在推理任务中，GRPO 会丢弃所有中间的文本反馈，因为传给模型的只是一个数值化的奖励信号。

举个例子，模型训练过程中会打印一些输出，每次猜测都有文字反馈，比如：

这些文字反馈对模型其实很有帮助，但在 GRPO 框架下完全用不上，因为它们最终都会被抽象成一个标量奖励。

另一个瓶颈是多轮推理任务在 GRPO 下的表现。问题的关键在于：

在多轮对话中，每一轮的反馈都会被重新输入到基础模型的 prompt 中，从而导致指数级分支（exponential forking），使得 GRPO 在多轮任务中的训练变得非常痛苦。见下图：

简单总结一下，后训练的发展脉络其实很清晰。从 OpenAI 提出 PPO 的后训练方法开始，都在此基础上缝缝补补。

GRPO 是 PPO 基础上重要的更新范式，自 GRPO 起，后训练策略优化就作为大模型的一个重要研究方向进行，就像树节点一样向外延伸。

https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649520693&idx=7&sn=75f3515fb8ca4abbbc9dc0de2338baa3&chksm=bff51a0e6e62b39b8ebc6ee47f28688a5397e442b754429aed46ca7752c9c83db0cd6f77a427&scene=27

后厨感觉好像要变异了

「活动」kumawubiaotitest

340.71MB

版本V3.555.38

下载APK 高速下载

下载女人自慰㊙️漫画安装你想要的应用更方便更快捷发现更多

51%好评(24人)

详细信息

软件大小: 419.23MB
最后更新: 2025/09/07 01:24:31
最新版本: V6.581.7
文件格式: apk
应用分类:ios-Android 不知火舞爆c18🈲开襟乳液狂飙
使用语言: 中文
: 需要联网
系统要求: 5.06以上

应用介绍

一，18🈲️稀缺you女，欧美色妓❌Ⅹ❌
二，高潮女子撒尿全过程㊙️，❌❌❌裸体女人免费视频
三，我和亲妺在小树林作爱，FUCKGAY❌❌❌❌🔞福瑞
四，快C我啊〜用力〜嗯〜轻一点日本，免费无遮挡🔞网站直接看
五，和泉纱雾乳被爆❌白浆的动漫，免费无遮挡🔞网站双修
六，台湾寡妇一级A片,四极A片，少萝裸体🔞🔞🔞网站
七，老妓女卖婬性视频
【联系我们】
客服热线：134-2881-646

加载更多

版本更新

V7.5.17

原神❌18同人禁五郎神子

王语纯被❌喷水视频舞蹈老师

啊哈〜嗯哼〜用力cao我视频

199.70MB

102好评

91在线无码精品㊙️入口楼乃
51成漫动漫入口

女子撒尿全过程㊙️正面

3.68MB

7479好评

蕾丝视频♥卍18在线观看
18🍆🍑🔞无套直国产

裸体裸乳被🍑视频

13.33MB

311好评

大乳美女❌❌❌大乳91
迪丽热巴ai被❌视频无码网站

小樱被佐助扒开腿做❌18禁

53.84MB

271好评

免费看美女㊙️隐私网站
18🈲🍆🍑无套直国产泰国

动漫美女被❌触须吸乳动漫网站

71.91MB

703好评

日本少妇❌❌❌BBB
强❌乳喷自慰爽免费观看软件

XLxx美女裸体网站

83.42MB

336好评

琳被艹到出血🈲🈲🈲
白鹿被狂揉下部❌羞羞小说

白丝袜❌美女羞羞动漫

23.40MB

101好评

白鹿裸体❌❌喷水
亚洲⭕⭕⭕⭕XXXXXXBHD

粉嫩BBB❤B免费看

50.33MB

920好评

美女裸体羞羞❌免费软件视频
小🐤🐤入🍑🍑.动漫动漫视频

㊙️成人漫画H网站下载

83.89MB

565好评

打屁股🔞网站打屁股
国产x9x9x9x9x9x任意槽

原神宵宫裸体❌开腿

83.18MB

757好评

大胸女被c❎黄动漫视频
精品无码➕免费➕喷水

少妇做爰XXXⅩ高潮喷水

32.72MB

628好评

91❌❌⭕⭕白丝动漫
Free❌㐅❌性HD手法

动漫❌❌爆乳❌❌动裸体高能英雄

26.27MB

276好评

日本真人做人爱120分钟
女角色被疯狂揉🐻

男同被🌿出水无套

65.97MB

740好评

国语对白一级A片
欧洲成人18🈲片五十度灰

欧美❌❌❌自慰ⅩX

54.32MB

753好评

色㊙️乱码一区二区三区男奴
二人做受一级A

雷电将军裸身被❌羞羞视频

57.94MB

684好评

成人扒开🍑伸进🍌❌免费观看
少妇做爰XXXⅩ性视频果冻传媒

高中生❌到爽🔞

24.05MB

352好评

被❌爆乳羞羞奶头嗯啊免费漫画
女人隐私㊙️屁股免费看-百度,-百度

91娇喘⭕️⭕️❌❌

13.44MB

319好评

日本AAAAA级婬片A片
女人把脚扒开㊙️九色

FreeHD18❌❌❌3D少妇

84.67MB

217好评

越南少妇BBBB搡BBBB1
黄片网址視频首页

扒开美女疯狂揉❌

45.66MB

736好评

男人私㊙️Gay男厕自慰gary
爱情岛❤️久久

🔞无码国产传媒天奇传媒

10.04MB

189好评

抖音网红被❌到爽视频爆料
美女被❌吸乳脱偷看洗澡

国产一区二区视频免费看

44.29MB

365好评

扒开蜜桃❌❌❌
村妇卖婬一级a片

高清码🔞❌♋免费打软件

91.83MB

202好评

不知火舞被暴❌自慰爽naruto
小鲜肉GaYGAYS✅免费视频

大和被扒开腿做❌同人网站

30.45MB

903好评

男男被c🔞黄㊙️❌游戏
一级特黄新婚之夜

男人的困困放在女人的困困里视频

30.26MB

547好评

扒开美女疯狂揉❌孕动视频动漫
白露被❌到爽羞羞

钢手被扒开腿做❌同人免费

29.13MB

125好评

国产精品㊙️福利姬视频
动漫㊙️网站入口17c11

多人自慰✅免费

70.42MB

451好评

午夜寂寞少妇AAA片毛片
免费看黄㊙️片欧美毛片 title="爽⋯躁多水⋯快⋯深点作文" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

成人做爰黄AA片啪啪声无限下载

18🈲🍆🍑无套看片

详情
一绪にHしよっ♥在线观看 title="女人疯狂❌喷水自慰爽软件" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

免费看裸体🔞🔞🔞多人

美女露出🐻被男生揉

详情
十八禁暗🔞ue207🔞 title="火影❌18同人漫画网站" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

乐乐的yin荡日子Np小说

男男互接jiji㊙️隐私

详情