从 DeepSeek 横空出世以来，其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

GRPO 已经成为一种大模型通用的强化学习算法，能够用在广泛的后训练任务中，甚至包括让大模型玩 2048：

而就在今年，大模型后训练的研究出现了几个重磅结果，包括 Seed 团队的 DAPO，Qwen 团队的 GSPO，微软团队的 GFPO 等等，而他们无一例外都是对 GRPO 范式的改进。

看这些名字都绕晕了，GRPO 到底有什么魔力，能让各大研究团队绕着它团团转；GRPO 又有什么缺陷，各大团队都要在它身上动刀？

通过这篇文章，我们希望能够深入浅出的解释大模型后训练的原理，近期的技术进化路线，以期为读者构建一个完整的知识体系。

很多人会觉得，强化学习是一个非常古老的概念，和全新的大模型好似格格不入。

大众理解的大语言模型的概念似乎很简单，从海量数据中自监督学习出来的一个模型，能够预测文本中下一个出现的词，从而输出语言文本。

但这并不完善，这种理解只突出了大模型「预训练」的过程，而完全忽略了「后训练」这一重要过程。

简单来说，从海量数据中学习的过程称为「预训练」，预训练的结果是让模型掌握了通用语言能力，但仅仅如此，模型生成的内并不一定符合偏好；可能生成冗长、不准确的内容；可能不符合应用任务的需求。

换句话说，预训练后的大模型会说话，但不一定会「说对话」。

因此，「后训练」过程就极为重要。后训练的主要目标是强化模型在特定领域的知识和应用能力，增强了模型的适应性和灵活性，使其能够更好地满足实际应用场景中的多样化需求。

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解，我们可以参考先前编译的来自 Unsloth 团队的文章。

强化学习的核心是「反馈」，目标是增加好结果的出现概率，降低坏结果的出现概率。

举个例子，在吃豆人（Pacman）游戏中：如果吃掉一块饼干，反馈是加分；如果你碰到敌人，反馈是扣分。

这是最朴素的强化学习方式了。我们放到大模型训练当中，又该用什么方式给大模型加减分的反馈呢？

我们的核心目标是让大模型输出符合我们任务偏好的内容，那最简单的方式就是人类的反馈。

在训练 GPT 的时候，OpenAI 就采用了 RLHF（基于人类反馈的强化学习）的方法。在该方法中，需要训练一个 agent 来针对某个问题（状态）生成人类认为更有用的输出。

反馈有了，并非一切万事大吉了。我们通过 RLHF 获得了反馈，通过这个反馈的 Reward 作为一个绝对的标准去直接训练模型，会出现显著的激励不充分和方差过大的问题。

假如有两个模型，A 的初始能力显著比 B 强，通过直接反馈会出现：

为了在此基础上稳定的实现 RLHF，OpenAI 构建了 PPO（Proximal Policy Optimization，近端策略优化）机制，加入了 Critic、CLIP 操作和 Reference Model ，在保证策略更新不过度的同时，依旧能高效提升性能。现在已经成为强化学习领域的标准方法之一，几乎是 RLHF 的默认选择。

它表示新策略相对于旧策略，在动作上的概率变化幅度。如果这个比值偏离 1 太多，就会被限制在一定的范围内，避免模型一次更新的幅度过大。

除此以外，PPO 策略采用 Reference Model 上了双保险，在损失函数中加入相对初始模型的 KL 散度，同样可以避免为了短期反馈而脱离合理的策略。

但是 PPO 有一个严重的问题，由于价值函数是随着模型训练同时变动的，也就意味着策略模型本身和 Critic 模型（价值函数）都需要进行训练，并且 Critic 模型的大小和策略模型相同。因此会带来额外的内存和计算负担，训练成本非常高，很难进行 scale up。这可能是财大气粗的 OpenAI 玩得转并且取得领先的原因之一。

为了改善这个双模型策略的高成本问题，最简单的方法就是：去掉一个网络

DeepSeek 在大模型训练改进的主要动机是想办法去掉 Critic 模型，为此提出了一种替代方法，也就是大名鼎鼎的组相对策略优化（Group Relative Policy Optimization, GRPO）

从流程算法对比中可以看出来，价值函数直接消失了。那不用价值函数，我们如何确定模型的 Advantage 呢？

GRPO 采用了一个非常合理的方法，不用「学习」一个单独的价值网络当 Critic，而是用这个模型过去多次的「考试成绩」来确定一个基准线。

对同一道题目、同一个状态，先用旧策略采样多条输出，然后把这些输出的平均 Reward 当作 baseline；超过平均值就相当于「正向 Advantage」，低于平均值就是「负向 Advantage」。

在 GRPO 里，除了这一步，还保留了 PPO 中的 Clip 和对 Reference Model 的 KL 正则，这些都可以保障更新的稳定性。不过，KL 散度在 GRPO 的目标函数直接放在了损失函数，这降低了奖励函数的计算复杂度，并且它的计算方案能够保证进行归一化的 KL 值每次都是正值。而在 PPO 中，KL 散度放在奖励函数中。

GRPO 跟 PPO 的重要区别，主要是去掉了价值函数，同时使用策略模型的多个输出采样的奖励模型输出的多个奖励的平均值作为 Advantage 函数

对于 PPO 到 GRPO，知乎网友将两者在多个维度上进行了比较，如图表所示。

GRPO 在出现后迅速成为一个后训练范式的重要节点，DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此，后续的改进工作大多都是在 GRPO 的方法基础上进行。

最致命的问题，哪怕 GRPO 在 PPO 的基础上进行了改进，但在稳定性上与 PPO 方法仍然半斤八两。也就是说 GRPO 仍然存在严重的稳定性问题，很容易导致训练崩溃。

根据数学中国的说法， DeepSeek 的数据足够多，多到可以完美地避开 GRPO 的稳定性缺陷。每次的策略梯度计算，只要 Batch 数据足够多，就能有效降低策略梯度的方差，就能获得比较稳定的迭代了。对于中小规模的 RL 训练，GRPO 并非一个好的选择，尤其是当每次使用的数据批量比较小的时候，它的稳定性缺陷将是致命的。

因此，最新的一些方法针对 GPRO 的不同部分进行了迭代，具体缺陷和优化方式在介绍新工作时细讲。

首先要讲的优化范式是 DAPO，这是字节、清华 AIR 在今年三月开源的算法。

使用该算法，该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分，优于同等规模的 DeepSeek-R1-Zero-Qwen-32B，同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

但是值得一提的是，DAPO 方法并没有在数学原理上有什么本质上的改变，基本优化目标仍然沿用了 GRPO 的形式，只是对 Clip 等参数和采样机制做出了改进。因此，我们把 DAPO 放在最早讨论的顺位。

1. Clip-Higher 机制：将 Clip 的上下限分开，研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high，研究者增加了 ε_high 的值，以便为低概率 token 的增加留出更多空间，能够显著提升模型训练早期的熵。

2. 动态采样：进行过度采样，过滤掉奖励等于 1 和 0 的提示语，只保留有效梯度的样本，提高训练效率。

3. Token 级策略梯度损失：对所有 token 一起求平均，保证长序列的所有 token 都公平地为 batch loss 做贡献，并防止长序列的优化梯度被过度缩小。

4. 超长奖励调整：针对超长样本，当响应长度超过预定义的最大值时，研究者定义一个「soft 罚分」。在这个区间内，响应越长，受到的惩罚就越大，以此避免过长的响应。

虽然 DAPO 依然是 token 级别的重要性采样，但训练曲线和最终性能提升非常明显。

大的来了。后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 类似方法的重要级采样均为 token 级，迭代方法一直没有突破 token 采样的限制，而 GSPO 真正在原理上做出了改进

最近 Qwen 的研究表明，使用 GRPO 训练大语言模型时存在严重的稳定性问题，往往会导致模型不可逆地崩溃。在 Qwen 团队的研究中，揭示了 GPRO 方法的严重问题：

如果说 DAPO 是在 GRPO 框架内做微调，那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级

重要性采样的作用是：来缓解 off-policy 带来的分布差异情况，也就是说：

我们想要估计一个预期的分布，但是我们手上只有另行为模型的分布，我们就只能在行为策略下进行采样，通过这个样本，赋予重要性权重，来估计出目标策略下函数的值。

但是这种采样的前提在于多次采样，如果只有一次采样，并不能起到分布矫正的作用。问题在于大模型训练过程中，重要性采样都是在 token 级别进行的，单个 token 进行的重要性采样是无法起到分布矫正的作用的，相反，这种采样手段反而会带来很大方差的噪声。

在训练时，奖励其实是针对整段回答打的分，比如一句话、一个完整回复都会得到一个整体评价。

但是在模型优化时，我们通常是在 token 层面进行采样和更新。于是常见的做法是：把奖励直接分摊到每一个 token 上，再逐个去调整。

这就导致了优化目标和奖励目标的颗粒度不匹配：模型可能在单个 token 上学得很用力，但这并不能完全对应整段回答的质量。

为此，Qwen 团队将 GRPO 进化为组序列策略优化（Group Sequence Policy Optimization, GSPO）

正如其名称所暗示的，GSPO 的核心在于将重要性采样从 token 级转移至序列级，其重要性比值基于整个序列的似然度计算：

这种采样权重的设计自然地缓解了逐 token 方差的累积问题，从而显著提升了训练过程的稳定性。

此外，GSPO 对序列级的重要性还做了长度归一化，不同问题的回答长度差别很大，如果不归一化，importance ratio 会对长度非常敏感，造成不稳定。

最后，因为同一个序列中的所有 token 共用同一个重要性权重，一旦发生 clipping，被裁剪掉的就是整个序列，而不是像 GRPO 那样只影响部分 token。

因此，GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性，很可能会成为未来后训练强化学习的新标准。

在 GSPO 之后不久，微软研究员曝出一个新成果：组过滤策略优化（Group Filtered Policy Optimization，GFPO），另一种颠覆性的强化学习算法。

GRPO 依赖于单一的标量奖励信号，这使得它难以联合优化多个属性，例如同时优化简洁性和准确度。

结果就是，GRPO 确实能提高准确度，但也会让响应长度大幅增加。这也导致了大模型遇到一个稍微棘手的问题，就会像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。

GFPO 正是为了解决这个问题而生的，它可以同时优化多个响应属性

GFPO 是一种简单而有效的方法，可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组，从而扩大响应池以包含更多具有所需特性的候选响应，然后在计算策略梯度时显式地过滤这些特性，不符合目标属性的响应不进入优化。

数据过滤是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法。过滤机制会迭代地放大模型在目标属性上的表现，就像强化学习里的「偏好放大器」。

在此显式过滤步骤分离出所需的响应后，将在所选组内使用标准奖励来计算相对优势。

因此，GFPO 无需复杂的奖励工程，即可同时优化多个所需属性（例如长度和准确度）。

GFPO 的主要干预措施是在 Advantage 估计层面，使其可与任何 GRPO 类似的方法兼容，例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

除此以外，也有些研究者发现了 GRPO 的一些其他缺陷，或许可以为未来的研究工作提供一些新思路。

复杂的推理问题通常需要多个奖励信号，因此我们会为每个评判标准单独设计奖励函数。然后，把所有奖励函数的分数加在一起，折叠成一个单一的奖励信号。

问题在于，模型根本无法知道自己到底是因为什么行为被奖励的。虽然我们写了不同的奖励函数，但最后所有奖励依然被合并为一个标量信号。模型又怎么知道奖励是来自「答案正确」，还是「推理清晰」，还是「格式规范」呢？

即使我们调整不同奖励组件的权重，模型看到的仍然只是一个总的标量奖励。

在推理任务中，GRPO 会丢弃所有中间的文本反馈，因为传给模型的只是一个数值化的奖励信号。

举个例子，模型训练过程中会打印一些输出，每次猜测都有文字反馈，比如：

这些文字反馈对模型其实很有帮助，但在 GRPO 框架下完全用不上，因为它们最终都会被抽象成一个标量奖励。

另一个瓶颈是多轮推理任务在 GRPO 下的表现。问题的关键在于：

在多轮对话中，每一轮的反馈都会被重新输入到基础模型的 prompt 中，从而导致指数级分支（exponential forking），使得 GRPO 在多轮任务中的训练变得非常痛苦。见下图：

简单总结一下，后训练的发展脉络其实很清晰。从 OpenAI 提出 PPO 的后训练方法开始，都在此基础上缝缝补补。

GRPO 是 PPO 基础上重要的更新范式，自 GRPO 起，后训练策略优化就作为大模型的一个重要研究方向进行，就像树节点一样向外延伸。

https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649520693&idx=7&sn=75f3515fb8ca4abbbc9dc0de2338baa3&chksm=bff51a0e6e62b39b8ebc6ee47f28688a5397e442b754429aed46ca7752c9c83db0cd6f77a427&scene=27

定好闹钟看红月亮

「活动」kumawubiaotitest

306.71MB

版本V3.44.38

下载APK 高速下载

下载特级大乳大黄A片免费看安装你想要的应用更方便更快捷发现更多

51%好评(462人)

详细信息

软件大小: 169.53MB
最后更新: 2025/09/08 00:03:15
最新版本: V6.772.7
文件格式: apk
应用分类:ios-Android 偷拍⭕⭕⭕⭕XX高清
使用语言: 中文
: 需要联网
系统要求: 5.284以上

应用介绍

一，免费🔞成人❌❌用黄上黄，老女人三级全黄
二，动漫美女拉屎㊙️无遮挡，㊙️黄😍视频免费看无男生
三，柳神3D同人18❌AV黄漫，多强被❌c到爽🔞男男
四，美女❌又黄又爽视频，3D纳西妲祼体❌H网站-百度
五，用🍆顶同桌的🐻，蒂法3D同人❌18黄漫
六，小医仙3D同人18❌AV网站,国产➕黄➕无码➕瑜伽pp，日本女人大白屁股
七，西欧XX×破女摘花视频
【联系我们】
客服热线：134-2881-646

加载更多

版本更新

V7.5.17

女人被❌的嗷嗷叫

中国浓毛大泬特写

与40岁丰满岳做爰美国дetka

09.71MB

105好评

FreePorno💋👙50
性猛交做愛❌❌❌❌小说直播

女同被❌到爽🔞流片动漫软件

26.72MB

15好评

被扒开腿做❌
捆绑➕调教➕sm➕束缚男类电影

扒开🍑让老师🍌进去漫画

13.96MB

315好评

国产做受❌❌❌高潮久久霉霉网站
美女下部尿囗㊙️

911在线无码精品㊙️入口王者

53.05MB

279好评

美女医生灌肠㊙️视频免费看
肥熟老熟妇500集视频

四川性少妇ⅹⅹⅹ

71.90MB

703好评

国产寞妇婬乱A片视频
成人游戏色情游戏网站

程潇裸乳被❌到爆浆

83.36MB

335好评

91丨国产丨❤️小青龙
男男祼体啪啪❌H黄文

在线无码精品㊙️日本免费

23.08MB

106好评

ysl千人千色ae86v9
室友被❌到爽视频在线观看

卓依婷裸乳被爆❌白浆

50.90MB

920好评

❤国产嫩草影院❤蜜
日本少妇毛耸耸毛多水多

国产做受❌❌4777cos,

83.37MB

567好评

美国女大肥腚勾❌❌❌❌
羞羞漫画❤️免费登录入口

国产➕无码➕在线➕喷水

83.82MB

757好评

偷拍女厕美女拉屎㊙️
91熟女熟妇一区

男生扒开🍑伸进🍌❌推特

32.24MB

624好评

扒开小舞❌狂揉❌3d
女仆扒开露㊙️让人爽桶动漫

男男被❌到爽的游戏地狱学园

26.66MB

270好评

онлаин❤вhd
美女裸体被爆❌免费看片app

人獸雜交亂伦ⅩⅩXxX视频天美

65.70MB

749好评

美女㊙️无遮挡免费
9 1免费版pro下载

洛丽塔被❌到爽🔞流片

54.57MB

753好评

舌头👅进去里面吃小豆豆漫画
女奥特曼被❌到爽羞羞在线观看

ai换脸陈钰琪裸体被❌

57.37MB

680好评

女王22footjob玉足女王
高清码🔞❌♋裸体网站

孕妇被❌到高潮抽搐视频

24.69MB

352好评

亚洲AV㊙️无码一区小凑四叶
🛑㸔片❌网站在线观看

tube❌❌❌❌HDvideo

13.63MB

314好评

火影忍鸣人❌小樱
小🐥🐥伸入🍑视频17

千仞雪3D㊙️让男人桶爽网站

84.12MB

211好评

动漫被❌到爽🔞流网站
扒开千仞雪❌狂揉❌难受

美女隐私㊙️无遮挡动漫视频

45.37MB

733好评

第五人格裸体❌开腿黄文
JAPAN❌❌❌女自慰

老人性做爰A片老妇人人与兽牲交

10.69MB

185好评

女裸体㊙️洗澡无遮挡
静香被C❌裸体18禁

双男主被❌到爽🔞网站

44.54MB

364好评

动漫的裸体隐私㊙️视频
小樱裸体被❌羞羞的图片

女生隐藏配位

91.73MB

203好评

猛男GayGay✅自慰
隐私㊙️视频黄wwwvideo

冲田杏梨AV在线播放▶️

30.27MB

906好评

美女隐私㊙️洗澡视频黄
www.17c.com红挑视频

美女扒开腿❌电影国产

30.69MB

545好评

美女被爆❌羞羞游戏
rule34❤frisk❤汉化

女校花脱👙给我揉🐻漫画

29.73MB

123好评

男男纯肉高被🌿爽到翻白眼动漫
男男乱婬H肉欲系列

麻豆精产国品2022最新版本

70.14MB

451好评

Japanesemature乱亲
3D黄漫❌18禁漫画视频 title="18🈲乳液啪啪免费漫画网站" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

3D被爆❌动漫自慰网站

女仆扒开🍑给客人玩

详情
扒开美女❌狂揉❌拔萝卜 title="真人实景女处被破www免费看" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

黑人大战大肥熟女

扒开❌狂揉🐻❌韩国合集

详情
朵莉亚被❌娇喘流白色液体小说 title="脱了内裤自慰❌玩具小说" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

男女酒店裸体㊙️

白嫩美女被❌❌爽到高潮

详情