纲手小樱被❌无码视频 最近更新| 安卓软件| 安卓游戏| 电脑版| 手机版

当前位置: 首页 单机游戏 冒险解谜

v9.8.5.84

猜你喜欢
分类:单机 / 冒险解谜 大小:6.84 MB 授权:免费游戏
语言:中文 更新:2025/09/08 03:44:07 等级:
平台:Android 厂商: 绝区零艾莲涩涩被❌同人 官网:暂无
权限: 查看
允许程序访问网络.
备案:湘ICP备2023018554号-3A
标签: 男男Gay做❌❌高潮原神 あねちじょ♥无 老师扒开让我❌了她一晚上
详情
介绍
猜你喜欢
相关版本

截图

内容详情

AG对战WB

丁程鑫刘耀文旅行回来了

从垃圾桶弃婴到顶流女星

医生支招气血不足怎么补石破茂记者会 2025/09/08 03:44:07

    • 编辑:admin

    2025/09/08 03:44:07

    胡(hu)寒(han)笑】
花少7最没偶像包袱的一季

周迅

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

机器之心报道

编辑:冷猫

大语言模型的发展真是日新月异。

从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

GRPO 已经成为一种大模型通用的强化学习算法,能够用在广泛的后训练任务中,甚至包括让大模型玩 2048:

而就在今年,大模型后训练的研究出现了几个重磅结果,包括 Seed 团队的 DAPO,Qwen 团队的 GSPO,微软团队的 GFPO 等等,而他们无一例外都是对 GRPO 范式的改进。

看这些名字都绕晕了,GRPO 到底有什么魔力,能让各大研究团队绕着它团团转;GRPO 又有什么缺陷,各大团队都要在它身上动刀?

通过这篇文章,我们希望能够深入浅出的解释大模型后训练的原理,近期的技术进化路线,以期为读者构建一个完整的知识体系。

后训练与强化学习

很多人会觉得,强化学习是一个非常古老的概念,和全新的大模型好似格格不入。

我们先从大模型说起。

大众理解的大语言模型的概念似乎很简单,从海量数据中自监督学习出来的一个模型,能够预测文本中下一个出现的词,从而输出语言文本。

但这并不完善,这种理解只突出了大模型「预训练」的过程,而完全忽略了「后训练」这一重要过程。

简单来说,从海量数据中学习的过程称为「预训练」,预训练的结果是让模型掌握了通用语言能力,但仅仅如此,模型生成的内并不一定符合偏好;可能生成冗长、不准确的内容;可能不符合应用任务的需求。

换句话说, 预训练后的大模型会说话,但不一定会「说对话」。

因此,「后训练」过程就极为重要。后训练的主要目标是强化模型在特定领域的知识和应用能力,增强了模型的适应性和灵活性,使其能够更好地满足实际应用场景中的多样化需求。

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自 Unsloth 团队的文章。

强化学习的核心是「反馈」 ,目标是增加好结果的出现概率,降低坏结果的出现概率。

举个例子,在吃豆人(Pacman)游戏中:如果吃掉一块饼干,反馈是加分;如果你碰到敌人,反馈是扣分。

这是最朴素的强化学习方式了。我们放到大模型训练当中,又该用什么方式给大模型加减分的反馈呢?

我们的核心目标是让大模型输出符合我们任务偏好的内容,那最简单的方式就是人类的反馈。

如果你也这么想,那你的想法和 OpenAI 不谋而合。

在训练 GPT 的时候,OpenAI 就 采用了 RLHF(基于人类反馈的强化学习) 的方法。在该方法中,需要训练一个 agent 来针对某个问题(状态)生成人类认为更有用的输出。

反馈有了,并非一切万事大吉了。我们通过 RLHF 获得了反馈,通过这个反馈的 Reward 作为一个绝对的标准去直接训练模型,会出现显著的激励不充分和方差过大的问题。

假如有两个模型,A 的初始能力显著比 B 强,通过直接反馈会出现:

PPO 的稳定策略

为了在此基础上稳定的实现 RLHF,OpenAI 构建了 PPO(Proximal Policy Optimization,近端策略优化) 机制,加入了 Critic、CLIP 操作和 Reference Model ,在保证 策略更新不过度 的同时,依旧能 高效提升性能。现在已经成为强化学习领域的 标准方法之一,几乎是 RLHF 的默认选择。

针对第一条问题,PPO 引入了 Critic:

它表示新策略相对于旧策略,在动作上的概率变化幅度。如果这个比值偏离 1 太多,就会被 限制在一定的范围内 ,避免模型一次更新的幅度过大。

除此以外,PPO 策略采用 Reference Model 上了双保险,在损失函数中加入相对 初始模型的 KL 散度 ,同样可以避免为了短期反馈而脱离合理的策略。

于是,PPO 的损失函数如下:

从 PPO 到 GRPO

上面的描述应该很好理解 PPO 在做什么事情。

但是 PPO 有一个严重的问题,由于价值函数是随着模型训练同时变动的,也就意味着策略模型本身和 Critic 模型(价值函数)都需要进行训练,并且 Critic 模型的大小和策略模型相同。因此会带来 额外的内存和计算负担 ,训练成本非常高,很难进行 scale up。这可能是财大气粗的 OpenAI 玩得转并且取得领先的原因之一。

为了改善这个双模型策略的高成本问题,最简单的方法就是: 去掉一个网络

如果你一样这么想,那你和 DeepSeek 又不谋而合。

DeepSeek 在大模型训练改进的主要动机是想办法去掉 Critic 模型,为此提出了一种替代方法,也就是大名鼎鼎的 组相对策略优化(Group Relative Policy Optimization, GRPO)

PPO vs GRPO 流程算法对比

从流程算法对比中可以看出来,价值函数直接消失了。那不用价值函数,我们如何确定模型的 Advantage 呢?

GRPO 采用了一个非常合理的方法,不用「学习」一个单独的价值网络当 Critic,而是用这个模型过去多次的「考试成绩」来确定一个基准线。

对同一道题目、同一个状态,先用旧策略 采样多条输出 ,然后把这些输出的平均 Reward 当作 baseline; 超过平均值就相当于「正向 Advantage」,低于平均值就是「负向 Advantage」。

在 GRPO 里,除了这一步,还保留了 PPO 中的 Clip 和对 Reference Model 的 KL 正则,这些都可以保障更新的稳定性。不过,KL 散度在 GRPO 的目标函数直接放在了损失函数,这降低了奖励函数的计算复杂度,并且它的计算方案能够保证进行归一化的 KL 值每次都是正值。而在 PPO 中,KL 散度放在奖励函数中。

GRPO 跟 PPO 的重要区别,主要是 去掉了价值函数,同时使用策略模型的多个输出采样的奖励模型输出的多个奖励的平均值作为 Advantage 函数

于是,我们得到了 GRPO 的损失函数:

对于 PPO 到 GRPO,知乎网友将两者在多个维度上进行了比较,如图表所示。

知乎网友@杞鋂 分享PPO与GRPO的对比

从 GRPO 开枝散叶

GRPO 在出现后迅速成为一个后训练范式的重要节点,DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此,后续的改进工作大多都是在 GRPO 的方法基础上进行。

那么 GRPO 到底有啥问题,各个新工作都要在它身上动刀呢?

最致命的问题,哪怕 GRPO 在 PPO 的基础上进行了改进,但在稳定性上与 PPO 方法仍然半斤八两。也就是说 GRPO 仍然存在严重的稳定性问题 ,很容易导致训练崩溃。

根据数学中国的说法, DeepSeek 的数据足够多,多到可以完美地避开 GRPO 的稳定性缺陷。每次的策略梯度计算, 只要 Batch 数据足够多,就能有效降低策略梯度的方差,就能获得比较稳定的迭代了 。对于中小规模的 RL 训练,GRPO 并非一个好的选择,尤其是当每次使用的数据批量比较小的时候,它的稳定性缺陷将是致命的。

因此,最新的一些方法针对 GPRO 的不同部分进行了迭代,具体缺陷和优化方式在介绍新工作时细讲。

DAPO

首先要讲的优化范式是 DAPO,这是字节、清华 AIR 在今年三月开源的算法。

使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

但是值得一提的是,DAPO 方法并没有 在数学原理上有什么本质上的改变 ,基本优化目标仍然沿用了 GRPO 的形式,只是对 Clip 等参数和采样机制做出了改进。因此,我们把 DAPO 放在最早讨论的顺位。

在实践过程中,GRPO 存在以下几个问题:

为此,DAPO 根据实践中出现的问题提出了针对性的优化:

1. Clip-Higher 机制 :将 Clip 的上下限分开 ,研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high,研究者增加了 ε_high 的值,以便为低概率 token 的增加留出更多空间,能够显著提升模型训练早期的熵。

2. 动态采样 :进行过度采样,过滤掉奖励等于 1 和 0 的提示语,只保留有效梯度的样本,提高训练效率。

3. Token 级策略梯度损失 :对所有 token 一起求平均,保证长序列的所有 token 都公平地为 batch loss 做贡献,并防止长序列的优化梯度被过度缩小。

4. 超长奖励调整 :针对超长样本,当响应长度超过预定义的最大值时,研究者定义一个「soft 罚分」。在这个区间内,响应越长,受到的惩罚就越大,以此避免过长的响应。

因此,DAPO 的优化损失函数如下:

虽然 DAPO 依然是 token 级别 的重要性采样,但训练曲线和最终性能提升非常明显。

GSPO

大的来了。后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 类似方法的重要级采样均为 token 级,迭代方法一直没有突破 token 采样的限制,而 GSPO 真正在原理上做出了改进

最近 Qwen 的研究表明,使用 GRPO 训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。在 Qwen 团队的研究中,揭示了 GPRO 方法的严重问题:

如果说 DAPO 是在 GRPO 框架内做微调,那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级

重要性采样的作用是:来缓解 off-policy 带来的分布差异情况,也就是说:

我们想要估计一个预期的分布,但是我们手上只有另行为模型的分布,我们就只能在行为策略下进行采样,通过这个样本,赋予重要性权重,来估计出目标策略下函数的值。

但是这种采样的前提在于多次采样,如果只有一次采样,并不能起到分布矫正的作用。问题在于大模型训练过程中,重要性采样都是 在 token 级别进行的,单个 token 进行的重要性采样是无法起到分布矫正的作用的,相反,这种采样手段反而会带来很大方差的噪声。

在训练时,奖励其实是针对整段回答打的分,比如一句话、一个完整回复都会得到一个整体评价。

但是在模型优化时,我们通常是在 token 层面进行采样和更新。于是常见的做法是:把奖励直接分摊到每一个 token 上,再逐个去调整。

这就导致了 优化目标和奖励目标的颗粒度不匹配 :模型可能在单个 token 上学得很用力,但这并不能完全对应整段回答的质量。

为此,Qwen 团队将 GRPO 进化为 组序列策略优化(Group Sequence Policy Optimization, GSPO)

正如其名称所暗示的,GSPO 的核心在于将重要性采样 从 token 级转移至序列级 ,其重要性比值基于整个序列的似然度计算:

这种采样权重的设计自然地缓解了逐 token 方差的累积问题,从而显著提升了训练过程的稳定性。

因此,GSPO 的损失函数为:

此外,GSPO 对 序列级的重要性还做了 长度归一化,不同问题的回答长度差别很大,如果不归一化,importance ratio 会对长度非常敏感,造成不稳定。

最后,因为同一个序列中的所有 token 共用同一个重要性权重,一旦发生 clipping,被裁剪掉的就是 整个序列,而不是像 GRPO 那样只影响部分 token。

因此,GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性,很可能会成为未来后训练强化学习的新标准。

GFPO

在 GSPO 之后不久,微软研究员曝出一个新成果: 组过滤策略优化(Group Filtered Policy Optimization,GFPO) ,另一种颠覆性的强化学习算法。

在 GFPO 工作中,微软研究团队指出了 GRPO 的一个关键限制:

GRPO 依赖于单一的标量奖励信号,这使得它 难以联合优化多个属性 ,例如同时优化简洁性和准确度。

结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。这也导致了大模型遇到一个稍微棘手的问题,就会像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。

GFPO 正是为了解决这个问题而生的, 它可以同时优化多个响应属性

GFPO 是一种简单而有效的方法,可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组,从而 扩大响应池 以包含更多具有所需特性的候选响应,然后在计算策略梯度时显式地过滤这些特性,不符合目标属性的响应不进入优化。

数据过滤是一种隐式、灵活的奖励塑造形式 —— 类似于 使用选择性采样来放大特定模型行为的迭代式自我改进方法 。过滤机制会迭代地放大模型在目标属性上的表现,就像强化学习里的「偏好放大器」。

在此显式过滤步骤分离出所需的响应后,将在所选组内使用标准奖励来计算相对优势。

因此,GFPO 无需复杂的奖励工程,即可同时优化多个所需属性(例如长度和准确度)。

GFPO 的形式化定义如下:

GFPO 的主要干预措施是在 Advantage 估计层面,使其可与任何 GRPO 类似的方法兼容,例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

GRPO 的一些其他问题

除此以外,也有些研究者发现了 GRPO 的一些其他缺陷,或许可以为未来的研究工作提供一些新思路。

缺陷 1:奖励的歧义性

复杂的推理问题通常需要多个奖励信号,因此我们会为每个评判标准单独设计奖励函数。然后,把所有奖励函数的分数加在一起,折叠成一个单一的奖励信号。

问题在于,模型根本无法知道 自己到底是因为什么行为被奖励的。虽然我们写了不同的奖励函数,但最后所有奖励依然被合并为一个标量信号。模型又怎么知道奖励是来自「答案正确」,还是「推理清晰」,还是「格式规范」呢?

即使我们调整不同奖励组件的权重,模型看到的仍然只是一个总的标量奖励。

GFPO 一定程度上改善了上述问题。

缺陷 2:标量反馈

在推理任务中,GRPO 会丢弃所有中间的文本反馈,因为传给模型的只是一个数值化的奖励信号。

举个例子,模型训练过程中会打印一些输出,每次猜测都有文字反馈,比如:

这些文字反馈对模型其实很有帮助,但在 GRPO 框架下完全用不上,因为它们最终都会被抽象成一个标量奖励。

缺陷 3:多轮推理

另一个瓶颈是 多轮推理 任务在 GRPO 下的表现。问题的关键在于:

在多轮对话中,每一轮的反馈都会被重新输入到基础模型的 prompt 中,从而导致 指数级分支(exponential forking),使得 GRPO 在多轮任务中的训练变得非常痛苦。见下图:

简单总结一下,后训练的发展脉络其实很清晰。从 OpenAI 提出 PPO 的后训练方法开始,都在此基础上缝缝补补。

GRPO 是 PPO 基础上重要的更新范式,自 GRPO 起,后训练策略优化就作为大模型的一个重要研究方向进行,就像树节点一样向外延伸。

https://www.zhihu.com/question/12933942086/answer/1933555787759871596

https://zhuanlan.zhihu.com/p/1941902507136746342

https://blog.csdn.net/m0_74942241/article/details/150611764

https://zhuanlan.zhihu.com/p/1941902507136746342

https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649520693&idx=7&sn=75f3515fb8ca4abbbc9dc0de2338baa3&chksm=bff51a0e6e62b39b8ebc6ee47f28688a5397e442b754429aed46ca7752c9c83db0cd6f77a427&scene=27

文中视频链接:

https://mp.weixin.qq.com/s/JjP6a9htmtdRDfMtyBaIGQ

  AG对战WB 

机器之心报道

编辑:冷猫

大语言模型的发展真是日新月异。

从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

GRPO 已经成为一种大模型通用的强化学习算法,能够用在广泛的后训练任务中,甚至包括让大模型玩 2048:

而就在今年,大模型后训练的研究出现了几个重磅结果,包括 Seed 团队的 DAPO,Qwen 团队的 GSPO,微软团队的 GFPO 等等,而他们无一例外都是对 GRPO 范式的改进。

看这些名字都绕晕了,GRPO 到底有什么魔力,能让各大研究团队绕着它团团转;GRPO 又有什么缺陷,各大团队都要在它身上动刀?

通过这篇文章,我们希望能够深入浅出的解释大模型后训练的原理,近期的技术进化路线,以期为读者构建一个完整的知识体系。

后训练与强化学习

很多人会觉得,强化学习是一个非常古老的概念,和全新的大模型好似格格不入。

我们先从大模型说起。

大众理解的大语言模型的概念似乎很简单,从海量数据中自监督学习出来的一个模型,能够预测文本中下一个出现的词,从而输出语言文本。

但这并不完善,这种理解只突出了大模型「预训练」的过程,而完全忽略了「后训练」这一重要过程。

简单来说,从海量数据中学习的过程称为「预训练」,预训练的结果是让模型掌握了通用语言能力,但仅仅如此,模型生成的内并不一定符合偏好;可能生成冗长、不准确的内容;可能不符合应用任务的需求。

换句话说, 预训练后的大模型会说话,但不一定会「说对话」。

因此,「后训练」过程就极为重要。后训练的主要目标是强化模型在特定领域的知识和应用能力,增强了模型的适应性和灵活性,使其能够更好地满足实际应用场景中的多样化需求。

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自 Unsloth 团队的文章。

强化学习的核心是「反馈」 ,目标是增加好结果的出现概率,降低坏结果的出现概率。

举个例子,在吃豆人(Pacman)游戏中:如果吃掉一块饼干,反馈是加分;如果你碰到敌人,反馈是扣分。

这是最朴素的强化学习方式了。我们放到大模型训练当中,又该用什么方式给大模型加减分的反馈呢?

我们的核心目标是让大模型输出符合我们任务偏好的内容,那最简单的方式就是人类的反馈。

如果你也这么想,那你的想法和 OpenAI 不谋而合。

在训练 GPT 的时候,OpenAI 就 采用了 RLHF(基于人类反馈的强化学习) 的方法。在该方法中,需要训练一个 agent 来针对某个问题(状态)生成人类认为更有用的输出。

反馈有了,并非一切万事大吉了。我们通过 RLHF 获得了反馈,通过这个反馈的 Reward 作为一个绝对的标准去直接训练模型,会出现显著的激励不充分和方差过大的问题。

假如有两个模型,A 的初始能力显著比 B 强,通过直接反馈会出现:

PPO 的稳定策略

为了在此基础上稳定的实现 RLHF,OpenAI 构建了 PPO(Proximal Policy Optimization,近端策略优化) 机制,加入了 Critic、CLIP 操作和 Reference Model ,在保证 策略更新不过度 的同时,依旧能 高效提升性能。现在已经成为强化学习领域的 标准方法之一,几乎是 RLHF 的默认选择。

针对第一条问题,PPO 引入了 Critic:

它表示新策略相对于旧策略,在动作上的概率变化幅度。如果这个比值偏离 1 太多,就会被 限制在一定的范围内 ,避免模型一次更新的幅度过大。

除此以外,PPO 策略采用 Reference Model 上了双保险,在损失函数中加入相对 初始模型的 KL 散度 ,同样可以避免为了短期反馈而脱离合理的策略。

于是,PPO 的损失函数如下:

从 PPO 到 GRPO

上面的描述应该很好理解 PPO 在做什么事情。

但是 PPO 有一个严重的问题,由于价值函数是随着模型训练同时变动的,也就意味着策略模型本身和 Critic 模型(价值函数)都需要进行训练,并且 Critic 模型的大小和策略模型相同。因此会带来 额外的内存和计算负担 ,训练成本非常高,很难进行 scale up。这可能是财大气粗的 OpenAI 玩得转并且取得领先的原因之一。

为了改善这个双模型策略的高成本问题,最简单的方法就是: 去掉一个网络

如果你一样这么想,那你和 DeepSeek 又不谋而合。

DeepSeek 在大模型训练改进的主要动机是想办法去掉 Critic 模型,为此提出了一种替代方法,也就是大名鼎鼎的 组相对策略优化(Group Relative Policy Optimization, GRPO)

PPO vs GRPO 流程算法对比

从流程算法对比中可以看出来,价值函数直接消失了。那不用价值函数,我们如何确定模型的 Advantage 呢?

GRPO 采用了一个非常合理的方法,不用「学习」一个单独的价值网络当 Critic,而是用这个模型过去多次的「考试成绩」来确定一个基准线。

对同一道题目、同一个状态,先用旧策略 采样多条输出 ,然后把这些输出的平均 Reward 当作 baseline; 超过平均值就相当于「正向 Advantage」,低于平均值就是「负向 Advantage」。

在 GRPO 里,除了这一步,还保留了 PPO 中的 Clip 和对 Reference Model 的 KL 正则,这些都可以保障更新的稳定性。不过,KL 散度在 GRPO 的目标函数直接放在了损失函数,这降低了奖励函数的计算复杂度,并且它的计算方案能够保证进行归一化的 KL 值每次都是正值。而在 PPO 中,KL 散度放在奖励函数中。

GRPO 跟 PPO 的重要区别,主要是 去掉了价值函数,同时使用策略模型的多个输出采样的奖励模型输出的多个奖励的平均值作为 Advantage 函数

于是,我们得到了 GRPO 的损失函数:

对于 PPO 到 GRPO,知乎网友将两者在多个维度上进行了比较,如图表所示。

知乎网友@杞鋂 分享PPO与GRPO的对比

从 GRPO 开枝散叶

GRPO 在出现后迅速成为一个后训练范式的重要节点,DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此,后续的改进工作大多都是在 GRPO 的方法基础上进行。

那么 GRPO 到底有啥问题,各个新工作都要在它身上动刀呢?

最致命的问题,哪怕 GRPO 在 PPO 的基础上进行了改进,但在稳定性上与 PPO 方法仍然半斤八两。也就是说 GRPO 仍然存在严重的稳定性问题 ,很容易导致训练崩溃。

根据数学中国的说法, DeepSeek 的数据足够多,多到可以完美地避开 GRPO 的稳定性缺陷。每次的策略梯度计算, 只要 Batch 数据足够多,就能有效降低策略梯度的方差,就能获得比较稳定的迭代了 。对于中小规模的 RL 训练,GRPO 并非一个好的选择,尤其是当每次使用的数据批量比较小的时候,它的稳定性缺陷将是致命的。

因此,最新的一些方法针对 GPRO 的不同部分进行了迭代,具体缺陷和优化方式在介绍新工作时细讲。

DAPO

首先要讲的优化范式是 DAPO,这是字节、清华 AIR 在今年三月开源的算法。

使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

但是值得一提的是,DAPO 方法并没有 在数学原理上有什么本质上的改变 ,基本优化目标仍然沿用了 GRPO 的形式,只是对 Clip 等参数和采样机制做出了改进。因此,我们把 DAPO 放在最早讨论的顺位。

在实践过程中,GRPO 存在以下几个问题:

为此,DAPO 根据实践中出现的问题提出了针对性的优化:

1. Clip-Higher 机制 :将 Clip 的上下限分开 ,研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high,研究者增加了 ε_high 的值,以便为低概率 token 的增加留出更多空间,能够显著提升模型训练早期的熵。

2. 动态采样 :进行过度采样,过滤掉奖励等于 1 和 0 的提示语,只保留有效梯度的样本,提高训练效率。

3. Token 级策略梯度损失 :对所有 token 一起求平均,保证长序列的所有 token 都公平地为 batch loss 做贡献,并防止长序列的优化梯度被过度缩小。

4. 超长奖励调整 :针对超长样本,当响应长度超过预定义的最大值时,研究者定义一个「soft 罚分」。在这个区间内,响应越长,受到的惩罚就越大,以此避免过长的响应。

因此,DAPO 的优化损失函数如下:

虽然 DAPO 依然是 token 级别 的重要性采样,但训练曲线和最终性能提升非常明显。

GSPO

大的来了。后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 类似方法的重要级采样均为 token 级,迭代方法一直没有突破 token 采样的限制,而 GSPO 真正在原理上做出了改进

最近 Qwen 的研究表明,使用 GRPO 训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。在 Qwen 团队的研究中,揭示了 GPRO 方法的严重问题:

如果说 DAPO 是在 GRPO 框架内做微调,那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级

重要性采样的作用是:来缓解 off-policy 带来的分布差异情况,也就是说:

我们想要估计一个预期的分布,但是我们手上只有另行为模型的分布,我们就只能在行为策略下进行采样,通过这个样本,赋予重要性权重,来估计出目标策略下函数的值。

但是这种采样的前提在于多次采样,如果只有一次采样,并不能起到分布矫正的作用。问题在于大模型训练过程中,重要性采样都是 在 token 级别进行的,单个 token 进行的重要性采样是无法起到分布矫正的作用的,相反,这种采样手段反而会带来很大方差的噪声。

在训练时,奖励其实是针对整段回答打的分,比如一句话、一个完整回复都会得到一个整体评价。

但是在模型优化时,我们通常是在 token 层面进行采样和更新。于是常见的做法是:把奖励直接分摊到每一个 token 上,再逐个去调整。

这就导致了 优化目标和奖励目标的颗粒度不匹配 :模型可能在单个 token 上学得很用力,但这并不能完全对应整段回答的质量。

为此,Qwen 团队将 GRPO 进化为 组序列策略优化(Group Sequence Policy Optimization, GSPO)

正如其名称所暗示的,GSPO 的核心在于将重要性采样 从 token 级转移至序列级 ,其重要性比值基于整个序列的似然度计算:

这种采样权重的设计自然地缓解了逐 token 方差的累积问题,从而显著提升了训练过程的稳定性。

因此,GSPO 的损失函数为:

此外,GSPO 对 序列级的重要性还做了 长度归一化,不同问题的回答长度差别很大,如果不归一化,importance ratio 会对长度非常敏感,造成不稳定。

最后,因为同一个序列中的所有 token 共用同一个重要性权重,一旦发生 clipping,被裁剪掉的就是 整个序列,而不是像 GRPO 那样只影响部分 token。

因此,GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性,很可能会成为未来后训练强化学习的新标准。

GFPO

在 GSPO 之后不久,微软研究员曝出一个新成果: 组过滤策略优化(Group Filtered Policy Optimization,GFPO) ,另一种颠覆性的强化学习算法。

在 GFPO 工作中,微软研究团队指出了 GRPO 的一个关键限制:

GRPO 依赖于单一的标量奖励信号,这使得它 难以联合优化多个属性 ,例如同时优化简洁性和准确度。

结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。这也导致了大模型遇到一个稍微棘手的问题,就会像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。

GFPO 正是为了解决这个问题而生的, 它可以同时优化多个响应属性

GFPO 是一种简单而有效的方法,可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组,从而 扩大响应池 以包含更多具有所需特性的候选响应,然后在计算策略梯度时显式地过滤这些特性,不符合目标属性的响应不进入优化。

数据过滤是一种隐式、灵活的奖励塑造形式 —— 类似于 使用选择性采样来放大特定模型行为的迭代式自我改进方法 。过滤机制会迭代地放大模型在目标属性上的表现,就像强化学习里的「偏好放大器」。

在此显式过滤步骤分离出所需的响应后,将在所选组内使用标准奖励来计算相对优势。

因此,GFPO 无需复杂的奖励工程,即可同时优化多个所需属性(例如长度和准确度)。

GFPO 的形式化定义如下:

GFPO 的主要干预措施是在 Advantage 估计层面,使其可与任何 GRPO 类似的方法兼容,例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

GRPO 的一些其他问题

除此以外,也有些研究者发现了 GRPO 的一些其他缺陷,或许可以为未来的研究工作提供一些新思路。

缺陷 1:奖励的歧义性

复杂的推理问题通常需要多个奖励信号,因此我们会为每个评判标准单独设计奖励函数。然后,把所有奖励函数的分数加在一起,折叠成一个单一的奖励信号。

问题在于,模型根本无法知道 自己到底是因为什么行为被奖励的。虽然我们写了不同的奖励函数,但最后所有奖励依然被合并为一个标量信号。模型又怎么知道奖励是来自「答案正确」,还是「推理清晰」,还是「格式规范」呢?

即使我们调整不同奖励组件的权重,模型看到的仍然只是一个总的标量奖励。

GFPO 一定程度上改善了上述问题。

缺陷 2:标量反馈

在推理任务中,GRPO 会丢弃所有中间的文本反馈,因为传给模型的只是一个数值化的奖励信号。

举个例子,模型训练过程中会打印一些输出,每次猜测都有文字反馈,比如:

这些文字反馈对模型其实很有帮助,但在 GRPO 框架下完全用不上,因为它们最终都会被抽象成一个标量奖励。

缺陷 3:多轮推理

另一个瓶颈是 多轮推理 任务在 GRPO 下的表现。问题的关键在于:

在多轮对话中,每一轮的反馈都会被重新输入到基础模型的 prompt 中,从而导致 指数级分支(exponential forking),使得 GRPO 在多轮任务中的训练变得非常痛苦。见下图:

简单总结一下,后训练的发展脉络其实很清晰。从 OpenAI 提出 PPO 的后训练方法开始,都在此基础上缝缝补补。

GRPO 是 PPO 基础上重要的更新范式,自 GRPO 起,后训练策略优化就作为大模型的一个重要研究方向进行,就像树节点一样向外延伸。

https://www.zhihu.com/question/12933942086/answer/1933555787759871596

https://zhuanlan.zhihu.com/p/1941902507136746342

https://blog.csdn.net/m0_74942241/article/details/150611764

https://zhuanlan.zhihu.com/p/1941902507136746342

https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649520693&idx=7&sn=75f3515fb8ca4abbbc9dc0de2338baa3&chksm=bff51a0e6e62b39b8ebc6ee47f28688a5397e442b754429aed46ca7752c9c83db0cd6f77a427&scene=27

文中视频链接:

https://mp.weixin.qq.com/s/JjP6a9htmtdRDfMtyBaIGQ

更新内容

一、修复bug,修改自动播放;优化产品用户体验。

二、 1.修复已知Bug。2.新服务。

三、修复已知bug;优化用户体验

四、1,交互全面优化,用户操作更加便捷高效;2,主题色更新,界面风格更加协调;3,增加卡片类个人数据

五、-千万商品随意挑选,大图展现商品细节-订单和物流查询实时同步-支持团购和名品特卖,更有手机专享等你抢-支付宝和银联多种支付方式,轻松下单,快捷支付-新浪微博,支付宝,QQ登录,不用注册也能购物-支持商品收藏,随时查询喜爱的商品和历史购物清单。

六、1.bug修复,提升用户体验;2.优化加载,体验更流程;3.提升安卓系统兼容性

七、1、修复部分机型bug;2、提高游戏流畅度;

厂商其他下载

安卓应用 安卓手游 苹果应用 苹果手游 电脑 薪资怎么谈高点又不会聊崩

相关版本

多平台下载

Android版 PC版

查看所有 0条评论>网友评论

发表评论

(您的评论需要经过审核才能显示) 网友粉丝

查看所有 144条评论>>

相关游戏
BLG与JDG决胜局 小狗会知道主人叫什么名字吗 父子摆摊仅剩5元城管处罚后月入6000 为什么奶茶不另外加糖反而更甜 男主的情敌是曾经的自己 新华社研究院发布重磅报告 朝鲜播出金正恩出席九三阅兵纪录片 小狗遛马 朝鲜播出金正恩出席九三阅兵纪录片 欧阳娣娣不选对的只选帅的 月经6种表现说明子宫健康 警方通报女子遭前夫殴打后死亡 男主的情敌是曾经的自己 那英五十多岁正是敏感的年纪 许嵩 冯禧 广东珠海全市学校停课 辛芷蕾获奖时张颂文的表情 欧阳娣娣不选对的只选帅的 一高校宿舍床直接钉在墙上 石破茂决意辞职 月全食时间表 月全食时间表 AG对战WB 张晚意李沁嫂子开门我是我哥 石破茂宣布辞去自民党总裁职务 中国坦克目标不是抗衡是打掉 女子嫁外国贫民窟求助回国系摆拍 谁教宋妍霏冷脸说这个的 中国坦克目标不是抗衡是打掉 店铺侵权使用胖东来引流被罚款15万 缘起三生定档 花少7最没偶像包袱的一季 工作后才知道苹果是最好的水果 12306回应大量私生高铁站围堵男星 彭昱畅 急诊 减脂馒头爆单老板一天怒干15小时 月全食时间表 父子摆摊仅剩5元城管处罚后月入6000 血月对人体有什么影响 医生支招气血不足怎么补 25岁到47岁的衰老全过程 公安机关查处网络谣言 scout 张维伊不是我找你们来的吧 菜市场捡菜 石破茂宣布辞去自民党总裁职务 公安机关查处网络谣言 新华社研究院发布重磅报告 从垃圾桶弃婴到顶流女星 周迅 长期吃米vs长期吃面 张维伊不是我找你们来的吧 我给人撕到奖了 你撕过吗 错过今晚的月全食要等3年 工作后才知道苹果是最好的水果 河南欢迎短信 遭前夫殴打致死女子女儿发声 广东珠海全市学校停课 谁教宋妍霏冷脸说这个的 公安机关查处网络谣言 遭前夫殴打致死女子女儿发声 朝鲜播出金正恩出席九三阅兵纪录片 长期吃米vs长期吃面 周迅 花少7最没偶像包袱的一季 25岁到47岁的衰老全过程 阅兵的转头杀怎么这么帅 张晚意李沁嫂子开门我是我哥 永远可以相信郭敬明严选 小狗会知道主人叫什么名字吗 女子嫁外国贫民窟求助回国系摆拍 血月对人体有什么影响 阅兵的转头杀怎么这么帅 减脂馒头爆单老板一天怒干15小时 许嵩 冯禧 杨幂半成品广告成了 25岁到47岁的衰老全过程 月经6种表现说明子宫健康 石破茂宣布辞去自民党总裁职务 谁教宋妍霏冷脸说这个的 又是被中国排面硬控的一天 河南欢迎短信 石破茂辞职理由 狗狗绝食7天守护离世主人遗体 鹿哈老婆看鹿晗演唱会了 缘起三生定档 公安机关查处网络谣言 父子摆摊仅剩5元城管处罚后月入6000 易烊千玺妈妈送我伴手礼 广东珠海全市学校停课 欧阳娣娣不选对的只选帅的 辛芷蕾听完英文提问的反应 遭前夫殴打致死女子女儿发声 石破茂决意辞职 减脂馒头爆单老板一天怒干15小时 鹿哈老婆看鹿晗演唱会了 这一握情深意重 易烊千玺妈妈送我伴手礼 花少7最没偶像包袱的一季 永远可以相信郭敬明严选 丁程鑫刘耀文旅行回来了 阅兵的转头杀怎么这么帅 丁程鑫刘耀文旅行回来了 从垃圾桶弃婴到顶流女星 石破茂宣布辞去自民党总裁职务 广东珠海全市学校停课 张维伊不是我找你们来的吧 为什么奶茶不另外加糖反而更甜 杨紫暑期档全勤王 石破茂记者会 减脂馒头爆单老板一天怒干15小时 石破茂宣布辞去自民党总裁职务 谁教宋妍霏冷脸说这个的 scout 遭前夫殴打致死女子女儿发声 花少7最没偶像包袱的一季 杨紫暑期档全勤王 张艺兴飞奔赶高铁 缘起三生定档 美总统威胁要与一美国城市开战 父子摆摊仅剩5元城管处罚后月入6000 AG对战WB 河南欢迎短信 为什么奶茶不另外加糖反而更甜 易烊千玺妈妈送我伴手礼 AG对战WB 菜市场捡菜 小狗会知道主人叫什么名字吗 杨紫暑期档全勤王 广西梧州通报多名学生打骂一女生 女子嫁外国贫民窟求助回国系摆拍 菜市场捡菜 男主的情敌是曾经的自己 李昀锐 我那ys白月光 40年前干涸的河被养回来了 那英五十多岁正是敏感的年纪 杨紫暑期档全勤王 公安机关查处网络谣言 小狗会知道主人叫什么名字吗 彭昱畅 急诊 鹿哈老婆看鹿晗演唱会了 杨幂半成品广告成了 石破茂决意辞职 警方通报女子遭前夫殴打后死亡 鹿哈老婆看鹿晗演唱会了 减脂馒头爆单老板一天怒干15小时 减脂馒头爆单老板一天怒干15小时 男主的情敌是曾经的自己 许嵩 冯禧 张晚意李沁嫂子开门我是我哥 胖东来回应父婴室 谁教宋妍霏冷脸说这个的 石破茂决意辞职 鹿哈老婆看鹿晗演唱会了 广东珠海全市学校停课 菜市场捡菜 小猫自己用饮水机放水喝 小狗会知道主人叫什么名字吗 阅兵的转头杀怎么这么帅 从垃圾桶弃婴到顶流女星 辛芷蕾获奖时张颂文的表情 公安机关查处网络谣言 辛芷蕾获奖时张颂文的表情 女子嫁外国贫民窟求助回国系摆拍 我给人撕到奖了 你撕过吗 彭昱畅 急诊 永远可以相信郭敬明严选 遭前夫殴打致死女子女儿发声 女子嫁外国贫民窟求助回国系摆拍 40年前干涸的河被养回来了 鹿哈老婆看鹿晗演唱会了 月经6种表现说明子宫健康 鹿哈老婆看鹿晗演唱会了 医生支招气血不足怎么补 25岁到47岁的衰老全过程 那英五十多岁正是敏感的年纪 花少7最没偶像包袱的一季 女子嫁外国贫民窟求助回国系摆拍 长期吃米vs长期吃面 今晚邀你一起看红月 狗狗绝食7天守护离世主人遗体 石破茂辞职理由 KPL夏决赛前预测 欧阳娣娣不选对的只选帅的 花少7最没偶像包袱的一季 女子嫁外国贫民窟求助回国系摆拍 长期吃米vs长期吃面 杨紫暑期档全勤王 从垃圾桶弃婴到顶流女星 医生支招气血不足怎么补 张艺兴飞奔赶高铁 25岁到47岁的衰老全过程 店铺侵权使用胖东来引流被罚款15万 薪资怎么谈高点又不会聊崩 在中国这个东西是用来占座的 广东珠海全市学校停课 石破茂辞职理由 月经6种表现说明子宫健康 工作后才知道苹果是最好的水果 谁教宋妍霏冷脸说这个的 辛芷蕾获奖时张颂文的表情 张艺兴飞奔赶高铁 今晚邀你一起看红月 张艺兴飞奔赶高铁 广西梧州通报多名学生打骂一女生 KPL夏决赛前预测 错过今晚的月全食要等3年 新华社研究院发布重磅报告
更多>心动网络手游
25岁到47岁的衰老全过程 永远可以相信郭敬明严选 新华社研究院发布重磅报告 缘起三生定档 李昀锐 我那ys白月光 辛芷蕾听完英文提问的反应 这一握情深意重 遭前夫殴打致死女子女儿发声 石破茂宣布辞去自民党总裁职务 月经6种表现说明子宫健康 医生支招气血不足怎么补 中国坦克目标不是抗衡是打掉 40年前干涸的河被养回来了 公安机关查处网络谣言 小狗遛马 血月对人体有什么影响 月经6种表现说明子宫健康 遭前夫殴打致死女子女儿发声 中国坦克目标不是抗衡是打掉 男主的情敌是曾经的自己 美总统威胁要与一美国城市开战 40年前干涸的河被养回来了 scout 许嵩 冯禧 今晚邀你一起看红月 丁程鑫刘耀文旅行回来了 美总统威胁要与一美国城市开战 新华社研究院发布重磅报告 菜市场捡菜 张艺兴飞奔赶高铁 店铺侵权使用胖东来引流被罚款15万 一高校宿舍床直接钉在墙上 广东珠海全市学校停课 阅兵的转头杀怎么这么帅 减脂馒头爆单老板一天怒干15小时 AG对战WB 欧阳娣娣不选对的只选帅的 卡皮巴拉大军 血月对人体有什么影响 阅兵的转头杀怎么这么帅 周迅 广东珠海全市学校停课 孙心娅回应是冯绍峰女友里最好看的 广东珠海全市学校停课 辛芷蕾听完英文提问的反应 店铺侵权使用胖东来引流被罚款15万 张维伊不是我找你们来的吧 血月对人体有什么影响 AG对战WB 那英五十多岁正是敏感的年纪 男主的情敌是曾经的自己 警方通报女子遭前夫殴打后死亡 今晚邀你一起看红月 又是被中国排面硬控的一天 错过今晚的月全食要等3年 狗狗绝食7天守护离世主人遗体 欧阳娣娣不选对的只选帅的 彭昱畅 急诊 朝鲜播出金正恩出席九三阅兵纪录片 卡皮巴拉大军 胖东来有父婴室了 广东珠海全市学校停课 在中国这个东西是用来占座的 周迅 25岁到47岁的衰老全过程 石破茂决意辞职 石破茂决意辞职 父子摆摊仅剩5元城管处罚后月入6000 公安机关查处网络谣言 错过今晚的月全食要等3年 错过今晚的月全食要等3年 谁教宋妍霏冷脸说这个的 父子摆摊仅剩5元城管处罚后月入6000 scout 薪资怎么谈高点又不会聊崩 胖东来有父婴室了 从垃圾桶弃婴到顶流女星 父子摆摊仅剩5元城管处罚后月入6000 错过今晚的月全食要等3年 小狗遛马 女子嫁外国贫民窟求助回国系摆拍 新华社研究院发布重磅报告 彭昱畅 急诊 店铺侵权使用胖东来引流被罚款15万 薪资怎么谈高点又不会聊崩 男主的情敌是曾经的自己 月经6种表现说明子宫健康 男主的情敌是曾经的自己 阅兵的转头杀怎么这么帅 张晚意李沁嫂子开门我是我哥 胖东来有父婴室了 朝鲜播出金正恩出席九三阅兵纪录片 李昀锐 我那ys白月光 错过今晚的月全食要等3年 小狗会知道主人叫什么名字吗 从垃圾桶弃婴到顶流女星 阅兵的转头杀怎么这么帅 孙心娅回应是冯绍峰女友里最好看的 小狗遛马 欧阳娣娣不选对的只选帅的 辛芷蕾获奖时张颂文的表情 石破茂辞职理由 广西梧州通报多名学生打骂一女生 花少7最没偶像包袱的一季 工作后才知道苹果是最好的水果 长期吃米vs长期吃面 父子摆摊仅剩5元城管处罚后月入6000 石破茂辞职理由 医生支招气血不足怎么补 父子摆摊仅剩5元城管处罚后月入6000 12306回应大量私生高铁站围堵男星 AG对战WB 永远可以相信郭敬明严选 李昀锐 我那ys白月光 薪资怎么谈高点又不会聊崩 在中国这个东西是用来占座的 美总统威胁要与一美国城市开战 彭昱畅 急诊 阅兵的转头杀怎么这么帅 易烊千玺妈妈送我伴手礼 石破茂宣布辞去自民党总裁职务 张晚意李沁嫂子开门我是我哥 从垃圾桶弃婴到顶流女星 辛芷蕾听完英文提问的反应 谁教宋妍霏冷脸说这个的 菜市场捡菜 从垃圾桶弃婴到顶流女星 杨幂半成品广告成了 孙心娅回应是冯绍峰女友里最好看的 月全食时间表 朝鲜播出金正恩出席九三阅兵纪录片 鹿哈老婆看鹿晗演唱会了 遭前夫殴打致死女子女儿发声 父子摆摊仅剩5元城管处罚后月入6000 朝鲜播出金正恩出席九三阅兵纪录片 石破茂宣布辞去自民党总裁职务 周迅 中国坦克目标不是抗衡是打掉 张维伊不是我找你们来的吧 BLG与JDG决胜局 血月对人体有什么影响 张艺兴飞奔赶高铁 易烊千玺妈妈送我伴手礼 那英五十多岁正是敏感的年纪 scout 新华社研究院发布重磅报告 长期吃米vs长期吃面 欧阳娣娣不选对的只选帅的 小狗会知道主人叫什么名字吗 男主的情敌是曾经的自己 错过今晚的月全食要等3年 警方通报女子遭前夫殴打后死亡 鹿哈老婆看鹿晗演唱会了 男主的情敌是曾经的自己 狗狗绝食7天守护离世主人遗体 石破茂决意辞职 张维伊不是我找你们来的吧 彭昱畅 急诊 店铺侵权使用胖东来引流被罚款15万 许嵩 冯禧 美总统威胁要与一美国城市开战 花少7最没偶像包袱的一季 张艺兴飞奔赶高铁 中国坦克目标不是抗衡是打掉 KPL夏决赛前预测 为什么奶茶不另外加糖反而更甜 张维伊不是我找你们来的吧 我给人撕到奖了 你撕过吗 月全食时间表 小狗会知道主人叫什么名字吗 孙心娅回应是冯绍峰女友里最好看的 张艺兴飞奔赶高铁 12306回应大量私生高铁站围堵男星 AG对战WB 小狗遛马 朝鲜播出金正恩出席九三阅兵纪录片 石破茂记者会 这一握情深意重 公安机关查处网络谣言 广西梧州通报多名学生打骂一女生 25岁到47岁的衰老全过程 胖东来有父婴室了 彭昱畅 急诊 周迅 李昀锐 我那ys白月光 石破茂辞职理由 新华社研究院发布重磅报告 公安机关查处网络谣言 scout 错过今晚的月全食要等3年 狗狗绝食7天守护离世主人遗体 彭昱畅 急诊 缘起三生定档 25岁到47岁的衰老全过程 错过今晚的月全食要等3年 缘起三生定档 月经6种表现说明子宫健康 女子嫁外国贫民窟求助回国系摆拍 BLG与JDG决胜局 阅兵的转头杀怎么这么帅 在中国这个东西是用来占座的 公安机关查处网络谣言 AG对战WB 永远可以相信郭敬明严选 辛芷蕾获奖时张颂文的表情 那英五十多岁正是敏感的年纪 父子摆摊仅剩5元城管处罚后月入6000 朝鲜播出金正恩出席九三阅兵纪录片 李昀锐 我那ys白月光 谁教宋妍霏冷脸说这个的 我给人撕到奖了 你撕过吗 一高校宿舍床直接钉在墙上 又是被中国排面硬控的一天 公安机关查处网络谣言 工作后才知道苹果是最好的水果 新华社研究院发布重磅报告 菜市场捡菜 为什么奶茶不另外加糖反而更甜 张维伊不是我找你们来的吧 公安机关查处网络谣言 周迅 父子摆摊仅剩5元城管处罚后月入6000 新华社研究院发布重磅报告 辛芷蕾获奖时张颂文的表情 scout KPL夏决赛前预测 这一握情深意重 遭前夫殴打致死女子女儿发声 小猫自己用饮水机放水喝 欧阳娣娣不选对的只选帅的 杨紫暑期档全勤王 狗狗绝食7天守护离世主人遗体 小狗会知道主人叫什么名字吗 父子摆摊仅剩5元城管处罚后月入6000 狗狗绝食7天守护离世主人遗体 KPL夏决赛前预测 小猫自己用饮水机放水喝 欧阳娣娣不选对的只选帅的 新华社研究院发布重磅报告 一高校宿舍床直接钉在墙上 彭昱畅 急诊 石破茂辞职理由 河南欢迎短信 BLG与JDG决胜局 店铺侵权使用胖东来引流被罚款15万 薪资怎么谈高点又不会聊崩 今晚邀你一起看红月 警方通报女子遭前夫殴打后死亡 店铺侵权使用胖东来引流被罚款15万 12306回应大量私生高铁站围堵男星 李昀锐 我那ys白月光 一高校宿舍床直接钉在墙上 石破茂辞职理由 孙心娅回应是冯绍峰女友里最好看的 广西梧州通报多名学生打骂一女生 张维伊不是我找你们来的吧 彭昱畅 急诊 那英五十多岁正是敏感的年纪 杨幂半成品广告成了 胖东来有父婴室了 我给人撕到奖了 你撕过吗 医生支招气血不足怎么补 新华社研究院发布重磅报告 工作后才知道苹果是最好的水果 父子摆摊仅剩5元城管处罚后月入6000 工作后才知道苹果是最好的水果 一高校宿舍床直接钉在墙上 工作后才知道苹果是最好的水果 我给人撕到奖了 你撕过吗 石破茂记者会 错过今晚的月全食要等3年 卡皮巴拉大军 月经6种表现说明子宫健康 这一握情深意重 BLG与JDG决胜局 月经6种表现说明子宫健康 石破茂记者会 鹿哈老婆看鹿晗演唱会了 杨紫暑期档全勤王 丁程鑫刘耀文旅行回来了 又是被中国排面硬控的一天 为什么奶茶不另外加糖反而更甜 胖东来有父婴室了 石破茂记者会 男主的情敌是曾经的自己 薪资怎么谈高点又不会聊崩 张艺兴飞奔赶高铁 卡皮巴拉大军 今晚邀你一起看红月 40年前干涸的河被养回来了 永远可以相信郭敬明严选 BLG与JDG决胜局 胖东来回应父婴室 新华社研究院发布重磅报告 在中国这个东西是用来占座的 又是被中国排面硬控的一天 又是被中国排面硬控的一天 狗狗绝食7天守护离世主人遗体 BLG与JDG决胜局 scout 12306回应大量私生高铁站围堵男星 这一握情深意重 石破茂记者会 为什么奶茶不另外加糖反而更甜 张晚意李沁嫂子开门我是我哥 中国坦克目标不是抗衡是打掉 12306回应大量私生高铁站围堵男星 狗狗绝食7天守护离世主人遗体 辛芷蕾听完英文提问的反应 河南欢迎短信 25岁到47岁的衰老全过程 遭前夫殴打致死女子女儿发声 AG对战WB 彭昱畅 急诊 石破茂记者会 永远可以相信郭敬明严选 张维伊不是我找你们来的吧 胖东来回应父婴室 我给人撕到奖了 你撕过吗 这一握情深意重 医生支招气血不足怎么补 今晚邀你一起看红月 40年前干涸的河被养回来了 减脂馒头爆单老板一天怒干15小时 杨幂半成品广告成了 卡皮巴拉大军 公安机关查处网络谣言 张维伊不是我找你们来的吧 那英五十多岁正是敏感的年纪 KPL夏决赛前预测 长期吃米vs长期吃面 遭前夫殴打致死女子女儿发声 小狗会知道主人叫什么名字吗 杨紫暑期档全勤王 减脂馒头爆单老板一天怒干15小时 小猫自己用饮水机放水喝 张艺兴飞奔赶高铁 薪资怎么谈高点又不会聊崩 为什么奶茶不另外加糖反而更甜 小猫自己用饮水机放水喝 这一握情深意重 朝鲜播出金正恩出席九三阅兵纪录片 警方通报女子遭前夫殴打后死亡 工作后才知道苹果是最好的水果 谁教宋妍霏冷脸说这个的 易烊千玺妈妈送我伴手礼 孙心娅回应是冯绍峰女友里最好看的 12306回应大量私生高铁站围堵男星 一高校宿舍床直接钉在墙上 周迅 KPL夏决赛前预测 孙心娅回应是冯绍峰女友里最好看的 谁教宋妍霏冷脸说这个的 血月对人体有什么影响 月经6种表现说明子宫健康 花少7最没偶像包袱的一季 &女子嫁外国贫民窟求助回国系摆拍 错过今晚的月全食要等3年 许嵩 冯禧 父子摆摊仅剩5元城管处罚后月入6000 胖东来回应父婴室 新华社研究院发布重磅报告 25岁到47岁的衰老全过程 那英五十多岁正是敏感的年纪 我给人撕到奖了 你撕过吗 遭前夫殴打致死女子女儿发声 易烊千玺妈妈送我伴手礼 杨紫暑期档全勤王 辛芷蕾听完英文提问的反应 石破茂决意辞职 彭昱畅 急诊 杨幂半成品广告成了 辛芷蕾获奖时张颂文的表情 丁程鑫刘耀文旅行回来了 遭前夫殴打致死女子女儿发声 鹿哈老婆看鹿晗演唱会了 减脂馒头爆单老板一天怒干15小时 周迅 张艺兴飞奔赶高铁 scout 40年前干涸的河被养回来了 男主的情敌是曾经的自己 辛芷蕾听完英文提问的反应 石破茂辞职理由 警方通报女子遭前夫殴打后死亡 从垃圾桶弃婴到顶流女星 40年前干涸的河被养回来了 遭前夫殴打致死女子女儿发声 朝鲜播出金正恩出席九三阅兵纪录片 警方通报女子遭前夫殴打后死亡 胖东来有父婴室了 花少7最没偶像包袱的一季 AG对战WB 血月对人体有什么影响 小狗会知道主人叫什么名字吗 杨紫暑期档全勤王 男主的情敌是曾经的自己 25岁到47岁的衰老全过程 在中国这个东西是用来占座的 河南欢迎短信
更多>像素rpg游戏
在中国这个东西是用来占座的 医生支招气血不足怎么补 12306回应大量私生高铁站围堵男星 减脂馒头爆单老板一天怒干15小时 谁教宋妍霏冷脸说这个的 杨紫暑期档全勤王 辛芷蕾获奖时张颂文的表情 丁程鑫刘耀文旅行回来了 小猫自己用饮水机放水喝 店铺侵权使用胖东来引流被罚款15万 月全食时间表 张艺兴飞奔赶高铁 鹿哈老婆看鹿晗演唱会了 警方通报女子遭前夫殴打后死亡 警方通报女子遭前夫殴打后死亡 周迅 花少7最没偶像包袱的一季 石破茂宣布辞去自民党总裁职务 许嵩 冯禧 胖东来有父婴室了 新华社研究院发布重磅报告 AG对战WB 河南欢迎短信 卡皮巴拉大军 周迅 中国坦克目标不是抗衡是打掉 阅兵的转头杀怎么这么帅 工作后才知道苹果是最好的水果 月全食时间表 朝鲜播出金正恩出席九三阅兵纪录片 薪资怎么谈高点又不会聊崩 谁教宋妍霏冷脸说这个的 石破茂记者会 12306回应大量私生高铁站围堵男星 月全食时间表 月全食时间表 张艺兴飞奔赶高铁 缘起三生定档 石破茂决意辞职 一高校宿舍床直接钉在墙上 阅兵的转头杀怎么这么帅 花少7最没偶像包袱的一季 今晚邀你一起看红月 为什么奶茶不另外加糖反而更甜 AG对战WB 血月对人体有什么影响 永远可以相信郭敬明严选 长期吃米vs长期吃面 薪资怎么谈高点又不会聊崩 周迅 那英五十多岁正是敏感的年纪 石破茂决意辞职 工作后才知道苹果是最好的水果 朝鲜播出金正恩出席九三阅兵纪录片 KPL夏决赛前预测 那英五十多岁正是敏感的年纪 石破茂记者会 新华社研究院发布重磅报告 12306回应大量私生高铁站围堵男星 警方通报女子遭前夫殴打后死亡 河南欢迎短信 狗狗绝食7天守护离世主人遗体 李昀锐 我那ys白月光 美总统威胁要与一美国城市开战 张维伊不是我找你们来的吧 石破茂记者会 鹿哈老婆看鹿晗演唱会了 这一握情深意重 我给人撕到奖了 你撕过吗 40年前干涸的河被养回来了 广西梧州通报多名学生打骂一女生 长期吃米vs长期吃面 公安机关查处网络谣言 谁教宋妍霏冷脸说这个的 店铺侵权使用胖东来引流被罚款15万 阅兵的转头杀怎么这么帅 错过今晚的月全食要等3年 又是被中国排面硬控的一天 警方通报女子遭前夫殴打后死亡 今晚邀你一起看红月 月经6种表现说明子宫健康 周迅 新华社研究院发布重磅报告 公安机关查处网络谣言 美总统威胁要与一美国城市开战 狗狗绝食7天守护离世主人遗体 石破茂决意辞职 辛芷蕾获奖时张颂文的表情 AG对战WB 在中国这个东西是用来占座的 长期吃米vs长期吃面 卡皮巴拉大军 一高校宿舍床直接钉在墙上 AG对战WB 那英五十多岁正是敏感的年纪 BLG与JDG决胜局 谁教宋妍霏冷脸说这个的 杨紫暑期档全勤王 血月对人体有什么影响 那英五十多岁正是敏感的年纪 卡皮巴拉大军 欧阳娣娣不选对的只选帅的 彭昱畅 急诊 孙心娅回应是冯绍峰女友里最好看的 周迅 杨紫暑期档全勤王 男主的情敌是曾经的自己 遭前夫殴打致死女子女儿发声 缘起三生定档 错过今晚的月全食要等3年 许嵩 冯禧 KPL夏决赛前预测 小猫自己用饮水机放水喝 在中国这个东西是用来占座的 薪资怎么谈高点又不会聊崩 错过今晚的月全食要等3年 女子嫁外国贫民窟求助回国系摆拍 医生支招气血不足怎么补 花少7最没偶像包袱的一季 丁程鑫刘耀文旅行回来了 男主的情敌是曾经的自己 又是被中国排面硬控的一天 辛芷蕾获奖时张颂文的表情 花少7最没偶像包袱的一季 石破茂记者会 石破茂宣布辞去自民党总裁职务 石破茂宣布辞去自民党总裁职务 遭前夫殴打致死女子女儿发声 小猫自己用饮水机放水喝 欧阳娣娣不选对的只选帅的 杨紫暑期档全勤王 男主的情敌是曾经的自己 彭昱畅 急诊 花少7最没偶像包袱的一季 石破茂记者会 丁程鑫刘耀文旅行回来了 减脂馒头爆单老板一天怒干15小时 朝鲜播出金正恩出席九三阅兵纪录片 张晚意李沁嫂子开门我是我哥 KPL夏决赛前预测 新华社研究院发布重磅报告 新华社研究院发布重磅报告 减脂馒头爆单老板一天怒干15小时 减脂馒头爆单老板一天怒干15小时 张维伊不是我找你们来的吧 女子嫁外国贫民窟求助回国系摆拍 杨紫暑期档全勤王 周迅 彭昱畅 急诊 月经6种表现说明子宫健康 杨紫暑期档全勤王 杨幂半成品广告成了 欧阳娣娣不选对的只选帅的 为什么奶茶不另外加糖反而更甜 KPL夏决赛前预测 AG对战WB 警方通报女子遭前夫殴打后死亡 今晚邀你一起看红月 美总统威胁要与一美国城市开战 张艺兴飞奔赶高铁 在中国这个东西是用来占座的 阅兵的转头杀怎么这么帅 小猫自己用饮水机放水喝 朝鲜播出金正恩出席九三阅兵纪录片 我给人撕到奖了 你撕过吗 在中国这个东西是用来占座的 25岁到47岁的衰老全过程 美总统威胁要与一美国城市开战 花少7最没偶像包袱的一季 缘起三生定档 减脂馒头爆单老板一天怒干15小时 广东珠海全市学校停课 阅兵的转头杀怎么这么帅 scout 李昀锐 我那ys白月光 为什么奶茶不另外加糖反而更甜 张晚意李沁嫂子开门我是我哥 辛芷蕾获奖时张颂文的表情 月全食时间表 欧阳娣娣不选对的只选帅的 小狗会知道主人叫什么名字吗 易烊千玺妈妈送我伴手礼 广东珠海全市学校停课 25岁到47岁的衰老全过程 为什么奶茶不另外加糖反而更甜 12306回应大量私生高铁站围堵男星 今晚邀你一起看红月 花少7最没偶像包袱的一季 彭昱畅 急诊 河南欢迎短信 胖东来有父婴室了 张晚意李沁嫂子开门我是我哥 永远可以相信郭敬明严选 广东珠海全市学校停课 易烊千玺妈妈送我伴手礼 错过今晚的月全食要等3年 广东珠海全市学校停课 朝鲜播出金正恩出席九三阅兵纪录片 阅兵的转头杀怎么这么帅 我给人撕到奖了 你撕过吗
热门冒险解谜
相关专辑
月全食时间表 scout 朝鲜播出金正恩出席九三阅兵纪录片 孙心娅回应是冯绍峰女友里最好看的 阅兵的转头杀怎么这么帅 一高校宿舍床直接钉在墙上 长期吃米vs长期吃面 广东珠海全市学校停课 薪资怎么谈高点又不会聊崩 KPL夏决赛前预测
用户反馈

反馈原因

其他原因

联系方式
班长摘下奶罩🐻让我爽动漫视频

喂奶人妻XXXXXHDvideo

「活动」首次登录送91元红包

079.82MB
版本V5.4.057
下载kumatest.com安装你想要的应用 更方便 更快捷 发现更多
喜欢 83%好评(90人)
评论 43
✡️黄✡️色✡️电影 日本打屁股🔞网站脱裤子打屁股 中国学生内谢69XXXⅩ精品 七龙珠十八号❌黄漫羞羞网站 ㊙️免费无遮挡香蕉漫画
详细信息
  • 软件大小: 88.54MB
  • 最后更新: 2025/09/08 03:44:07
  • 最新版本: V9.51.08
  • 文件格式: apk
  • 应用分类:ios-Android
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 9.7以上
版本更新
V1.34.46
91麻豆精品秘密㊙️入口-百度
查看更多

男仆被❌到爽🔞高潮痉挛

相关攻略
蜜桃㊙️无码
包含 饿了么 的应用集
评论
  • 不知火舞被爆❌视频网站 5分钟前
    男男遮挡🈚️删减软件
  • 成人18🈲免费观看 0分钟前
    中国美团外卖员男同GaY✅
  • 让男生摸美女➕光屁屁➕无遮挡 8分钟前
    爆乳十八禁🔞三国成人游戏抖阴
  • 欧美成人重1口味另类 7分钟前
    zzjⅰ中国zzji
  • 男人与牛性口牲恔配视频 1分钟前
    奇优手机版❤️!
  • 免费看黄🈲片,在线观看 0分钟前
    女人把㊙️扒开给男人爽韩国
  • 扒开小撄疯狂揉❌难受 9分钟前
    扒开纲手❌狂揉❌难受3b
  • Xxx91Xxx免费视频 2分钟前
    原神胡桃裸体❌开腿涩图
  • 初音未来被触手❌捆绑挠脚丫 7分钟前
    51在线无码精品㊙️蜜桃原神
  • 班长被❌爽十八禁 9分钟前
    美女裸体拉屎㊙️网站