2025/09/07 01:24:31 1,697次浏览

机器之心报道

编辑:冷猫

大语言模型的发展真是日新月异。

从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

GRPO 已经成为一种大模型通用的强化学习算法,能够用在广泛的后训练任务中,甚至包括让大模型玩 2048:

而就在今年,大模型后训练的研究出现了几个重磅结果,包括 Seed 团队的 DAPO,Qwen 团队的 GSPO,微软团队的 GFPO 等等,而他们无一例外都是对 GRPO 范式的改进。

看这些名字都绕晕了,GRPO 到底有什么魔力,能让各大研究团队绕着它团团转;GRPO 又有什么缺陷,各大团队都要在它身上动刀?

通过这篇文章,我们希望能够深入浅出的解释大模型后训练的原理,近期的技术进化路线,以期为读者构建一个完整的知识体系。

后训练与强化学习

很多人会觉得,强化学习是一个非常古老的概念,和全新的大模型好似格格不入。

我们先从大模型说起。

大众理解的大语言模型的概念似乎很简单,从海量数据中自监督学习出来的一个模型,能够预测文本中下一个出现的词,从而输出语言文本。

但这并不完善,这种理解只突出了大模型「预训练」的过程,而完全忽略了「后训练」这一重要过程。

简单来说,从海量数据中学习的过程称为「预训练」,预训练的结果是让模型掌握了通用语言能力,但仅仅如此,模型生成的内并不一定符合偏好;可能生成冗长、不准确的内容;可能不符合应用任务的需求。

换句话说, 预训练后的大模型会说话,但不一定会「说对话」。

因此,「后训练」过程就极为重要。后训练的主要目标是强化模型在特定领域的知识和应用能力,增强了模型的适应性和灵活性,使其能够更好地满足实际应用场景中的多样化需求。

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解,我们可以参考先前编译的来自 Unsloth 团队的文章。

强化学习的核心是「反馈」 ,目标是增加好结果的出现概率,降低坏结果的出现概率。

举个例子,在吃豆人(Pacman)游戏中:如果吃掉一块饼干,反馈是加分;如果你碰到敌人,反馈是扣分。

这是最朴素的强化学习方式了。我们放到大模型训练当中,又该用什么方式给大模型加减分的反馈呢?

我们的核心目标是让大模型输出符合我们任务偏好的内容,那最简单的方式就是人类的反馈。

如果你也这么想,那你的想法和 OpenAI 不谋而合。

在训练 GPT 的时候,OpenAI 就 采用了 RLHF(基于人类反馈的强化学习) 的方法。在该方法中,需要训练一个 agent 来针对某个问题(状态)生成人类认为更有用的输出。

反馈有了,并非一切万事大吉了。我们通过 RLHF 获得了反馈,通过这个反馈的 Reward 作为一个绝对的标准去直接训练模型,会出现显著的激励不充分和方差过大的问题。

假如有两个模型,A 的初始能力显著比 B 强,通过直接反馈会出现:

PPO 的稳定策略

为了在此基础上稳定的实现 RLHF,OpenAI 构建了 PPO(Proximal Policy Optimization,近端策略优化) 机制,加入了 Critic、CLIP 操作和 Reference Model ,在保证 策略更新不过度 的同时,依旧能 高效提升性能。现在已经成为强化学习领域的 标准方法之一,几乎是 RLHF 的默认选择。

针对第一条问题,PPO 引入了 Critic:

它表示新策略相对于旧策略,在动作上的概率变化幅度。如果这个比值偏离 1 太多,就会被 限制在一定的范围内 ,避免模型一次更新的幅度过大。

除此以外,PPO 策略采用 Reference Model 上了双保险,在损失函数中加入相对 初始模型的 KL 散度 ,同样可以避免为了短期反馈而脱离合理的策略。

于是,PPO 的损失函数如下:

从 PPO 到 GRPO

上面的描述应该很好理解 PPO 在做什么事情。

但是 PPO 有一个严重的问题,由于价值函数是随着模型训练同时变动的,也就意味着策略模型本身和 Critic 模型(价值函数)都需要进行训练,并且 Critic 模型的大小和策略模型相同。因此会带来 额外的内存和计算负担 ,训练成本非常高,很难进行 scale up。这可能是财大气粗的 OpenAI 玩得转并且取得领先的原因之一。

为了改善这个双模型策略的高成本问题,最简单的方法就是: 去掉一个网络

如果你一样这么想,那你和 DeepSeek 又不谋而合。

DeepSeek 在大模型训练改进的主要动机是想办法去掉 Critic 模型,为此提出了一种替代方法,也就是大名鼎鼎的 组相对策略优化(Group Relative Policy Optimization, GRPO)

PPO vs GRPO 流程算法对比

从流程算法对比中可以看出来,价值函数直接消失了。那不用价值函数,我们如何确定模型的 Advantage 呢?

GRPO 采用了一个非常合理的方法,不用「学习」一个单独的价值网络当 Critic,而是用这个模型过去多次的「考试成绩」来确定一个基准线。

对同一道题目、同一个状态,先用旧策略 采样多条输出 ,然后把这些输出的平均 Reward 当作 baseline; 超过平均值就相当于「正向 Advantage」,低于平均值就是「负向 Advantage」。

在 GRPO 里,除了这一步,还保留了 PPO 中的 Clip 和对 Reference Model 的 KL 正则,这些都可以保障更新的稳定性。不过,KL 散度在 GRPO 的目标函数直接放在了损失函数,这降低了奖励函数的计算复杂度,并且它的计算方案能够保证进行归一化的 KL 值每次都是正值。而在 PPO 中,KL 散度放在奖励函数中。

GRPO 跟 PPO 的重要区别,主要是 去掉了价值函数,同时使用策略模型的多个输出采样的奖励模型输出的多个奖励的平均值作为 Advantage 函数

于是,我们得到了 GRPO 的损失函数:

对于 PPO 到 GRPO,知乎网友将两者在多个维度上进行了比较,如图表所示。

知乎网友@杞鋂 分享PPO与GRPO的对比

从 GRPO 开枝散叶

GRPO 在出现后迅速成为一个后训练范式的重要节点,DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此,后续的改进工作大多都是在 GRPO 的方法基础上进行。

那么 GRPO 到底有啥问题,各个新工作都要在它身上动刀呢?

最致命的问题,哪怕 GRPO 在 PPO 的基础上进行了改进,但在稳定性上与 PPO 方法仍然半斤八两。也就是说 GRPO 仍然存在严重的稳定性问题 ,很容易导致训练崩溃。

根据数学中国的说法, DeepSeek 的数据足够多,多到可以完美地避开 GRPO 的稳定性缺陷。每次的策略梯度计算, 只要 Batch 数据足够多,就能有效降低策略梯度的方差,就能获得比较稳定的迭代了 。对于中小规模的 RL 训练,GRPO 并非一个好的选择,尤其是当每次使用的数据批量比较小的时候,它的稳定性缺陷将是致命的。

因此,最新的一些方法针对 GPRO 的不同部分进行了迭代,具体缺陷和优化方式在介绍新工作时细讲。

DAPO

首先要讲的优化范式是 DAPO,这是字节、清华 AIR 在今年三月开源的算法。

使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分,优于同等规模的 DeepSeek-R1-Zero-Qwen-32B,同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

但是值得一提的是,DAPO 方法并没有 在数学原理上有什么本质上的改变 ,基本优化目标仍然沿用了 GRPO 的形式,只是对 Clip 等参数和采样机制做出了改进。因此,我们把 DAPO 放在最早讨论的顺位。

在实践过程中,GRPO 存在以下几个问题:

为此,DAPO 根据实践中出现的问题提出了针对性的优化:

1. Clip-Higher 机制 :将 Clip 的上下限分开 ,研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high,研究者增加了 ε_high 的值,以便为低概率 token 的增加留出更多空间,能够显著提升模型训练早期的熵。

2. 动态采样 :进行过度采样,过滤掉奖励等于 1 和 0 的提示语,只保留有效梯度的样本,提高训练效率。

3. Token 级策略梯度损失 :对所有 token 一起求平均,保证长序列的所有 token 都公平地为 batch loss 做贡献,并防止长序列的优化梯度被过度缩小。

4. 超长奖励调整 :针对超长样本,当响应长度超过预定义的最大值时,研究者定义一个「soft 罚分」。在这个区间内,响应越长,受到的惩罚就越大,以此避免过长的响应。

因此,DAPO 的优化损失函数如下:

虽然 DAPO 依然是 token 级别 的重要性采样,但训练曲线和最终性能提升非常明显。

GSPO

大的来了。后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 类似方法的重要级采样均为 token 级,迭代方法一直没有突破 token 采样的限制,而 GSPO 真正在原理上做出了改进

最近 Qwen 的研究表明,使用 GRPO 训练大语言模型时存在严重的稳定性问题,往往会导致模型不可逆地崩溃。在 Qwen 团队的研究中,揭示了 GPRO 方法的严重问题:

如果说 DAPO 是在 GRPO 框架内做微调,那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级

重要性采样的作用是:来缓解 off-policy 带来的分布差异情况,也就是说:

我们想要估计一个预期的分布,但是我们手上只有另行为模型的分布,我们就只能在行为策略下进行采样,通过这个样本,赋予重要性权重,来估计出目标策略下函数的值。

但是这种采样的前提在于多次采样,如果只有一次采样,并不能起到分布矫正的作用。问题在于大模型训练过程中,重要性采样都是 在 token 级别进行的,单个 token 进行的重要性采样是无法起到分布矫正的作用的,相反,这种采样手段反而会带来很大方差的噪声。

在训练时,奖励其实是针对整段回答打的分,比如一句话、一个完整回复都会得到一个整体评价。

但是在模型优化时,我们通常是在 token 层面进行采样和更新。于是常见的做法是:把奖励直接分摊到每一个 token 上,再逐个去调整。

这就导致了 优化目标和奖励目标的颗粒度不匹配 :模型可能在单个 token 上学得很用力,但这并不能完全对应整段回答的质量。

为此,Qwen 团队将 GRPO 进化为 组序列策略优化(Group Sequence Policy Optimization, GSPO)

正如其名称所暗示的,GSPO 的核心在于将重要性采样 从 token 级转移至序列级 ,其重要性比值基于整个序列的似然度计算:

这种采样权重的设计自然地缓解了逐 token 方差的累积问题,从而显著提升了训练过程的稳定性。

因此,GSPO 的损失函数为:

此外,GSPO 对 序列级的重要性还做了 长度归一化,不同问题的回答长度差别很大,如果不归一化,importance ratio 会对长度非常敏感,造成不稳定。

最后,因为同一个序列中的所有 token 共用同一个重要性权重,一旦发生 clipping,被裁剪掉的就是 整个序列,而不是像 GRPO 那样只影响部分 token。

因此,GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性,很可能会成为未来后训练强化学习的新标准。

GFPO

在 GSPO 之后不久,微软研究员曝出一个新成果: 组过滤策略优化(Group Filtered Policy Optimization,GFPO) ,另一种颠覆性的强化学习算法。

在 GFPO 工作中,微软研究团队指出了 GRPO 的一个关键限制:

GRPO 依赖于单一的标量奖励信号,这使得它 难以联合优化多个属性 ,例如同时优化简洁性和准确度。

结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。这也导致了大模型遇到一个稍微棘手的问题,就会像陷入沉思一样长篇大论地推下去,耗时耗算力,结果却未必靠谱。

GFPO 正是为了解决这个问题而生的, 它可以同时优化多个响应属性

GFPO 是一种简单而有效的方法,可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组,从而 扩大响应池 以包含更多具有所需特性的候选响应,然后在计算策略梯度时显式地过滤这些特性,不符合目标属性的响应不进入优化。

数据过滤是一种隐式、灵活的奖励塑造形式 —— 类似于 使用选择性采样来放大特定模型行为的迭代式自我改进方法 。过滤机制会迭代地放大模型在目标属性上的表现,就像强化学习里的「偏好放大器」。

在此显式过滤步骤分离出所需的响应后,将在所选组内使用标准奖励来计算相对优势。

因此,GFPO 无需复杂的奖励工程,即可同时优化多个所需属性(例如长度和准确度)。

GFPO 的形式化定义如下:

GFPO 的主要干预措施是在 Advantage 估计层面,使其可与任何 GRPO 类似的方法兼容,例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

GRPO 的一些其他问题

除此以外,也有些研究者发现了 GRPO 的一些其他缺陷,或许可以为未来的研究工作提供一些新思路。

缺陷 1:奖励的歧义性

复杂的推理问题通常需要多个奖励信号,因此我们会为每个评判标准单独设计奖励函数。然后,把所有奖励函数的分数加在一起,折叠成一个单一的奖励信号。

问题在于,模型根本无法知道 自己到底是因为什么行为被奖励的。虽然我们写了不同的奖励函数,但最后所有奖励依然被合并为一个标量信号。模型又怎么知道奖励是来自「答案正确」,还是「推理清晰」,还是「格式规范」呢?

即使我们调整不同奖励组件的权重,模型看到的仍然只是一个总的标量奖励。

GFPO 一定程度上改善了上述问题。

缺陷 2:标量反馈

在推理任务中,GRPO 会丢弃所有中间的文本反馈,因为传给模型的只是一个数值化的奖励信号。

举个例子,模型训练过程中会打印一些输出,每次猜测都有文字反馈,比如:

这些文字反馈对模型其实很有帮助,但在 GRPO 框架下完全用不上,因为它们最终都会被抽象成一个标量奖励。

缺陷 3:多轮推理

另一个瓶颈是 多轮推理 任务在 GRPO 下的表现。问题的关键在于:

在多轮对话中,每一轮的反馈都会被重新输入到基础模型的 prompt 中,从而导致 指数级分支(exponential forking),使得 GRPO 在多轮任务中的训练变得非常痛苦。见下图:

简单总结一下,后训练的发展脉络其实很清晰。从 OpenAI 提出 PPO 的后训练方法开始,都在此基础上缝缝补补。

GRPO 是 PPO 基础上重要的更新范式,自 GRPO 起,后训练策略优化就作为大模型的一个重要研究方向进行,就像树节点一样向外延伸。

https://www.zhihu.com/question/12933942086/answer/1933555787759871596

https://zhuanlan.zhihu.com/p/1941902507136746342

https://blog.csdn.net/m0_74942241/article/details/150611764

https://zhuanlan.zhihu.com/p/1941902507136746342

https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649520693&idx=7&sn=75f3515fb8ca4abbbc9dc0de2338baa3&chksm=bff51a0e6e62b39b8ebc6ee47f28688a5397e442b754429aed46ca7752c9c83db0cd6f77a427&scene=27

文中视频链接:

https://mp.weixin.qq.com/s/JjP6a9htmtdRDfMtyBaIGQ

科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

后厨感觉好像要变异了

「活动」kumawubiaotitest

340.71MB
版本V3.555.38
下载女人自慰㊙️漫画安装你想要的应用 更方便 更快捷 发现更多
喜欢 51%好评(24人)
评论 16
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生截图0 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生截图1 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生截图2 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生截图3 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生截图4
详细信息
  • 软件大小: 419.23MB
  • 最后更新: 2025/09/07 01:24:31
  • 最新版本: V6.581.7
  • 文件格式: apk
  • 应用分类:ios-Android 不知火舞爆c18🈲开襟乳液狂飙
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.06以上
应用介绍
一,18🈲️稀缺you女,欧美色妓❌Ⅹ❌
二,高潮女子撒尿全过程㊙️,❌❌❌裸体女人免费视频
三,我和亲妺在小树林作爱,FUCKGAY❌❌❌❌🔞福瑞
四,快C我啊〜用力〜嗯〜轻一点日本,免费无遮挡🔞网站直接看
五,和泉纱雾乳被爆❌白浆的动漫,免费无遮挡🔞网站双修
六,台湾寡妇一级A片,四极A片,少萝裸体🔞🔞🔞网站
七,老妓女卖婬性视频
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V7.5.17
原神❌18同人禁五郎神子
  • 100%露乳🈲㊙️❌

    王语纯被❌喷水视频舞蹈老师

    啊哈〜嗯哼〜用力cao我视频

    199.70MB
    102好评

    91在线无码精品㊙️入口楼乃

  • 18🈲少萝羞羞开腿

    51成漫动漫入口

    女子撒尿全过程㊙️正面

    3.68MB
    7479好评

    蕾丝视频♥卍18在线观看

  • 体内㓔精69XXXXXx小说

    18🍆🍑🔞无套直国产

    裸体裸乳被🍑视频

    13.33MB
    311好评

    大乳美女❌❌❌大乳91

  • 免费➕无码➕国产41在线软件

    迪丽热巴ai被❌视频无码网站

    小樱被佐助扒开腿做❌18禁

    53.84MB
    271好评

    免费看美女㊙️隐私网站

  • 打白嫩㊙️光屁屁网站()

    18🈲🍆🍑无套直国产泰国

    动漫美女被❌触须吸乳动漫网站

    71.91MB
    703好评

    日本少妇❌❌❌BBB

  • 9I制造厂免费

    强❌乳喷自慰爽免费观看软件

    XLxx美女裸体网站

    83.42MB
    336好评

    琳被艹到出血🈲🈲🈲

  • 动漫美女❌❌免费动漫漫

    白鹿被狂揉下部❌羞羞小说

    白丝袜❌美女羞羞动漫

    23.40MB
    101好评

    白鹿裸体❌❌喷水

  • 校花扒开🍑给男人玩动漫

    亚洲⭕⭕⭕⭕XXXXXXBHD

    粉嫩BBB❤B免费看

    50.33MB
    920好评

    美女裸体羞羞❌免费软件视频

  • 处破女八A片60钟粉嫩

    小🐤🐤入🍑🍑.动漫动漫视频

    ㊙️成人漫画H网站下载

    83.89MB
    565好评

    打屁股🔞网站打屁股

  • 撸大师国产精品

    国产x9x9x9x9x9x任意槽

    原神宵宫裸体❌开腿

    83.18MB
    757好评

    大胸女被c❎黄动漫视频

  • 云缨裸体被❌羞羞玉足网站

    精品无码➕免费➕喷水

    少妇做爰XXXⅩ高潮喷水

    32.72MB
    628好评

    91❌❌⭕⭕白丝动漫

  • 日韩裸体裸乳🍑免费看小说

    Free❌㐅❌性HD手法

    动漫❌❌爆乳❌❌动裸体高能英雄

    26.27MB
    276好评

    日本真人做人爱120分钟

  • 国产男女无套✅观看精东影视

    女角色被疯狂揉🐻

    男同被🌿出水无套

    65.97MB
    740好评

    国语对白一级A片

  • 成人🔞国产免费软件

    欧洲成人18🈲片五十度灰

    欧美❌❌❌自慰ⅩX

    54.32MB
    753好评

    色㊙️乱码一区二区三区男奴

  • 17破解版.apk开放的黄色软件下载安装

    二人做受一级A

    雷电将军裸身被❌羞羞视频

    57.94MB
    684好评

    成人扒开🍑伸进🍌❌免费观看

  • 男男GaYGAYS✅体育老师

    少妇做爰XXXⅩ性视频果冻传媒

    高中生❌到爽🔞

    24.05MB
    352好评

    被❌爆乳羞羞奶头嗯啊免费漫画

  • 美女撒尿全过程㊙️免费

    女人隐私㊙️屁股免费看-百度,-百度

    91娇喘⭕️⭕️❌❌

    13.44MB
    319好评

    日本AAAAA级婬片A片

  • MILF老熟妇A片

    女人把脚扒开㊙️九色

    FreeHD18❌❌❌3D少妇

    84.67MB
    217好评

    越南少妇BBBB搡BBBB1

  • 少妇XXXXXⅩXXXXXX色武功

    黄片网址視频首页

    扒开美女疯狂揉❌

    45.66MB
    736好评

    男人私㊙️Gay男厕自慰gary

  • 小🐤🐤戳进🍑里面视频黄

    爱情岛❤️久久

    🔞无码国产传媒天奇传媒

    10.04MB
    189好评

    抖音网红被❌到爽视频爆料

  • 曼珠沙华被❌到喷水网站

    美女被❌吸乳脱偷看洗澡

    国产一区二区视频免费看

    44.29MB
    365好评

    扒开蜜桃❌❌❌

  • 和妽妽做爰全过程

    村妇卖婬一级a片

    高清码🔞❌♋免费打软件

    91.83MB
    202好评

    不知火舞被暴❌自慰爽naruto

  • 女人扒开腿让男人桶㊙️网站

    小鲜肉GaYGAYS✅免费视频

    大和被扒开腿做❌同人网站

    30.45MB
    903好评

    男男被c🔞黄㊙️❌游戏

  • 朱竹清被狂揉下部❌文章

    一级特黄新婚之夜

    男人的困困放在女人的困困里视频

    30.26MB
    547好评

    扒开美女疯狂揉❌孕动视频动漫

  • jizz美国成熟老妇

    白露被❌到爽羞羞

    钢手被扒开腿做❌同人免费

    29.13MB
    125好评

    国产精品㊙️福利姬视频

  • 女同被❌羞羞真人女同

    动漫㊙️网站入口17c11

    多人自慰✅免费

    70.42MB
    451好评

    午夜寂寞少妇AAA片毛片

  • 老太把腿岔开给我搡免费看黄㊙️片欧美毛片 title="爽⋯躁多水⋯快⋯深点作文" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    成人做爰黄AA片啪啪声无限下载

    18🈲🍆🍑无套看片

  • 真实母子免费黄一绪にHしよっ♥在线观看 title="女人疯狂❌喷水自慰爽软件" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    免费看裸体🔞🔞🔞多人

    美女露出🐻被男生揉

  • 被❌到爽🔞流动漫在线看十八禁暗🔞ue207🔞 title="火影❌18同人漫画网站" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    乐乐的yin荡日子Np小说

    男男互接jiji㊙️隐私

{{.转码Keywords}} 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 🔞吃奶摸下激烈麻豆 8天前
    打男生光屁股㊙️sm网站
  • 珍妮❌裸乳❌动漫❌3D 7天前
    女的被❌到爽的
  • 成人羞羞视频🔞免费河北视频网站 8天前
    欧美精产国品一二三产品在哪买
  • 美女露出奶头㊙️无遮挡照片 4天前
    小舞裸乳被爆❌白浆的下载
  • jlzzjlzzjlz亚洲日本 3天前
    ❌❌二次元18禁自慰喷捆绑图
  • 老头老太做爰BBw 3天前
    小鲜肉GayGayFuck✅✅
  • 美女被❌乳液涩涩免费软件 7天前
    小🐤🐤戳进桃子无遮挡
  • 一级A片同性男男 2天前
    嗯∽啊~轻点禁🔞揉胸网站动漫
  • 在线观看黄A片免费网站 5天前
    打美女100%🐻露出奶头二次元
  • 女自慰无套✅免费动漫 3天前
    虞书欣疯狂❌喷水自慰