其实,扩散语言模型在最终解码之前很久,就已确定最终答案

浏览数:188    发布时间:2025/09/07 03:04:01

机器之心报道

编辑:陈萍

随着扩散语言模型(DLM)在各个领域的快速发展,其已成为自回归(AR)模型有力的替代方案。与 AR 模型相比,DLMs 的主要优势包括但不限于:高效的并行解码和灵活的生成顺序。

尽管 DLMs 具有加速潜力,但在实际应用中,其推理速度仍慢于 AR 模型,原因在于缺乏 KV-cache 机制,以及快速并行解码所带来的显著性能下降。

本文,来自香港理工大学、达特茅斯学院等机构的研究者尝试从一个不同的角度来加速 DLMs 推理,这一思路源于一个长期被忽视却极具潜力的现象: 早期答案收敛

通过深入分析,研究者观察到:无论是半自回归重掩码还是随机重掩码场景下,有极高比例的样本在解码早期阶段即可获得正确解码。这一趋势在随机重掩码中尤为显著,以 GSMK 和 MMLU 数据集为例,仅需半数优化步骤即可分别实现 97% 和 99% 的样本正确解码。

受此发现启发,该研究提出了 Prophet ,一种无需训练的快速解码策略,该策略专为利用早期答案收敛特性而设计。Prophet 通过持续监控解码过程中 top-2 答案候选之间的置信度差距,自适应地判断是否可安全地一次性解码剩余所有 token。

实验表明,该方法在保持高质量生成效果的同时,实现了显著的推理加速(最高达 3.4 倍)。

方法介绍

Prophet 是一种无需训练的快速解码方法,用来加速扩散语言模型的生成。它的核心思路是:在模型预测结果趋于稳定时,一次性提交所有剩余 token 并提前生成答案,这一过程被称为 早期提交解码(Early Commit Decoding) 。与传统的固定步数解码不同,Prophet 会在每一步主动监测模型的确定性,从而能够即时做出是否终止解码的决策。

早期提交解码。何时终止解码循环的决定可以定义为最优停止问题。在每一步,都必须在两种互相冲突的成本之间权衡:继续执行额外细化迭代的计算成本,与因过早决定而可能带来错误的风险。计算成本取决于剩余步数,而错误风险则与模型的预测置信度呈负相关,其中「置信差距」可作为其稳健指标。

算法 1 概述了完整的 Prophet 解码过程:

实验

实验结果如表 1 所示。

在通用推理任务上,Prophet 展现了与完整基线相当甚至更优的性能。例如,在使用 LLaDA-8B 时,Prophet 在 MMLU 上达到 54.0%,在 ARC-C 上达到 83.5%,两者在统计上均与完整的 50 步解码结果相当。

更有趣的是,在 HellaSwag 上,Prophet(70.9%)不仅超过了完整基线(68.7%),还优于半步基线(70.5%),这表明早期提交解码能够避免模型在后续带噪声的精炼步骤中破坏已正确的预测。

同样地,在 Dream-7B 上,Prophet 在各项基准测试中依然保持了竞争力:在 MMLU 上达到 66.1%,而完整模型为 67.6%,仅有 1.5% 的微小下降,但带来了 2.47 倍的速度提升。

在更复杂的数学和科学基准测试上,Prophet 同样展现了其可靠性。以 GSM8K 数据集为例,基于 LLaDA-8B 的 Prophet 达到 76.8% 的准确率,几乎与完整基线的 77.1% 相当,并且优于半步基线的 76.2%。

总而言之,实证结果强有力地支持了本文的核心假设: 扩散语言模型往往在最终解码步骤之前很早就已经确定了正确答案。

Prophet 成功利用了这一现象,通过动态监测模型预测的置信度,一旦答案趋于稳定,便立即终止迭代精炼过程,从而在几乎不影响任务性能的情况下显著节省计算开销,在某些场景下甚至还能提升表现。这与静态截断方法形成了鲜明对比,后者存在过早终止解码、从而损害准确率的风险。

因此,Prophet 提供了一种稳健且与模型无关的解决方案,有效加速 DLM 的推理过程,提升了其在实际应用中的可行性。

了解更多内容,请参考原论文。

静默凝望,每个微笑背后,可能都藏着阴谋!_【2025/09/07 03:04:01】【bilibili】【哔哩哔哩】 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
其实,扩散语言模型在最终解码之前很久,就已确定最终答案

/search-73251083-lzkhtml

「活动」kumadaibiaotitest

1.65MB
版本V6.40.620
下载大胸美女打开双腿❌动漫安装你想要的应用 更方便 更快捷 发现更多
喜欢 96%好评(95684人)
评论 48
其实,扩散语言模型在最终解码之前很久,就已确定最终答案截图0 其实,扩散语言模型在最终解码之前很久,就已确定最终答案截图1 其实,扩散语言模型在最终解码之前很久,就已确定最终答案截图2 其实,扩散语言模型在最终解码之前很久,就已确定最终答案截图3 其实,扩散语言模型在最终解码之前很久,就已确定最终答案截图4
详细信息
  • 软件大小  24905.57512MB
  • 最后更新  2025/09/07 03:04:01
  • 最新版本  V5.84606.1
  • 文件格式  apk
  • 应用分类 ios-Android 被粗大的🐔巴捣出白浆男同
  • 使用语言  中文
  •   需要联网
  • 系统要求  8.00561以上
应用介绍
苍月奥特曼被❌到爽免费观看女人精AAAA片一级国
韩国人妻❌漫画AV羞羞漫画
学生处破女痛哭免费看网站
老阿姨2免费播放电视剧大全
扒开女人👙给男生摸🍑小说
人与野鲁❌❌❌❌❌片∵女人写真
凸凸凸BBBBB女女女母亲的绣感免费观看
✘黄✘色✘网✘站xvideos

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V7.7.16
国产做受❌❌❌高潮在线看

其实,扩散语言模型在最终解码之前很久,就已确定最终答案类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • 众乐乐三秒跳转新世界🈲 2天前
    男人的🍌伸到🍑里狂压视频
  • 猛男GayGay✅打光屁股的小说 5天前
    WWXX日本免费视频
  • ailisa裸被❌高清网站 9天前
    巨胸爆乳❌❌❌动画,
  • 火影忍者佐良娜被❌黄 4天前
    火影❌喷水自慰动漫同人
  • 欧美肏屄黄色绿相免费看 5天前
    男♂yaoi自慰Gay
  • 志保被新一❌到爽羞羞 0天前
    魅影app下载免费版
  • 免费🔞无码进口动漫视频 3天前
    美女露出🐻让男人揉
  • 日本⭕⭕⭕⭕✘✘✘✘ 5天前
    videos ❌❌video18
  • 边摸🐻边c的视频 0天前
    91在线无码精品㊙️污鱼
  • 在线无码精品秘㊙️ 3天前
    网站免费进入窗口软件2023