告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

浏览数:943    发布时间:2025/09/07 02:40:31

大语言模型通过 CoT 已具备强大的数学推理能力,而 Beam Search、DVTS 等测试时扩展(Test-Time Scaling, TTS)方法可通过分配额外计算资源进一步提升准确性。然而,现有方法存在两大关键缺陷:路径同质化(推理路径趋同)和中间结果利用不足(大量高质量推理分支被丢弃)。

为解决这些问题,华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析(SRCA)框架 —— 在推理步骤间引入 “检查点”,并集成两大核心策略:(1)答案聚类搜索(Answer-Clustered Search):根据中间检查点答案对推理路径进行分组,在保证质量的同时维持路径多样性;(2)检查点候选增强(Checkpoint Candidate Augmentation):利用所有中间答案辅助最终决策。

实验结果表明,在多个数学数据集上,如 MATH500 和 OlympiadBench,SRCA 相较于现有 TTS 方法,推理准确性均有提升。该论文已被 EMNLP 2025 接收。

Test Time Scaling(TTS)技术简单来说就是在模型测试阶段 "砸资源":不改变模型本身,而是通过增加推理时的计算开销,让 LLM 在解题时 "多想一会儿",从而显著提升推理准确性。除了常见的长思维链,比如 DeepSeek R1 典型的 think 模式,多次采样并有策略的搜索正确解题路径也是一种常见的 TTS 策略。

我们常用的多数投票 / 自我一致性(Self-Consistency)可以视为是最朴素的 TTS 技术。比如让模型对一道数学题生成 10 个推理过程,最后选出现次数最多的答案。这种看似简单的方法,却能显著提升模型推理的准确率 —— 代价是多花几倍计算时间。

随着任务难度提升,这种暴力提升采样次数的做法效率越来越低。于是研究者们引入了额外的打分模型,比如一个过程奖励模型(PRM),从而开发了更先进的 TTS 算法。

不过这类方法仍然存在两个问题。

两大痛点

我们的解法:给推理过程 "设检查点"

针对这些问题,我们提出了 SRCA(Stepwise Reasoning Checkpoint Analysis) 框架,该框架包含三个关键组件:

下面是每个组件的具体介绍。

检查点注入(Checkpoint Injection):打断推理并预测答案

检查点注入是 SRCA 的基础技术,后续的 ACS 和 CCA 算法全部依赖于检查点注入收集到的中间答案,核心思路是强制模型在每一步推理后暂停并输出阶段性答案。早期的工作中亦有类似的探索,chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同样是利用暂停推理收集答案的思路观测模型推理时置信度 (confidence) 的变化以判断模型推理是否准确。而检查点注入则更关注模型阶段性推理的答案本身,具体流程如下:

通过这样的方式,我们可以收集到模型基于当前推理步骤得出的答案。这种 “中间答案” 尽管并不完整和精确,但它们在一定程度上可以代表模型在当前的思考过程,比如两条推理路径得出的中间答案是一样的,我们则可以认为这两条推理路径目前解题的思路和进度是类似的。收集到中间答案后,通过合理的 KV Cache 管理,我们可以将推理状态回滚到上一步推理结束的时刻,从而避免反复推理降低计算开销。

答案聚类搜索(ACS):防止 “思路扎堆”,鼓励不同解法

基于检查点答案,我们重新设计了路径搜索策略,提出了 Answer Clustering Search 算法。传统方法(如 Beam Search)虽然让模型尝试多条路,但 PRM 打高分的路径往往类似,这就容易提前扼杀搜索路径的多样性,导致最终错过可能的正确答案。

针对路径同质化问题,ACS 在检查点执行双层筛选机制:

这样保证了不同解题方向(不同组)都有机会保留至少一条 “种子选手” 继续发展。即使某一种方法(组)目前分数不是最高,只要它整体有潜力,它最好的那条路也有机会被选上。这就大大增加了解题思路的多样性,避免大家一窝蜂挤到一条(可能错的)思路上。

检查点候选增强(CCA):抢救 “半成品好答案”,变废为宝

在传统树搜索(如 Beam Search / DVTS)中,只有那些最终走完全程的路径才有资格参与最终答案的评选。大量未完成的中间推理步骤被直接丢弃。CCA 通过收集复用这些未完成路径的检查点答案提升模型推理的准确性:

这样极大减少了 “好答案被中途埋没” 的情况。即使模型后面推理跑偏了,只要它在某个步骤 “灵光一现” 得出了正确结果,CCA 就能把它捞回来,给模型一个 “后悔药”。这大大提高了计算资源的利用率。下面是一个具体的示例:

如图所示,模型推理完成得到的答案是 9,而正确答案是 27。但回顾推理过程中的检查点答案可以发现,模型在第 4 和第 5 步已经得出了 27 这个答案,而错误出在第 6 步 ——9 是一个完全平方数而不是平方立方数。而 CCA 记录收集了所有检查点答案,并综合考虑所有候选答案选出最终结果。可以看到第 5 步的检查点答案得到了最高分 0.7192,该答案被 CCA 恢复并修正了错误答案。

实验结果

TL;DR:

燃烧欲望,在拥抱中,找到世界最真实的温度!_【2025/09/07 02:40:31】【bilibili】【哔哩哔哩】 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升
告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升

/search-51130192-lzkhtml

「活动」kumadaibiaotitest

8.60MB
版本V2.33.466
下载男人㊙️桶进美女尿囗安装你想要的应用 更方便 更快捷 发现更多
喜欢 43%好评(59115人)
评论 25
告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升截图0 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升截图1 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升截图2 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升截图3 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升截图4
详细信息
  • 软件大小  71089.87037MB
  • 最后更新  2025/09/07 02:40:31
  • 最新版本  V9.89078.5
  • 文件格式  apk
  • 应用分类 ios-Android 美女搂着小奶头❌❌❌视频
  • 使用语言  中文
  •   需要联网
  • 系统要求  9.40599以上
应用介绍
AV➕国产➕美女➕美女被❌狂巨大胸羞羞3d
打肿菊🌸玉势调教姜刑打烂微博
FreeHD❤BBWpics
做爰GaY羞羞🔞看片爱豆视频
中国xxxxxx性xxxxx12
恶魔巴巴塔裸体㊙️无遮挡
男生㊙️处不打码
91娇喘❌❌⭕⭕Cosplay

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V8.3.63
免费无遮挡🔞涩涩啪啪17c

告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • 欧美亅izz19性欧美 1天前
    99国产㊙️精品入口❤️
  • 黑人Free69❌❌❌熟女 9天前
    偷拍夫妻性生活视频
  • 同桌让我❌她我爽了好久男男 0天前
    日本啪啪毛片一区二区🔞
  • 海贼王同人18❌AV黄漫网站 4天前
    纲手被啪❌漫画禁漫
  • 一级黄色大片操老太太白色逼毛 8天前
    成人H㊙️小说软件
  • 女性裸体被❌羞羞网站 0天前
    成人小电影30vk.cc
  • ♥榴莲视频app在线♥18 7天前
    3D❌❌❌Video
  • 9.1免费版安装大全 8天前
    男m女s✅免费观看中文
  • 云缨张开双腿被强❌小说 0天前
    我想你㖭我下的小说
  • 成全影视在线观看第7季 6天前
    成人片㊙️3D成人国