调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模

浏览数:979    发布时间:2025/09/07 01:28:00

模型训练重点在于数据的数量与质量?其实还有一个关键因素——

数据的出场顺序。

对此,微软亚洲研究院提出了一种全新的文本数据组织范式 DELT (Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。

△ 数据效率与效能提升

该方法用 优化训练数据的组织方式 来让语言模型学得更好,还 不用增加数据量或扩大模型规模 。

来看看是怎么做到的。

首先,我们先来理清几个概念。

在语言模型训练中,数据使用效率至关重要。现有研究多关注于 数据效率 (Data Efficiency),即如何通过数据选择提升模型训练效率并保持优异性能。

然而, 数据效能 (Data Efficacy),即如何通过数据组织增强模型训练表现,却常常被忽视。

以烹饪为例,数据效率就像在市场挑选新鲜、合适的食材,而数据效能则像名厨把握投放调料的时机与分寸,让菜品发挥出最佳风味。

为了避免过拟合,当前的大语言模型往往在海量数据上进行训练,并且训练的次数非常有限,甚至仅进行一次完整的训练周期(epoch=1),这与早期模型依赖多次迭代训练(epoch>>1)截然不同。

这些变化让 数据呈现的先后顺序对结果影响巨大 。

早期的AI模型类似于让学生多次反复翻阅同一本书,在多轮学习中慢慢补齐细节;而现在更像只给一遍通读,不再反复回看。

这就对阅读顺序提出了极高要求,必须精心规划学习材料出现的先后和结构。因此,训练样本的组织顺序显得尤为关键。然而,关于这一点的研究却很少。

基于此观察,微软亚洲研究院最新提出的文本数据组织范式DELT,通过引入数据排序策略,充分挖掘训练数据潜力,实现了数据的高效利用与效能提升。

DELT范式不但通过数据选择提升效率,选取高质量数据,加快训练速度;

而且通过数据排序提升效能,在预训练和后训练阶段都显著提升了模型性能,且适用于通用、数学和代码等多领域任务。

研究首先定义了 数据训练效能 (Data Efficacy),是指通过优化训练数据的组织方式来最大化语言模型的性能表现,而无需改变数据内容或模型架构。

与以往关注的“数据训练效率” (Data Efficiency) 侧重数据筛选的研究目的不同,数据效能强调对训练数据的评分和排序,以充分挖掘数据的潜在价值。

数据顺序在语言模型训练中的潜力尚未被充分挖掘, 数据效能旨在通过合理的数据组织方式,使模型在有限的训练数据和资源下实现更高的性能和泛化能力,成为提升语言模型性能的一种新兴方法。

△ DELT范式架构

DELT( D ata E fficacy in L M T raining)是一种创新的文本数据组织范式。

它集成了数据评分(Data Scoring)、数据选择(Data Selection) 和数据排序(Data Ordering) 三大核心组件。

数据评分根据特定的属性为每个样本赋予分数,如:难度、质量、多样性等。

数据选择通过评分筛选出最优子集(如:top-k、按阈值筛选等),然后数据排序根据评分重新组织所选择数据的呈现顺序(如:基于课程学习的分数从低到高排列)。 为了兼顾数据处理效率,DELT范式的数据选择和数据排序共用数据评分的结果。

因此,数据评分的规则设置非常重要。于是,研究还提出了 Learning-Quality Score (LQS)方法。

△ LQS打分方式

该数据评分方式结合了 质量 和 可学习性 两个关键指标,不但可以筛选出低质量数据,而且也能捕捉数据在不同阶段的训练价值,进一步提供了可靠的数据排列顺序。

为了进一步提升数据效能,团队还提出了一种全新的折叠排序方法 Folding Ordering (FO)。

基于课程学习的排序(即,按分数升序排序)可能导致模型遗忘和数据内部分布偏差。

折叠排序策略通过多层“折叠”,将数据按分数分层并多次采样,无重复且均衡分布。

△ Folding排序方式

相比随机打乱或单一排序,它既保留难度排序优势,又避免模型过度遗忘或依赖特定数据,提升了鲁棒性和泛化能力。

与传统随机排序方法相比,DELT范式不仅通过减小数据规模提升了训练效率;而且在不同模型尺寸和数据规模下,在各种评测集上都显著提升了模型性能。

△ 不同数据规模和模型尺寸下的结果

DELT给Data-centric AI领域带来了全新思路。

看来,类比于人类教学实践,讲究个性化与按部就班地安排学习内容,AI训练也需要类似的学习方法。

论文链接:https://arxiv.org/abs/2506.21545 代码链接:https://github.com/microsoft/DELT

触碰心弦,自然的低吟,是心灵最久违的抚慰!_【2025/09/07 01:28:00】【bilibili】【哔哩哔哩】 调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模

/search-33851799-lzkhtml

「活动」kumadaibiaotitest

3.20MB
版本V5.26.084
下载裸体动态漫画猛🌿免费看安装你想要的应用 更方便 更快捷 发现更多
喜欢 25%好评(85939人)
评论 30
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模截图0 调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模截图1 调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模截图2 调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模截图3 调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模截图4
详细信息
  • 软件大小  83148.71279MB
  • 最后更新  2025/09/07 01:28:00
  • 最新版本  V9.89784.8
  • 文件格式  apk
  • 应用分类 ios-Android 隔着肉丝🌸扒腿自慰网站
  • 使用语言  中文
  •   需要联网
  • 系统要求  6.90226以上
应用介绍
91在线无码精品㊙️入口竹美,动漫版小黃片㊙️🈲网站嗯嗯啊动图
丝袜老师踩我的🐔出精软件
嫩BBB槡BBBB槡BBBB小号
国产精品㊙️吴梦梦播放
人与禽獸乱婬A片
把熟女屁股眼玩出屎在线观看
美女扒开㊙️认男人通
美女裸体㊙️无遮挡胸麻豆

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V0.1.52
把校花🌸吊起来揉搓双乳漫画

调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • ㊙️羞羞性动漫在线观看 3天前
    男c男🔞黄㊙️❌一起草
  • 美女裸露㊙️无遮挡奶胸 9天前
    无码黄桃aV一区二区三区
  • 18xxxxxxxxx19 0天前
    男女做爱毛片
  • 韩婧格㊙️被男人捅 1天前
    扒开❌狂揉❌喷水直播的下载
  • 色情乱婬一级A片黄花女片 9天前
    动漫裸体❌羞羞视频
  • 18禁❌中国美女免费视频 7天前
    日本❌❌❌❌❌色情17
  • qq怎么用❤拼我爱你 9天前
    扒开动漫❌狂揉❌羞羞视频
  • 女被狂揉下部❌羞羞视频 9天前
    卡尔蜜拉被强行❌爽高清在线看
  • 樱花直播在线高清 3天前
    免费啪啪A片AAAA片老太婆交
  • 无套内射肉丝校花🌸 7天前
    男男GayGays✅打男生屁股网站