2025/09/06 22:51:16 1,031次浏览

机器之心报道

机器之心编辑部

人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题。

在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。OpenAI 预测强化学习所需要的算力甚至将超过预训练。与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展。

图1 : OpenAI 在红杉资本闭门会上的分享

然而,当前框架对具身智能的支持仍然受限。相比推理大模型这一类纯大脑模型,具身智能领域存在大脑(侧重推理、长程规划,如RoboBrain)、小脑(侧重执行、短程操作,如OpenVLA)及大小脑联合(快慢系统,如pi 0.5)等多样模型。

其次, 具身智能除了包含Agentic AI的多步决策属性外,他还有一个独特属性:渲训推一体化 。与工具调用智能体、浏览器智能体所交互的仿真器相比,具身仿真器通常需要高效并行物理仿真和3D图形渲染等,因此当前主流仿真器通常采用GPU加速,耦合多步决策带来了算力和显存竞争的新挑战。

总的来说,具身智能领域不仅继承了推理大模型和数字智能体的难点,同时还引入了新的渲训推一体化特征,再加上具身智能模型尚未收敛,对框架的灵活性、高效性和易用性提出挑战。

图 2:推理大模型与具身智能体对比图

在这样的背景下, 清华大学、北京中关村学院和无问芯穹联合推出了一个面向具身智能的灵活的、可扩展的大规模强化学习框架 RLinf

RLinf 的 “inf” 不仅代表着 RL “infrastructure”,也代表着 “infinite” scaling,体现了该框架极度灵活的系统设计思想。

RLinf 的系统可以抽象为用户层(统一编程接口)、任务层(多后端集成方案)、执行层(灵活执行模式)、调度层(自动化调度)、通信层(自适应通信)和硬件层(异构硬件)6 大层级。相比其他框架的分离式执行模式,RLinf 提出的混合式执行模式,在具身智能训练场景下实现了超 120% 的系统提速,VLA 模型涨幅 40%-60%。同时,RLinf 高度灵活、可扩展的设计使其可快速应用于其他任务,所训练的 1.5B 和 7B 数学推理大模型在 AIME24、AIME25 和 GPQA-diamond 数据集上取得 SOTA。

图 3:RLinf 系统及亮点介绍

设计 1:采用基于 Worker 的统一编程接口,

利用微执行流实现宏工作流,实现一套代码驱动多种执行模式

当前已有强化学习框架通常采用两种执行模式: 共享式 (所有卡跑同一个组件) 和 分离式 (不同的卡分配不同的组件)。 然而,这两种模式在具身智能 “渲训推一体” 的特点下都存在局限性 。主要是:由于具身智能体多步决策的属性,模型(Actor)要和仿真器(Simulator)频繁交互,而当前框架一方面不支持仿真器状态快速卸载和加载,另一方面若用共享式需要频繁加载卸载组件,切换开销大,严重降低系统效率。

因此,目前已有的框架在这个场景下仅支持分离式训练,但分离式采用 on-policy 算法训练时资源闲置率高,系统气泡比较大。 RLinf 针对这一问题,提出了混合式执行模式,如图 4 所示,这种模式兼具分离式和共享式的优势,再配合上细粒度流水设计,使得系统几乎无气泡,显著提升了系统运行效率。

图 4 : 共享式、分离式和混合式执行模式对比

然而,要想实现一套代码驱动多种执行模式(即无需更改代码,通过配置参数即可实现分离、共享或混合)是不容易的,一种标准的解决方案是构建计算流图,但会导致编程灵活性降低,debug 难度直线上升,所以当前已有框架通常只支持一种模式(分离或者共享),引入新的执行模式需要大量的系统开发。

为此,RLinf 提出了 创新的宏工作流到微执行流的映射机制(Macro-to-Micro Flow,M2Flow),实现从组件级而非任务级进行调度 。M2Flow 允许用户使用过程式编程方式灵活构建复杂训练流程,解决传统计算流图构建编程灵活性低的问题,同时能够将过程式的训练流程灵活映射到底层不同的执行模式上,为不同的训练流程(如 RLHF、RLVR 等)选择最优执行模式(配合自动调度模块)。

因此,该映射机制兼具过程式编程(Imperative Programming)的灵活性、易用性、易调试性和声明式编程(Declarative Programming)的编译优化能力。具体而言,RLinf 采用基于 Worker 的统一编程接口,允许用户将训练流程中的不同组件,如模拟器、训练推理引擎,封装成不同 Worker,然后通过过程式编程将这些 Worker 串起来形成完整的训练流程。M2Flow 通过细粒度控制微执行流,即控制每个 Worker 的运行 GPU、执行的批大小、执行时机等,实现极度灵活的执行模式。

总结来说 ,RLinf 使用户能够以高度可适配的方式编排组件(Actor、Critic、Reward、Simulator 等),组件可以放置在任意 GPU 上,并自动配置不同的执行模式,目前支持 3 种执行模式:

设计 2: 面向具身智能大小脑不同训练需求,

采用全新的低侵入式多后端集成方案,兼顾高效性和易用性

如前文提到,具身智能领域的特点是:大小脑同时存在,且该领域仍处在蓬勃发展期,技术路线尚未收敛。因此为了更好地支持具身智能不同用户(如具身大小脑研究人员)的需求,RLinf 集成了两套后端:

图 5:RLinf 集成两套后端

同时 RLinf 也支持多项来自一线从业者的刚需 ,包括 LoRA 训练,断点续训,以及适应不同网速用户的训练可视化(Tensorboard、W&B、SwanLab)等。此外,RLinf 也正在集成 SFT 模块,致力于提供一站式的服务,通过一套代码满足多样化的训练需求。

设计 3: 设计面向强化学习的自适应通信库和自动化调度模块,

提升训练稳定性和系统效率。

自适应通信机制:

强化学习存在多个组件,且这些组件之间存在大量的数据交互。灵活、高效的互通信是支撑强化学习框架高效运行的关键,也是框架可扩展性的重要保证。因此,RLinf 特别设计了一套面向强化学习的通信库,其中主要包含四项优化技术:自适应 CUDAIPC/NCCL 通信、负载均衡传输队列、多通道并发通信机制、快速通信重配置。

图 6:负载均衡传输队列

自动化调度模块:

大规模强化学习框架的优化目标是尽量减少系统资源闲置。已有框架通常采用人为指定资源配置的方案,依赖于人工经验,容易造成系统资源浪费, RLinf 设计了一套自动调度策略,可以针对用户的训练流以及用户所使用的计算资源,选择最优的执行模式

具体而言,RLinf 会对各组件做自动化性能分析,获得各组件对资源的使用效率和特征。然后,构建执行模式的搜索空间,该搜索空间描述了强化学习算法各组件对计算资源的分配复用关系,包括 “时分复用”、“空分复用” 以及二者结合的资源分配方案;在这样的建模下,RLinf 的自动化调度不仅支持已有强化学习框架中 “共享式” 和 “分离式” 的典型资源分配方式,还支持二者结合的混合分配方案的建模分析。

最后,基于上述性能分析数据,在该空间中搜索出最优的执行模式。除此之外,该自动调度策略还 集成 “秒级在线扩缩容(Online Scaling)” 能力,70B 模型只需 1 秒即可完成 5D 并行动态扩缩,而传统方案需十几秒甚至更久 。该功能及相关论文将于 10 月上线开源版本。基于该技术可进一步实现运行时组件间计算资源的动态调度,配合细粒度流水设计,可以在保证算法 on-policy 属性的前提下进一步压缩系统气泡率,且显著提升训练稳定性。

RLinf 性能快览

具身性能(采用 FSDP+HuggingFace 后端测试):

在应用上,与其他框架相比,RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持,为研究人员探索 VLAs+RL 领域提供了良好的基础算法性能及测试平台。RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器(具体平台见说明文档),支持了百余类具身智能任务,集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0。

特别地,团队率先实现了对 Pi 0 的大规模强化学习微调,相关算法及论文将在 9 月底发布。在量化指标上,以 Maniskill3(典型的 GPU-based Simulator )为例进行测试,RLinf 采用混合式结合细粒度流水的执行模式。相比其他框架的分离式执行模式,系统效率显著提速 120% 以上(图 7)。

OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 个任务 [1] 中采用 PPO 算法和适配具身的 GRPO 算法训练后,成功率曲线如图 8 所示,可以看到模型成功率可以从 SFT 后的 30%-50% 提升至 80%-90%,涨幅 40%-50% 以上。

在公开测试平台 LIBERO 的 4 个场景中,OpenVLA-OFT 采用 RLinf 适配具身的 GRPO 算法训练后,平均成功率达到 97.3%,相比 SFT 模型涨幅 62.4%。

团队前序工作曾探讨 RL 和 SFT 对 VLA 泛化性提升的不同之处 [1],RLinf 将研究进一步拓展至大规模场景下,助力探索具身智能领域的 RL Scaling Law。相关模型已开源在 https://huggingface.co/RLinf,欢迎下载测试。

图 7:RLinf 在 “渲训推一体化” 任务训练中显著提速 120%+

图 8:OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 个任务中采用 PPO 算法及具身版 GRPO 算法的训练曲线

表 1:OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的测评结果

推理性能(采用 Megtatron+SGLang 后端测试):

面向具身智能是 RLinf 的应用特色,但 RLinf 的系统设计思想不仅限于具身智能,灵活、可扩展的设计理念使得其可以快速支持其他应用,体现了其通用性。

以 RLinf 支持的推理大模型训练为例,团队集成优化后的 GRPO 算法 [2] 进行了数学推理大模型的训练,数据集为 AReal-boba 数据集 [3],基座模型为 DeepSeek-R1-Distill-Qwen。在三个测试集(AIME24、AIME25、GPQA-diamond)中进行测评,32 个样本取平均,Pass@1 测试结果如表 2 和 3 所示,RLinf-math-1.5B 和 RLinf-math-7B 在三个测试集上均取得 SOTA 性能。

(注:表格中的模型均来自 HuggingFace 开源模型,统一测试脚本 https://github.com/RLinf/LLMEvalKit)

相关模型已开源在 https://huggingface.co/RLinf,欢迎下载测试。

表 2:1.5B 数学推理大模型在多个数据集的测评结果

表 3:7B 数学推理大模型在多个数据集的测评结果

Last but not least

考虑到框架的易用性,RLinf 提供了全面且系统化的使用文档 。RLinf 在开发之初的目标就是开源,因此让每一个用户能够理解、使用和修改是设计原则之一,也是一个优秀开源框架必备的属性。团队采用公司级代码开发流程,确保文档内容覆盖从入门到深度开发的各层次需求。此外,RLinf 还提供完整的 API 文档与集成 AI 问答机器人支持,以进一步提升开发体验与支持效率。

图 9:RLinf 文档链接 https://rlinf.readthedocs.io/en/latest/

RLinf 团队的开发成员具有交叉研究背景,包含从系统到算法到应用的技术全栈,例如系统架构设计、分布式系统、大模型训练推理加速、强化学习、具身智能、智能体等。正是由于这样的交叉背景,使得团队能够从应用需求驱动算法设计,算法指导系统设计,高效系统加速算法迭代,体现了大模型时代下新型科研形态。未来 RLinf 团队也将持续开发和维护,具体 Roadmap 见 Github 网站。

RLinf 项目地址 https://github.com/RLinf/RLinf

最后,诚挚地邀请大家体验 RLinf 框架,并且与我们交流技术观点与潜在合作机会。同时,RLinf 团队持续招聘博士后、博士、硕士、研究员、工程师及实习生,欢迎投递简历,与我们共同推进下一代强化学习基础设施的建设与发展。

联系方式:zoeyuchao@gmail.com, yu-wang@mail.tsinghua.edu.cn

参考资料:

[1] Liu, Jijia, et al. "What can rl bring to vla generalization? an empirical study." arXiv preprint arXiv:2505.19789 (2025).

[2] https://github.com/inclusionAI/AReaL

[3] https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data

大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源
大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源

锤娜丽莎 没吃减肥药没打针

「活动」kumawubiaotitest

812.71MB
版本V3.63.38
下载佐良娜被博人爆❌小说安装你想要的应用 更方便 更快捷 发现更多
喜欢 51%好评(7人)
评论 16
大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源截图0 大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源截图1 大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源截图2 大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源截图3 大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等开源截图4
详细信息
  • 软件大小: 56.10MB
  • 最后更新: 2025/09/06 22:51:16
  • 最新版本: V6.7.7
  • 文件格式: apk
  • 应用分类:ios-Android 朝鲜一级婬片A片AAA视频
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.63以上
应用介绍
一,丰满老阿婆HD高清,把👙脱了给我揉🐻视频
二,男模裸J照无遮挡🔞,把女仆🌸吊起来揉搓双乳小黄文
三,亚洲㊙️无码一区二区三区胖子,珐露珊被c❌黄漫
四,5个❌电影网在线,bbbbb极品
五,男明星裸体洗澡🔞互摸,XX❌中国女人❌❌❌
六,国产91♥️眼镜对白在线播放,18🍆🍑🔞无直套蘑菇视频,小🐥🐥伸入🍑视频免费
七,动漫美女裸体❌❌网站梅花13
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V7.5.17
日本婬妇❌❌❌❌❌視频
  • 动漫❌c🐻黄扒衣服ⅴ999

    女同被❌到爽🔞流小说

    老师让我❌她喷出来了好爽传媒

    164.89MB
    109好评

    FreePorno💋👙11

  • 国产❌c🐻黄扒衣服做小电影

    把🍌伸进女人的🍑视频软件

    黄🌸色🌸视🌸频🌸小视频

    67.14MB
    04好评

    美女自愿扒开㊙️让别人画她视频

  • 四川真人做爰全过程免费

    纲手裸乳爆乳❌视频

    18🈲小泬破白浆777cos

    13.90MB
    310好评

    扒开❌狂揉❌脱脱内内腹肌人

  • 陕西1级aaa1级黄片

    🌻黄🌻色🌻视🌻频🌻

    真人版真人与拘

    53.90MB
    273好评

    芙宁娜裸体被❌调教小说

  • 七十路熟女のお婆ち

    男人小心🐤入女人🐔视频

    老师脱👙给学生摸🐻

    71.35MB
    702好评

    sxP❤️e0N❤️gZ❤️v

  • 美女美腿🏻调教脚奴视频s

    成人国产精品㊙️在线看明星合成

    欧美肉体裸交做爰XXXⅩ视频

    83.40MB
    333好评

    又黄又爽又色🈲成人X站91

  • 139大但人文艺术2O2v14,11,4

    亚洲AV无码乱码国产精品黑人

    ♥禁漫♥天堂♥airav

    23.78MB
    108好评

    18我禁🍆🍑🔞❌❌❌

  • 成人网站♥3D黄漫曹颖

    小舞18同人被❌动漫

    多人自慰✅免费

    50.65MB
    924好评

    国产女性捆绑✅免费网站

  • 高清乱码❌♋免费阅读

    国产婬国话❌❌❌❌❌半推半就

    老妇裸体乱婬A片

    83.99MB
    562好评

    被❌到爽🔞国产高潮痉挛

  • 美杜莎被❌到爽被爆漫画

    永久免费🔞🔞🔞未满下载

    偷拍盗摄中年夫妇啪啪777

    83.57MB
    752好评

    性❤️叫床流奶动漫

  • ♠️媚黑绿奴雌堕

    花木兰疯狂❌喷水自慰网站

    17c❌❌⭕⭕白丝

    32.19MB
    621好评

    国产91精品㊙️入口福利姬竹

  • 老女人做a爰片久久毛片A片

    韩国A片在线观看19🈲️

    💋XXXx18💋

    26.47MB
    271好评

    赤兔GayFuckXXXX下集

  • hentaicartoonzhaiai.reggaecyrus.com

    女人和女人床上激情做爱视频

    大胸❌挤奶❌强j斗罗大陆动漫❌

    65.78MB
    743好评

    女朴扒开㊙️让男人桶爽

  • 裸体裸乳🍑免费动漫

    老师脱👙露出🐻吃我的🍌网站

    五六十岁黑寡妇操B视频

    54.46MB
    751好评

    二次元爆乳被❌流水动漫

  • 神里绫华裸体❌自慰网站

    芙宁娜裸体被❌涩涩的网站

    女人扒开㊙️喷牛奶网站

    57.19MB
    684好评

    美、日、中六十路免费试看

  • 老师让我❌她奶

    沙奈朵❌18禁漫画同人

    麻花传剧原创mv在线看完整版高清七十路的性生活

    24.31MB
    353好评

    3老头玩老太HD

  • XXXHD80❤👙💋

    男男GayGays✅打屁股漫画

    女人又爽❌又黄❌真人快

    13.35MB
    316好评

    被粗大的🐔巴捣出白浆江澄小说

  • XNXXX👙👙日本56

    男同gv自慰🔞网站

    美女尿急憋尿网站㊙️

    84.74MB
    211好评

    www.crm.17.com

  • 原神玛拉妮裸体被❌羞羞漫画

    永久免费🔞🔞🔞未满网

    美女洗澡无遮挡㊙️视频

    45.69MB
    735好评

    杨晨晨裸体www❌

  • 女人性做爰100免费

    雏田小樱被❌无码动漫

    黑人与亚洲女人做爱视频

    10.28MB
    182好评

    蜜璃被❌到爽🔞高潮

  • HWDHDHDXⅩXXX69

    蜜桃91精品㊙️入口网址

    老太高潮无套内谢

    44.94MB
    369好评

    91精品国产乱码香蕉黄瓜草莓

  • 女人和女人床上激情做爱视频

    黑人性交黄片AAA

    🔞无遮挡打光屁屁打屁股网站

    91.80MB
    200好评

    男强动漫被❌到爽🔞流视频江晨

  • 女同学被❌到爽🔞流片森林小说

    孽欲内👖奇缘

    穿jk白丝被❌视频裸体动漫

    30.50MB
    902好评

    性毛茸茸❌❌❌毛茸茸

  • 罗宾被❌到爽🔞高潮痉挛

    抖音在线无码精品㊙️入口

    国产91精品㊙️入口17c黑料

    30.12MB
    541好评

    美女又色❌又黄❌小视频

  • wwwbeegcc

    小舞3D被❌吸乳动漫在线观看

    印度人BB毛茸茸做爱

    29.78MB
    127好评

    91麻豆秘㊙️密入口蜜柚

  • 少被c🔞黄❌在线网站

    中国老太婆性猛交XXXX

    日系成人做爰黄✌片视频动漫乂

    70.77MB
    459好评

    免费➕无码➕欧美真人视频九色

  • 小🐔🐔伸进🈲🔞🔞网站国产美女洗澡18🚫隐私免费漫画 title="❤国产精品嫩草69夜色69夜色" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    爆浆失禁漏尿吃🐔巴小说

    男人下面自慰㊙️黄网站

  • 禁漫♥天堂♥Acfan扒腿㊙️自慰 title="国产亚洲精品成人a v片麻豆" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    扒开科莱特疯狂❌❌

    老头老太性做爰视频

  • xxxxxxx18美国国产富婆一级全黄大片偷看美女隐私㊙️拉屎无遮挡 title="女人又爽❌又黄❌大" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    美国大肥婆胖妞BBw

    あねちじょ♥无

{{.转码Keywords}} 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 农村少妇xXxX乱偷videojizzjizz乌克兰 4天前
    舞蹈生❌开腿让我爽了一夜动漫
  • 美女㊙️下部隐私图片 1天前
    3Ddva婬妇❌❌❌下载
  • 挺进老师嫩嫩嫩的身体视频 8天前
    玖辛奈被扒开腿❌同人网站
  • 高中女生打屁股㊙️无 7天前
    少妇高潮毛片
  • 纲手被扒开腿做❌同自来也 9天前
    18🈲视 频 ❌❌❌在 线观看
  • 欧美黄色爽片 7天前
    3D动漫同人18❌动漫免费
  • 扒开美女❌狂揉❌拔萝卜视频 7天前
    18🈲网站入口
  • 国产91♥眼镜对白在线播放 2天前
    Free性ASS一ZO〇
  • 偷拍盗摄中年夫妻啪啪777 2天前
    朱竹清疯狂❌喷水自慰爽
  • 蜜桃5555tv直播间 8天前
    ꧔ꦿ᭄🌸姚韵💫悠然💞᭄࿐