《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞

浏览数:667    发布时间:2025/09/06 19:52:46

曾经,我们都以为,像 《王者荣耀》 这样需要 实时操作、团队协作和战略判断 的游戏, 是人类玩家的绝对主场 。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。

而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。

如今, 一项 来自腾讯的新研究或将颠覆我们的这种认知 ——

在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。

例如, 在以下案例中 ,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后, 做出“打暴君、拿主宰”的最佳综合决策 。

从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力 (知道“如何做”) ,同时确保其原本具备的推理与解释能力 (知道“是什么”) 不受影响。

论文链接:https://arxiv.org/pdf/2508.21365

结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟, 以更低的数据和计算需求达到了与传统 RL 方法相当的性能 。

此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。

游戏是AI的绝佳试炼场

在 AI 领域,一直存在一道难以跨越的鸿沟: 陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂 。

简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。

从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。

尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境, 既有可控性 ,能设定明确的规则和目标, 又足够复杂 ,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。

TiG框架:将决策任务转变为语言建模任务

TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略 。

表|TiG 的提示模板

具体到《王者荣耀》的对局里, TiG 框架涉及如下关键技术细节:

游戏状态表征

TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。

同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。

构建数据集

TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。

不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了 重标注(Relabeling)算法 ,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。

强化学习算法(GRPO)

TiG 使用了“群体相对策略优化”(GRPO)算法 ,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。

图|TiG 框架下的 GRPO 训练流程

该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。

并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。

为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:

GRPO:仅使用 GRPO 方法训练基础模型;

SFT:使用 SFT 训练数据集训练基础模型;

SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。

根据实验结果,我们可以得出以下关键发现:

首先, 多阶段训练 ——特别是 SFT 与 GRPO 的结合, 显著提升了模型性能 。

图|动作预测任务(左),不同模型错误案例分布(右)

原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84% ,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91% ,在《王者荣耀》的战略决策上远超其他模型。

同时,此训练方法还 保留了通用语言和推理能力 。

表|关于语言模型一般能力的不同基准的性能

TiG 训练没有让 AI 偏科 ——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后 准确率从 65.8% 升到 66.9% 。

此外,TiG 在其他任务中的 泛化能力良好 。

为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。

表|模型在与板载相关任务上的性能

实战案例

光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。

案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。

TiG 先判断 对局阶段:已经进入中后期 ,“防御塔和野区保护机制已经失效”。再看 当前局势:刚发生过小规模冲突 ,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个 小失误 ,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。

基于分析,TiG 把“ 摧毁敌方中路一塔 ”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。

接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“ 和姜子牙在敌方中路一塔处会合,集中火力推塔 ”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。

最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂, 完全能和人类玩家配合打团 。

未来:不止于《王者荣耀》

《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

然而,研究团队也承认, TiG 依然存在一些局限性 。如下:

严重依赖 LLM 的能力 :TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。

领域泛化性待验证 :目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。

样本效率有待提升 :尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。

策略可解释性待提高 :基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。

为此,研究团队表示,可以从以下几个方向改进 TiG:

一方面,未来的工作将侧重于 将 TiG 扩展到更广泛的环境中 ,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。

另一方面,研究需要 长期记忆或跨越较长状态转移进行推理的任务 。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。

在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

广告时间到

智谱上线 Glm Coding Plan

20 元包月 ,「1/7 价格、3 倍用量」

畅享 Claude Code 编码 体验

开发者用了都说好

欢迎体验~

触碰心弦,时间会褪色,但心动永远不会!_【2025/09/06 19:52:46】【bilibili】【哔哩哔哩】 《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞
《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞

/search-26604096-lzkhtml

「活动」kumadaibiaotitest

2.09MB
版本V9.25.482
下载小心🐤入🍑🍑动漫3d安装你想要的应用 更方便 更快捷 发现更多
喜欢 75%好评(65729人)
评论 55
《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞截图0 《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞截图1 《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞截图2 《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞截图3 《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞截图4
详细信息
  • 软件大小  44573.59719MB
  • 最后更新  2025/09/06 19:52:46
  • 最新版本  V7.01878.7
  • 文件格式  apk
  • 应用分类 ios-Android 斗罗大陆美女被❌到爽视频
  • 使用语言  中文
  •   需要联网
  • 系统要求  7.82938以上
应用介绍
老师张腿让我❌爽了一夜印度人BB毛茸茸做爱
在线视频播放大全
www成人🔞色情最强萝
日本❌祼体❌奶头
免费被❌到爽羞羞小说
国产91❤️在线播放9色
韩国美女黄www㊙️
法国性经典free艳妇HD

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V6.9.59
星穹铁道涩涩同人18❌网站

《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 张津愈免费完整版 2天前
    爽⋯好大⋯快⋯深点高网站投稿
  • 三个老头玩两个老太 8天前
    极品稀缺♥国品AV系列
  • 美女裸体被❌吸乳羞羞国产 3天前
    HD❌❌❌videos
  • yaoi❤♂Gay男同动漫 6天前
    XXXXXXX泡妞🍆🍑免费视频
  • 啊〜好痛〜嗯〜轻一点的作文 7天前
    3d性肉动漫4区在线
  • 大雷美女吃狙19禁了吗 4天前
    纲手被爆乳无尽❌白浆
  • 蓝莓黄网站❌免费蓝莓视频 2天前
    优菈疯狂❌喷水自慰爽
  • 不知火舞被扒开腿做❌同人漫 5天前
    日本大乳❌❌❌久久动漫
  • 色多多视频app♥入口下载 2天前
    网络A片🈚️码115
  • 小樱裸乳被爆❌白浆的漫画 0天前
    朝鲜裸体女性做爰视频