VV1.4.42 安卓汉化版
VV0.0.08 安卓汉化版
VV9.3.44 安卓汉化版
VV3.0.08 安卓汉化版
VV8.5.01 安卓汉化版
VV8.1.55 安卓汉化版
VV4.6.01 安卓汉化版
VV2.9.03 安卓汉化版
VV3.8.80 安卓汉化版
VV2.9.70 安卓汉化版
VV4.8.38 安卓汉化版
VV4.6.47 安卓汉化版
VV8.1.70 安卓汉化版
VV6.8.32 安卓汉化版
VV12.2.11 安卓汉化版
VV3.0.68 安卓汉化版
VV5.7.61 安卓汉化版
VV9.9.98 安卓汉化版
VV0.5.59 安卓汉化版
VV9.0.35 安卓汉化版
VV1.5.69 安卓汉化版
VV6.9.05 安卓汉化版
VV8.1.74 安卓汉化版
VV6.3.29 安卓汉化版
VV1.3.29 安卓汉化版
VV5.3.01 安卓汉化版
VV3.3.78 安卓汉化版
VV8.7.73 安卓汉化版
VV2.2.25 安卓汉化版
VV3.9.94 安卓汉化版
VV4.3.93 安卓汉化版
VV3.0.35 安卓汉化版
VV4.0.98 安卓汉化版
VV3.6.17 安卓汉化版
VV0.4.59 安卓汉化版
VV5.5.14 安卓汉化版
VV5.5.47 安卓汉化版
VV1.2.37 安卓汉化版
VV2.5.72 安卓汉化版
VV6.6.16 安卓汉化版
VV9.5.14 安卓汉化版
VV0.6.78 安卓汉化版
VV1.1.89 安卓汉化版
分类:单机 / 冒险解谜 | 大小:3.70 MB | 授权:免费游戏 |
语言:中文 | 更新:2025/09/08 05:50:32 | 等级: |
平台:Android | 厂商: 无码➕免费➕53 | 官网:暂无 |
权限:
查看
允许程序访问网络. |
备案:湘ICP备2023018554号-3A | |
标签: 脱👙让摸🐻无遮瑕视频 17禁🍆🍑🔞❌❌❌动漫 成人游戏㊙️免费逆转系统1.0 |
最怕别人问我是哪个学校的
毕大厨来了笑得我好崩溃啊
25岁到47岁的衰老全过程
王牌对王牌回应彭昱畅送急诊湖北便宜且难吃的特产 2025/09/08 05:50:32
2025/09/08 05:50:32
做过美甲的都沉默了
曾经,我们都以为,像 《王者荣耀》 这样需要 实时操作、团队协作和战略判断 的游戏, 是人类玩家的绝对主场 。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。
而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。
如今, 一项 来自腾讯的新研究或将颠覆我们的这种认知 ——
在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。
例如, 在以下案例中 ,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后, 做出“打暴君、拿主宰”的最佳综合决策 。
从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力 (知道“如何做”) ,同时确保其原本具备的推理与解释能力 (知道“是什么”) 不受影响。
论文链接:https://arxiv.org/pdf/2508.21365
结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟, 以更低的数据和计算需求达到了与传统 RL 方法相当的性能 。
此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。
游戏是AI的绝佳试炼场
在 AI 领域,一直存在一道难以跨越的鸿沟: 陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂 。
简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。
从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。
尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境, 既有可控性 ,能设定明确的规则和目标, 又足够复杂 ,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。
TiG框架:将决策任务转变为语言建模任务
TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略 。
表|TiG 的提示模板
具体到《王者荣耀》的对局里, TiG 框架涉及如下关键技术细节:
游戏状态表征
TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。
同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。
构建数据集
TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。
不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了 重标注(Relabeling)算法 ,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。
强化学习算法(GRPO)
TiG 使用了“群体相对策略优化”(GRPO)算法 ,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。
图|TiG 框架下的 GRPO 训练流程
该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。
并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。
为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:
GRPO:仅使用 GRPO 方法训练基础模型;
SFT:使用 SFT 训练数据集训练基础模型;
SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。
根据实验结果,我们可以得出以下关键发现:
首先, 多阶段训练 ——特别是 SFT 与 GRPO 的结合, 显著提升了模型性能 。
图|动作预测任务(左),不同模型错误案例分布(右)
原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84% ,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91% ,在《王者荣耀》的战略决策上远超其他模型。
同时,此训练方法还 保留了通用语言和推理能力 。
表|关于语言模型一般能力的不同基准的性能
TiG 训练没有让 AI 偏科 ——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后 准确率从 65.8% 升到 66.9% 。
此外,TiG 在其他任务中的 泛化能力良好 。
为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。
表|模型在与板载相关任务上的性能
实战案例
光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。
案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。
TiG 先判断 对局阶段:已经进入中后期 ,“防御塔和野区保护机制已经失效”。再看 当前局势:刚发生过小规模冲突 ,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个 小失误 ,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。
基于分析,TiG 把“ 摧毁敌方中路一塔 ”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。
接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“ 和姜子牙在敌方中路一塔处会合,集中火力推塔 ”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。
最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂, 完全能和人类玩家配合打团 。
未来:不止于《王者荣耀》
《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。
然而,研究团队也承认, TiG 依然存在一些局限性 。如下:
严重依赖 LLM 的能力 :TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。
领域泛化性待验证 :目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。
样本效率有待提升 :尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。
策略可解释性待提高 :基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。
为此,研究团队表示,可以从以下几个方向改进 TiG:
一方面,未来的工作将侧重于 将 TiG 扩展到更广泛的环境中 ,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。
另一方面,研究需要 长期记忆或跨越较长状态转移进行推理的任务 。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。
在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。
整理:小瑜
如需转载或投稿,请直接在公众号内留言
广告时间到
智谱上线 Glm Coding Plan
20 元包月 ,「1/7 价格、3 倍用量」
畅享 Claude Code 编码 体验
开发者用了都说好
欢迎体验~
曾经,我们都以为,像 《王者荣耀》 这样需要 实时操作、团队协作和战略判断 的游戏, 是人类玩家的绝对主场 。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。
而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。
如今, 一项 来自腾讯的新研究或将颠覆我们的这种认知 ——
在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。
例如, 在以下案例中 ,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后, 做出“打暴君、拿主宰”的最佳综合决策 。
从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力 (知道“如何做”) ,同时确保其原本具备的推理与解释能力 (知道“是什么”) 不受影响。
论文链接:https://arxiv.org/pdf/2508.21365
结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟, 以更低的数据和计算需求达到了与传统 RL 方法相当的性能 。
此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。
游戏是AI的绝佳试炼场
在 AI 领域,一直存在一道难以跨越的鸿沟: 陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂 。
简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。
从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。
尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境, 既有可控性 ,能设定明确的规则和目标, 又足够复杂 ,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。
TiG框架:将决策任务转变为语言建模任务
TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略 。
表|TiG 的提示模板
具体到《王者荣耀》的对局里, TiG 框架涉及如下关键技术细节:
游戏状态表征
TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。
同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。
构建数据集
TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。
不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了 重标注(Relabeling)算法 ,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。
强化学习算法(GRPO)
TiG 使用了“群体相对策略优化”(GRPO)算法 ,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。
图|TiG 框架下的 GRPO 训练流程
该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。
并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。
为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:
GRPO:仅使用 GRPO 方法训练基础模型;
SFT:使用 SFT 训练数据集训练基础模型;
SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。
根据实验结果,我们可以得出以下关键发现:
首先, 多阶段训练 ——特别是 SFT 与 GRPO 的结合, 显著提升了模型性能 。
图|动作预测任务(左),不同模型错误案例分布(右)
原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84% ,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91% ,在《王者荣耀》的战略决策上远超其他模型。
同时,此训练方法还 保留了通用语言和推理能力 。
表|关于语言模型一般能力的不同基准的性能
TiG 训练没有让 AI 偏科 ——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后 准确率从 65.8% 升到 66.9% 。
此外,TiG 在其他任务中的 泛化能力良好 。
为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。
表|模型在与板载相关任务上的性能
实战案例
光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。
案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。
TiG 先判断 对局阶段:已经进入中后期 ,“防御塔和野区保护机制已经失效”。再看 当前局势:刚发生过小规模冲突 ,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个 小失误 ,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。
基于分析,TiG 把“ 摧毁敌方中路一塔 ”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。
接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“ 和姜子牙在敌方中路一塔处会合,集中火力推塔 ”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。
最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂, 完全能和人类玩家配合打团 。
未来:不止于《王者荣耀》
《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。
然而,研究团队也承认, TiG 依然存在一些局限性 。如下:
严重依赖 LLM 的能力 :TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。
领域泛化性待验证 :目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。
样本效率有待提升 :尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。
策略可解释性待提高 :基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。
为此,研究团队表示,可以从以下几个方向改进 TiG:
一方面,未来的工作将侧重于 将 TiG 扩展到更广泛的环境中 ,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。
另一方面,研究需要 长期记忆或跨越较长状态转移进行推理的任务 。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。
在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。
整理:小瑜
如需转载或投稿,请直接在公众号内留言
广告时间到
智谱上线 Glm Coding Plan
20 元包月 ,「1/7 价格、3 倍用量」
畅享 Claude Code 编码 体验
开发者用了都说好
欢迎体验~
一、修复bug,修改自动播放;优化产品用户体验。
二、 1.修复已知Bug。2.新服务。
三、修复已知bug;优化用户体验
四、1,交互全面优化,用户操作更加便捷高效;2,主题色更新,界面风格更加协调;3,增加卡片类个人数据
五、-千万商品随意挑选,大图展现商品细节-订单和物流查询实时同步-支持团购和名品特卖,更有手机专享等你抢-支付宝和银联多种支付方式,轻松下单,快捷支付-新浪微博,支付宝,QQ登录,不用注册也能购物-支持商品收藏,随时查询喜爱的商品和历史购物清单。
六、1.bug修复,提升用户体验;2.优化加载,体验更流程;3.提升安卓系统兼容性
七、1、修复部分机型bug;2、提高游戏流畅度;
厂商其他下载
安卓应用 安卓手游 苹果应用 苹果手游 电脑 今晚邀你一起看红月
相关版本
查看所有 0条评论>网友评论
反馈原因
其他原因