VV4.8.70 安卓汉化版
VV7.2.69 安卓汉化版
VV1.4.65 安卓汉化版
VV9.7.08 安卓汉化版
VV0.8.58 安卓汉化版
VV8.5.65 安卓汉化版
VV3.1.64 安卓汉化版
VV8.5.92 安卓汉化版
VV5.7.49 安卓汉化版
VV9.4.56 安卓汉化版
VV1.6.87 安卓汉化版
VV2.4.88 安卓汉化版
VV9.7.63 安卓汉化版
VV8.8.86 安卓汉化版
VV16.7.37 安卓汉化版
VV8.5.78 安卓汉化版
VV3.2.22 安卓汉化版
VV5.0.63 安卓汉化版
VV0.2.38 安卓汉化版
VV7.5.00 安卓汉化版
VV9.4.12 安卓汉化版
VV7.3.20 安卓汉化版
VV6.9.17 安卓汉化版
VV3.9.03 安卓汉化版
VV2.0.73 安卓汉化版
VV2.4.32 安卓汉化版
VV9.5.76 安卓汉化版
VV1.3.94 安卓汉化版
VV0.6.61 安卓汉化版
VV0.6.19 安卓汉化版
VV9.3.69 安卓汉化版
VV4.5.33 安卓汉化版
VV3.4.57 安卓汉化版
VV0.4.00 安卓汉化版
VV8.5.19 安卓汉化版
VV5.3.16 安卓汉化版
VV2.7.82 安卓汉化版
VV7.3.42 安卓汉化版
VV8.7.70 安卓汉化版
VV8.3.25 安卓汉化版
VV1.9.64 安卓汉化版
VV3.9.40 安卓汉化版
VV4.6.38 安卓汉化版
分类:单机 / 冒险解谜 | 大小:0.89 MB | 授权:免费游戏 |
语言:中文 | 更新:2025/09/08 02:01:47 | 等级: |
平台:Android | 厂商: 扒掉乳罩㊙️露出100%奶头,视频 | 官网:暂无 |
权限:
查看
允许程序访问网络. |
备案:湘ICP备2023018554号-3A | |
标签: 91在线无码精品㊙️国产阿朱-百度 羞羞漫画❌喷水漫画yy漫画 偷拍自慰⭕⭕⭕⭕XX高清 |
女子地铁拒安检多次追打工作人员
还没到春晚马丽又演上小品了
还没到春晚马丽又演上小品了
许凯梅逐雨就此别过韩国对中国团体游客免签政策细则 2025/09/08 02:01:47
2025/09/08 02:01:47
咸鱼飞升
AI自己玩手机、玩电脑、操作网页浏览器……背后还只靠一个模型。
卷王 字节Seed 又把智能体带到了一个全新level~
比如任务是酱紫的:
而通过一系列操作,Agent仅用时35s就得出了答案为4000克。
这就是Seed最新发布的智能体 UI-TARS-2 ,它不止采用了All in one这样的原生设计,而且表现更是优于Claude和OpenAI Agent等竞争对手。
来看团队成员晒出的成绩单,不管是操作电脑/手机,还是使用浏览器、玩15款小游戏,其丝滑程度和完成率现在已经超越一众竞争对手,并进一步接近人类水平。
而且这里还透露了UI-TARS-2背后的关键秘诀:
划重点, 多轮强化学习 。依靠这一技巧,UI-TARS-2核心解决了“让AI自主操作图形界面(GUI)”的四大难题:
且看字节团队如何见招拆招——
针对四大难题打出“组合拳”
先来看UI-TARS-2的整体设计思路和框架。
其核心目标为: 构建一个真正原生、通用、跨平台的GUI智能体,能在电脑、手机、网页、终端,甚至游戏里自主完成复杂任务。
为此,UI-TARS-2架构主要包含下面这几个部分:
1、统一的Agent架构 :以大语言模型为核心决策器(Planner),将自然语言指令→GUI/终端/工具操作,全部纳入一个通用执行循环,同时支持GUI点击、键盘输入、终端命令、API调用等多种操作流。
2、多模态感知与环境交互 :输入端整合屏幕截图(视觉)+文本上下文+历史操作轨迹,输出端可以是点击坐标、拖拽动作、命令行、甚至API请求,形成感知—决策—执行—反馈的完整闭环。
3、多轮强化学习 :不依赖人工标注,而是通过环境反馈奖励优化策略,同时采用模拟环境(sandbox)+自动化任务生成,构建出“数据飞轮”,让模型能不断自我进化。
4、混合操作流(Hybrid Flows) :在一次任务轨迹中,智能体可以无缝组合GUI点击、终端命令和API调用。例如,在网页上找资料(GUI),处理数据(终端),再调用搜索API(工具)。
下面这个让UI-TARS-2玩游戏的例子,很好地展示了这套框架的具体运作过程:
而基于这套框架,UI-TARS-2逐一解决了智能体自主操作GUI面临的四大难题。
靠“数据飞轮”解决数据少的问题
为了打造数据飞轮,团队采用了以下策略:
1)冷启动 :这一阶段主要是广泛收集原始数据,以及通过合成数据和人工标注来构建监督微调所需的原始高质量、任务针对性强的数据。
2)多轮迭代 :有了数据之后,先让模型通过预训练学习更广泛的知识 (如不同GUI操作流程、任务解决思路等) ,再使用高质量特定任务数据对模型进行优化,最后通过强化学习进行端到端优化。
在每轮迭代中,团队会使用拒绝采样(RFT)或交互标注生成新轨迹,这些轨迹记录了模型在执行任务过程中的推理、动作、环境状态以及反馈等信息,将其按质量筛选后,高质量的进微调数据集,低质量的进预训练数据集。
3)循环增强 :然后模型用更新后的数据集重新训练,能力提升后又能生成更好的轨迹,形成 “模型变好→数据变好→模型更好”的循环 ,不断解决数据稀缺问题。
用“多轮强化学习”让AI操作更稳
针对传统强化学习在GUI 长周期任务中 “奖励稀疏、优化不稳定、信用分配难” 的问题,团队从任务设计、奖励机制、训练流程三方面进行了优化。
如何进行任务奖励设计?团队先对任务类型进行拆分:
对可验证任务 (如游戏得分、网页信息检索) ,用明确信号 (成功/失败、LLM对比答案打分) 当奖励;
对模糊任务 (如复杂GUI操作),训练UI-TARS-2自身作为“奖励模型”,根据轨迹和截图输出任务成功分数,保证奖励可靠。
确定了这一模式后,团队摒弃“等所有任务完成再训练”的模式,转而采用 “异步rollout” ——
把模型推理环节单独拿出来,和实际执行过程分离,互不干扰;同时只要凑够最少需要的轨迹数量,就立刻用这些完成的轨迹开始训练,那些未完成的就留到下一轮。
等到训练时,团队还在PPO算法上进行了3处优化,从而让模型操作更稳,包括用“解耦GAE”避免长序列价值估计偏差、用“不对称裁剪”鼓励模型尝试那些看似不常用、但可能有效的操作等。
打造“混合操作环境”突破界面限制
为解决纯GUI操作(仅鼠标/键盘)无法应对数据处理、软件开发等复杂工作流的问题,团队构建了 “GUI+多工具” 融合的交互环境:
不仅整合多操作流 ,比如在同一环境里,智能体既能做GUI基础操作 (点击、输入、滚动网页/APP) ,又能直接调用终端命令 (如用Bash处理文件) 、调用API,无需切换上下文。
还为其适配多场景载体 ,比如在云虚拟机里,内置文件系统、远程VS Code、Jupyter等工具;在浏览器沙箱里,也能关联终端功能,让操作覆盖“桌面-移动-游戏” 全场景。
建“统一沙盒平台”支撑大规模训练
针对传统环境“难复现、易崩溃、吞吐量低”的工程瓶颈,团队打造了 兼容多载体的统一沙盒 ,保障百万级交互训练需求。
简单来说,这就是一个虚拟的模型训练场,支持智能体在里面大规模练习、试错和进化。
以下为一个浏览器沙盒的示意图,据此也能看到沙盒的大致运作方式:
优于Claude和OpenAI Agent等竞争对手
那么,UI-TARS-2的实际表现如何呢?
根据介绍,UI-TARS-2是团队基于 Seed-thinking-1.6 (总参数230B,含532M视觉编码器 + 23B激活参数) ,经过多轮迭代训练而成。
在多个权威GUI测试里,比如OSWorld (369个Windows/Ubuntu/macOS任务) 、WindowsAgentArena (150个 Windows任务) 、TerminalBench (命令行任务) 等,它的得分都比Claude、OpenAI的同类模型更高。
换句话说,在电脑、手机、浏览器操作上,UI-TARS-2的表现明显更好。
而且在15款小游戏 (比如2048、拼图、迷宫) 里,它的平均得分差不多是人类水平的60%,比OpenAI、Claude的游戏AI强不少,有的游戏 (如“Shapes”) 甚至比人玩得还好。
即使面对一些更复杂的游戏测试 (LMGame-Bench) ,它也能和o3打得有来有回。
当然了,它不光会点界面、玩游戏,还能干“查资料”、“写代码修bug” 这样的活儿,而且成绩比只靠界面操作强很多。
总之,UI-TARS-2无疑验证了多轮强化学习在智能体进化上的有效性。
论文: https://arxiv.org/abs/2509.02544 demo: https://seed-tars.com/showcase/ui-tars-2/
AI自己玩手机、玩电脑、操作网页浏览器……背后还只靠一个模型。
卷王 字节Seed 又把智能体带到了一个全新level~
比如任务是酱紫的:
而通过一系列操作,Agent仅用时35s就得出了答案为4000克。
这就是Seed最新发布的智能体 UI-TARS-2 ,它不止采用了All in one这样的原生设计,而且表现更是优于Claude和OpenAI Agent等竞争对手。
来看团队成员晒出的成绩单,不管是操作电脑/手机,还是使用浏览器、玩15款小游戏,其丝滑程度和完成率现在已经超越一众竞争对手,并进一步接近人类水平。
而且这里还透露了UI-TARS-2背后的关键秘诀:
划重点, 多轮强化学习 。依靠这一技巧,UI-TARS-2核心解决了“让AI自主操作图形界面(GUI)”的四大难题:
且看字节团队如何见招拆招——
针对四大难题打出“组合拳”
先来看UI-TARS-2的整体设计思路和框架。
其核心目标为: 构建一个真正原生、通用、跨平台的GUI智能体,能在电脑、手机、网页、终端,甚至游戏里自主完成复杂任务。
为此,UI-TARS-2架构主要包含下面这几个部分:
1、统一的Agent架构 :以大语言模型为核心决策器(Planner),将自然语言指令→GUI/终端/工具操作,全部纳入一个通用执行循环,同时支持GUI点击、键盘输入、终端命令、API调用等多种操作流。
2、多模态感知与环境交互 :输入端整合屏幕截图(视觉)+文本上下文+历史操作轨迹,输出端可以是点击坐标、拖拽动作、命令行、甚至API请求,形成感知—决策—执行—反馈的完整闭环。
3、多轮强化学习 :不依赖人工标注,而是通过环境反馈奖励优化策略,同时采用模拟环境(sandbox)+自动化任务生成,构建出“数据飞轮”,让模型能不断自我进化。
4、混合操作流(Hybrid Flows) :在一次任务轨迹中,智能体可以无缝组合GUI点击、终端命令和API调用。例如,在网页上找资料(GUI),处理数据(终端),再调用搜索API(工具)。
下面这个让UI-TARS-2玩游戏的例子,很好地展示了这套框架的具体运作过程:
而基于这套框架,UI-TARS-2逐一解决了智能体自主操作GUI面临的四大难题。
靠“数据飞轮”解决数据少的问题
为了打造数据飞轮,团队采用了以下策略:
1)冷启动 :这一阶段主要是广泛收集原始数据,以及通过合成数据和人工标注来构建监督微调所需的原始高质量、任务针对性强的数据。
2)多轮迭代 :有了数据之后,先让模型通过预训练学习更广泛的知识 (如不同GUI操作流程、任务解决思路等) ,再使用高质量特定任务数据对模型进行优化,最后通过强化学习进行端到端优化。
在每轮迭代中,团队会使用拒绝采样(RFT)或交互标注生成新轨迹,这些轨迹记录了模型在执行任务过程中的推理、动作、环境状态以及反馈等信息,将其按质量筛选后,高质量的进微调数据集,低质量的进预训练数据集。
3)循环增强 :然后模型用更新后的数据集重新训练,能力提升后又能生成更好的轨迹,形成 “模型变好→数据变好→模型更好”的循环 ,不断解决数据稀缺问题。
用“多轮强化学习”让AI操作更稳
针对传统强化学习在GUI 长周期任务中 “奖励稀疏、优化不稳定、信用分配难” 的问题,团队从任务设计、奖励机制、训练流程三方面进行了优化。
如何进行任务奖励设计?团队先对任务类型进行拆分:
对可验证任务 (如游戏得分、网页信息检索) ,用明确信号 (成功/失败、LLM对比答案打分) 当奖励;
对模糊任务 (如复杂GUI操作),训练UI-TARS-2自身作为“奖励模型”,根据轨迹和截图输出任务成功分数,保证奖励可靠。
确定了这一模式后,团队摒弃“等所有任务完成再训练”的模式,转而采用 “异步rollout” ——
把模型推理环节单独拿出来,和实际执行过程分离,互不干扰;同时只要凑够最少需要的轨迹数量,就立刻用这些完成的轨迹开始训练,那些未完成的就留到下一轮。
等到训练时,团队还在PPO算法上进行了3处优化,从而让模型操作更稳,包括用“解耦GAE”避免长序列价值估计偏差、用“不对称裁剪”鼓励模型尝试那些看似不常用、但可能有效的操作等。
打造“混合操作环境”突破界面限制
为解决纯GUI操作(仅鼠标/键盘)无法应对数据处理、软件开发等复杂工作流的问题,团队构建了 “GUI+多工具” 融合的交互环境:
不仅整合多操作流 ,比如在同一环境里,智能体既能做GUI基础操作 (点击、输入、滚动网页/APP) ,又能直接调用终端命令 (如用Bash处理文件) 、调用API,无需切换上下文。
还为其适配多场景载体 ,比如在云虚拟机里,内置文件系统、远程VS Code、Jupyter等工具;在浏览器沙箱里,也能关联终端功能,让操作覆盖“桌面-移动-游戏” 全场景。
建“统一沙盒平台”支撑大规模训练
针对传统环境“难复现、易崩溃、吞吐量低”的工程瓶颈,团队打造了 兼容多载体的统一沙盒 ,保障百万级交互训练需求。
简单来说,这就是一个虚拟的模型训练场,支持智能体在里面大规模练习、试错和进化。
以下为一个浏览器沙盒的示意图,据此也能看到沙盒的大致运作方式:
优于Claude和OpenAI Agent等竞争对手
那么,UI-TARS-2的实际表现如何呢?
根据介绍,UI-TARS-2是团队基于 Seed-thinking-1.6 (总参数230B,含532M视觉编码器 + 23B激活参数) ,经过多轮迭代训练而成。
在多个权威GUI测试里,比如OSWorld (369个Windows/Ubuntu/macOS任务) 、WindowsAgentArena (150个 Windows任务) 、TerminalBench (命令行任务) 等,它的得分都比Claude、OpenAI的同类模型更高。
换句话说,在电脑、手机、浏览器操作上,UI-TARS-2的表现明显更好。
而且在15款小游戏 (比如2048、拼图、迷宫) 里,它的平均得分差不多是人类水平的60%,比OpenAI、Claude的游戏AI强不少,有的游戏 (如“Shapes”) 甚至比人玩得还好。
即使面对一些更复杂的游戏测试 (LMGame-Bench) ,它也能和o3打得有来有回。
当然了,它不光会点界面、玩游戏,还能干“查资料”、“写代码修bug” 这样的活儿,而且成绩比只靠界面操作强很多。
总之,UI-TARS-2无疑验证了多轮强化学习在智能体进化上的有效性。
论文: https://arxiv.org/abs/2509.02544 demo: https://seed-tars.com/showcase/ui-tars-2/
一、修复bug,修改自动播放;优化产品用户体验。
二、 1.修复已知Bug。2.新服务。
三、修复已知bug;优化用户体验
四、1,交互全面优化,用户操作更加便捷高效;2,主题色更新,界面风格更加协调;3,增加卡片类个人数据
五、-千万商品随意挑选,大图展现商品细节-订单和物流查询实时同步-支持团购和名品特卖,更有手机专享等你抢-支付宝和银联多种支付方式,轻松下单,快捷支付-新浪微博,支付宝,QQ登录,不用注册也能购物-支持商品收藏,随时查询喜爱的商品和历史购物清单。
六、1.bug修复,提升用户体验;2.优化加载,体验更流程;3.提升安卓系统兼容性
七、1、修复部分机型bug;2、提高游戏流畅度;
厂商其他下载
安卓应用 安卓手游 苹果应用 苹果手游 电脑 王鹤润变化
相关版本
查看所有 0条评论>网友评论
反馈原因
其他原因