VV3.5.82 安卓汉化版
VV7.0.89 安卓汉化版
VV8.8.82 安卓汉化版
VV5.9.80 安卓汉化版
VV0.4.89 安卓汉化版
VV5.9.83 安卓汉化版
VV9.2.22 安卓汉化版
VV8.0.04 安卓汉化版
VV9.5.24 安卓汉化版
VV2.3.83 安卓汉化版
VV7.2.18 安卓汉化版
VV9.0.69 安卓汉化版
VV3.5.37 安卓汉化版
VV0.5.18 安卓汉化版
VV16.3.98 安卓汉化版
VV6.3.37 安卓汉化版
VV5.8.29 安卓汉化版
VV6.6.72 安卓汉化版
VV4.9.02 安卓汉化版
VV8.5.04 安卓汉化版
VV8.7.22 安卓汉化版
VV2.4.61 安卓汉化版
VV0.5.52 安卓汉化版
VV3.9.42 安卓汉化版
VV0.6.83 安卓汉化版
VV6.3.43 安卓汉化版
VV5.8.52 安卓汉化版
VV5.6.89 安卓汉化版
VV9.0.55 安卓汉化版
VV7.6.17 安卓汉化版
VV6.9.96 安卓汉化版
VV2.2.27 安卓汉化版
VV8.2.92 安卓汉化版
VV6.3.20 安卓汉化版
VV7.2.58 安卓汉化版
VV8.2.62 安卓汉化版
VV8.5.00 安卓汉化版
VV3.8.75 安卓汉化版
VV9.5.18 安卓汉化版
VV5.8.30 安卓汉化版
VV6.2.87 安卓汉化版
VV3.9.47 安卓汉化版
VV7.1.26 安卓汉化版
分类:单机 / 冒险解谜 | 大小:8.73 MB | 授权:免费游戏 |
语言:中文 | 更新:2025/09/08 17:48:17 | 等级: |
平台:Android | 厂商: 玖辛奈叫同人扒开腿❌️ | 官网:暂无 |
权限:
查看
允许程序访问网络. |
备案:湘ICP备2023018554号-3A | |
标签: 印度做爰又粗又大视频 女厕撒尿㊙️在线播放 精品成人18㊙️国产AV |
与晋长安大结局
她一天做了我一辈子的工作
朝鲜播出金正恩出席九三阅兵纪录片
山水间的家RW季后赛再下一鸡 2025/09/08 17:48:17
2025/09/08 17:48:17
长期吃米vs长期吃面
新智元报道
编辑:KingHZ
【新智元导读】一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?
90%人都会的读钟题,顶尖AI全军覆没!
AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。
结果让人吃惊:
人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。
就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。
ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。
论文链接:https://clockbench.ai/ClockBench.pdf
虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:
训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。
时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。
也有好消息: 表现最好的模型已展现出一定的视觉推理(虽有限) 。其读时准确率与中位误差均显著优于随机水平。
接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。
ClockBench如何拷打AI?
在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。
甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。
一个典型例子是Humanity’s Last Exam):
在该基准上,OpenAI GPT-4o的得分仅2.7% ,而xAI Grok 4却提升到 25.4%;
结合工具使用等优化手段后,结果甚至能进入40–50%区间。
然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。
因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为: 对普通 人 来说很 简单 ,但对 LLM却很难 。
ClockBench正是受这种「 人类容易, AI 困难」 的思路启发而设计。
研究团队基于一个关键观察: 对推理型和非推理型模型来说,读懂模拟时钟同样很难 。
因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。
ClockBench究竟包含什么?
36个全新设计的定制表盘,每个表盘生成5个样本时钟
总计180个时钟,每个时钟设置4个问题,共720道测试题
测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比
问题分为4大类:
1. 判断时间是否有效
有一个时钟️,大模型需要判断这个时钟显示的时间是不是有效的。
如果时间是合法的,大模型需要把它分解成几个部分,并以 JSON 格式输出:
小时 (Hours)、分钟 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期几 (Day of the week)
只要表盘包含上述信息,就要求LLM一并输出。
2. 时间的加减
该任务要求LLM对给定时间进行加减,得到新时间。
3. 旋转时钟指针
这个任务是关于 操作时钟的指针 。该任务要求模型选择时/分/秒针,并按指定角度顺时针或逆时针旋转。
4. 时区转换
这个任务是关于 不同地方的时间 。比如,给定 纽约的夏令时,模型需推算不同地点的当地时间。
结果出乎意料
结果有哪些出乎意料的发现?
模型与人类不仅正确率差距巨大,错误模式也截然不同:
人类误差中位数仅3分钟,最佳模型却高达1小时
较弱模型的误差约3小时,结合12小时制表盘循环特性,相当于随机噪声
另一个有趣发现是,某些钟表特征的读取难度存在显著差异:
在读取非常见的复杂钟表及高精度要求场景时,模型表现最差
罗马数字与环形数字的朝向最难识别,其次是秒针、杂乱背景和镜像时钟
除了读时,其他问题对模型而言反而更简单:
表现最佳的模型能高精度回答时间加减、指针旋转角度或时区转换问题,部分场景准确率可达100%
在不同模型的表现对比中,总体趋势是: 规模更大的推理型模型普遍优于规模较小或非推理型模型 。
不过,也出现了一些值得注意的现象:
谷歌的Gemini 2.5系列模型 在各自类别中往往领先于其他模型;
Anthropic系列模型 则普遍落后于同类模型;
Grok 4 的表现远低于预期,与其规模和通用能力并不相称。
GPT-5排名第三,且推理预算对结果影响不大(中等与高预算得分高度接近)值得思考的是: 何种因素制约了GPT-5在此类视觉推理任务的表现?
在原始数据集中, 180个时钟里有37个属于无效(不可能存在)的时间 。无论是人类还是模型, 在识别「 无效时间 」时的成功率都更高 :
人类差异不大 :在无效时钟上的准确率为 96.2% ,而在有效时钟上为 89.1% ;
模型差异明显 :在无效时钟上的准确率平均高出 349% ,并且所有模型在这类任务中的表现都更好;
Gemini 2.5 Pro 依旧是总体最佳模型,准确率达到 40.5% ;
Grok 4 则是一个异常值:它在识别无效时钟上的准确率最高,达到 64.9% ,但问题在于,它把整个数据集里 63.3%的时钟都标记为无效 ,这意味着结果很可能是「随机撞对」。
在模型能够正确读时的钟面上,存在明显的重叠现象:
61.7% 的时钟没有被任何模型正确读出;
38.3% 的时钟至少被1个模型读对;
22.8% 的时钟至少被2个模型读对;
13.9% 的时钟至少被3个模型读对;
8.9% 的时钟至少被4个或以上的模型读对。
整体来看,分布情况和有效性数据表明:模型的正确答案集中在某一小部分时钟上,而不是均匀分布。
参考资料:
https://x.com/alek_safar/status/1964383077792141390
https://clockbench.ai/
新智元报道
编辑:KingHZ
【新智元导读】一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?
90%人都会的读钟题,顶尖AI全军覆没!
AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。
结果让人吃惊:
人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。
就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。
ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。
论文链接:https://clockbench.ai/ClockBench.pdf
虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:
训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。
时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。
也有好消息: 表现最好的模型已展现出一定的视觉推理(虽有限) 。其读时准确率与中位误差均显著优于随机水平。
接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。
ClockBench如何拷打AI?
在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。
甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。
一个典型例子是Humanity’s Last Exam):
在该基准上,OpenAI GPT-4o的得分仅2.7% ,而xAI Grok 4却提升到 25.4%;
结合工具使用等优化手段后,结果甚至能进入40–50%区间。
然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。
因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为: 对普通 人 来说很 简单 ,但对 LLM却很难 。
ClockBench正是受这种「 人类容易, AI 困难」 的思路启发而设计。
研究团队基于一个关键观察: 对推理型和非推理型模型来说,读懂模拟时钟同样很难 。
因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。
ClockBench究竟包含什么?
36个全新设计的定制表盘,每个表盘生成5个样本时钟
总计180个时钟,每个时钟设置4个问题,共720道测试题
测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比
问题分为4大类:
1. 判断时间是否有效
有一个时钟️,大模型需要判断这个时钟显示的时间是不是有效的。
如果时间是合法的,大模型需要把它分解成几个部分,并以 JSON 格式输出:
小时 (Hours)、分钟 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期几 (Day of the week)
只要表盘包含上述信息,就要求LLM一并输出。
2. 时间的加减
该任务要求LLM对给定时间进行加减,得到新时间。
3. 旋转时钟指针
这个任务是关于 操作时钟的指针 。该任务要求模型选择时/分/秒针,并按指定角度顺时针或逆时针旋转。
4. 时区转换
这个任务是关于 不同地方的时间 。比如,给定 纽约的夏令时,模型需推算不同地点的当地时间。
结果出乎意料
结果有哪些出乎意料的发现?
模型与人类不仅正确率差距巨大,错误模式也截然不同:
人类误差中位数仅3分钟,最佳模型却高达1小时
较弱模型的误差约3小时,结合12小时制表盘循环特性,相当于随机噪声
另一个有趣发现是,某些钟表特征的读取难度存在显著差异:
在读取非常见的复杂钟表及高精度要求场景时,模型表现最差
罗马数字与环形数字的朝向最难识别,其次是秒针、杂乱背景和镜像时钟
除了读时,其他问题对模型而言反而更简单:
表现最佳的模型能高精度回答时间加减、指针旋转角度或时区转换问题,部分场景准确率可达100%
在不同模型的表现对比中,总体趋势是: 规模更大的推理型模型普遍优于规模较小或非推理型模型 。
不过,也出现了一些值得注意的现象:
谷歌的Gemini 2.5系列模型 在各自类别中往往领先于其他模型;
Anthropic系列模型 则普遍落后于同类模型;
Grok 4 的表现远低于预期,与其规模和通用能力并不相称。
GPT-5排名第三,且推理预算对结果影响不大(中等与高预算得分高度接近)值得思考的是: 何种因素制约了GPT-5在此类视觉推理任务的表现?
在原始数据集中, 180个时钟里有37个属于无效(不可能存在)的时间 。无论是人类还是模型, 在识别「 无效时间 」时的成功率都更高 :
人类差异不大 :在无效时钟上的准确率为 96.2% ,而在有效时钟上为 89.1% ;
模型差异明显 :在无效时钟上的准确率平均高出 349% ,并且所有模型在这类任务中的表现都更好;
Gemini 2.5 Pro 依旧是总体最佳模型,准确率达到 40.5% ;
Grok 4 则是一个异常值:它在识别无效时钟上的准确率最高,达到 64.9% ,但问题在于,它把整个数据集里 63.3%的时钟都标记为无效 ,这意味着结果很可能是「随机撞对」。
在模型能够正确读时的钟面上,存在明显的重叠现象:
61.7% 的时钟没有被任何模型正确读出;
38.3% 的时钟至少被1个模型读对;
22.8% 的时钟至少被2个模型读对;
13.9% 的时钟至少被3个模型读对;
8.9% 的时钟至少被4个或以上的模型读对。
整体来看,分布情况和有效性数据表明:模型的正确答案集中在某一小部分时钟上,而不是均匀分布。
参考资料:
https://x.com/alek_safar/status/1964383077792141390
https://clockbench.ai/
一、修复bug,修改自动播放;优化产品用户体验。
二、 1.修复已知Bug。2.新服务。
三、修复已知bug;优化用户体验
四、1,交互全面优化,用户操作更加便捷高效;2,主题色更新,界面风格更加协调;3,增加卡片类个人数据
五、-千万商品随意挑选,大图展现商品细节-订单和物流查询实时同步-支持团购和名品特卖,更有手机专享等你抢-支付宝和银联多种支付方式,轻松下单,快捷支付-新浪微博,支付宝,QQ登录,不用注册也能购物-支持商品收藏,随时查询喜爱的商品和历史购物清单。
六、1.bug修复,提升用户体验;2.优化加载,体验更流程;3.提升安卓系统兼容性
七、1、修复部分机型bug;2、提高游戏流畅度;
厂商其他下载
安卓应用 安卓手游 苹果应用 苹果手游 电脑 代号鸢
相关版本
查看所有 0条评论>网友评论
反馈原因
其他原因