图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改

浏览数:183    发布时间:2025/09/07 02:16:26

AI图像编辑技术发展迅猛,扩散模型凭借强大的生成能力,成为行业主流。

但这类模型在实际应用中始终面临两大难题:一是“牵一发而动全身”,即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓慢,难以满足实时交互的需求。

针对这些痛点,智象未来(HiDream.ai)团队开辟了新路径:提出全新的自回归图像编辑框架 VAREdit 。

它引入了视觉自回归(VAR)架构,能够在遵循指令的前提下做到“指哪打哪”,大幅提升编辑精准度与生成速度,推动图像编辑进入新的阶段。

模型与代码均已开源,具体链接可见文末。

全新自回归图像编辑框架VAREdit

智象未来提出的VAREdit将视觉自回归建模引入指令引导的图像编辑中,将图像编辑定义为下一尺度预测问题,通过自回归地生成下一尺度目标特征残差,以实现精确的图像编辑。

多尺度量化编码

:将图像表征

编码为多尺度残差视觉令牌序列R₁,R₂,…,Rₖ,其中Rₖ的空间规模(hₖ,wₖ)随着k的增大而依次递增;融合前k个尺度残差信息的连续累积特征可通过码本查询和上采样操作进行加和,表示为

视觉自回归预测

:基于源图像和文本指令条件,使用VAR Transformer主干网络对目标图像的多尺度残差视觉令牌序列进行预测,其概率函数为

。其中,主干网络预测

对应输入的视觉连续特征为经空间规模下采样对齐的融合特征

设计VAREdit的一个核心挑战是如何将源图像信息引入主干网络中,作为目标尺度生成的参考信息。

智象未来团队首先探索了两种组织方案:

全尺度条件

:将源图像的所有尺度融合特征

作为主干网络输入连续特征前缀。

该方法虽能提供逐尺度参考,但会使序列长度加倍,计算开销急剧增加,不适合高分辨率编辑;同时,多尺度特征可能带来冗余或冲突,反而影响编辑质量。

最大尺度条件

:将源图像的最大尺度融合特征

作为主干网络输入连续特征前缀。

该策略虽能缩短序列缓解计算压力,但会造成尺度不匹配;仅依赖最细粒度参考时,模型在预测粗粒度残差时往往难以适应,在预测粗粒度目标尺度残差的情形下尤其。

尺度对齐参考模块

对全尺度条件模型的自注意力分析发现:

在首层,注意力分布范围广,主要集中于较粗尺度特征,用于建立整体布局和长程依赖;

而在更深层,注意力逐渐局部化,呈现明显的对角结构,说明其功能已转向空间邻域的细化与局部优化。

上述探索促使智象未来提出一种混合方案——尺度对齐参考(SAR)模块:在第一层提供多尺度对齐参考,后续层仅关注最细尺度特征。

具体做法是在最大尺度条件模型中,将第一个自注意力层中的源图像条件输入进行各尺度匹配的下采样操作,得到对应尺度的参考特征

随后,在计算第k个目标尺度对应的自注意力表示时,由

替代

参与Key和Value的计算即可。

通过上述SAR模块优化,使得VAREdit能够更好地捕捉源图像与目标图像之间的多尺度依赖关系,同时实现最大尺度条件模型的生成效率。

基准测试表现出色

在业内权威的EMU-Edit和PIE-Bench基准测试中,VAREdit在CLIP与更能衡量编辑精准度的GPT指标上均表现突出。

其中,VAREdit-8.4B在GPT-Balance指标上相较于ICEdit和UltraEdit分别提升41.5%与30.8%,而轻量级的VAREdit-2.2B也取得了显著提升。

在速度上,VAREdit同样优势明显。

基于下一尺度预测机制,8.4B模型可在1.2秒内完成一张512×512图像的编辑,较同类扩散模型快2.2倍;2.2B模型则仅需0.7秒,在保持高质量的同时实现了即时编辑体验。

此外,VAREdit适用范围广,在大多数编辑类型上均取得最佳效果。虽然小模型在全局样式和文本编辑方面略有不足,但大模型有效弥补了差距。

视觉对比显示,VAREdit编辑自然、保真度高,过度修改更少。

值得一提的是,引入SAR模块后,模型在精准性指标上进一步提升,凸显其优化价值。

总的来说,VAREdit将下一尺度预测范式引入指令引导图像编辑框架,基于文本指令和量化源图像特征预测目标图像多尺度视觉残差。通过分析不同条件组织形式并引入新颖SAR模块,实现了图像编辑在精准性与效率上的提升。

智象未来团队表示,未来将继续探索新一代多模态图像编辑架构,推动指令引导图像生成技术向更高质量、更快速度、更强可控性发展。

GitHub: https://github.com/HiDream-ai/VAREdit 在线使用: https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024 论文链接:https://arxiv.org/pdf/2508.15772

无法言说,繁华背后,藏着无人敢触的真实!_【2025/09/07 02:16:26】【bilibili】【哔哩哔哩】 图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改

/search-49264200-lzkhtml

「活动」kumadaibiaotitest

9.52MB
版本V4.51.032
下载美杜莎被❌吸乳在线观看安装你想要的应用 更方便 更快捷 发现更多
喜欢 00%好评(83715人)
评论 82
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改截图0 图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改截图1 图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改截图2 图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改截图3 图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改截图4
详细信息
  • 软件大小  26165.64903MB
  • 最后更新  2025/09/07 02:16:26
  • 最新版本  V7.31732.8
  • 文件格式  apk
  • 应用分类 ios-Android 小心🐤在女人里动漫网站
  • 使用语言  中文
  •   需要联网
  • 系统要求  3.48073以上
应用介绍
女人自慰㊙️免费网站成人网站❌不用下载免费观看
火影忍者雏田被强❌
扒开雏田❌狂揉❌难受3d真人
桑切斯裸体大尺度在线观看
tubi68HDXXXXX女同
91丨推特丨白浆㊙️
同性Gay❌❌❌免费网站
黑人❌❌❌大叼

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V2.6.81
人➕国产高清➕亚洲综合

图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 女同❌🔞得到❌做 1天前
    中日韩特黄A片免费视频
  • 专干老肥女人88AV 9天前
    成人漫画App导航㊙️ios
  • 国产熟妇🈚️码AV 7天前
    看黄免费高清视频无风险
  • 动漫做❌打扑克视频 9天前
    在线无码精品㊙️入口麻
  • 老熟女性交 8天前
    18🈲成人免费观看网站小红书
  • 香菱被啪❌动漫网站 6天前
    18🈲️网站
  • 911在线无码精品㊙️鸭子TV 1天前
    貂蝉被❌羞羞视频
  • 高潮➕国产➕嫩模 7天前
    国产91在线❤久诚
  • 少萝被爆❌自慰流水T 3天前
    女同学被❌到爽🔞流片p图小说
  • 欧美美女破处 5天前
    free私毛艳照欣赏pics