长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型

浏览数:305    发布时间:2025/09/07 01:37:45

机器之心发布

机器之心编辑部

随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。

从静态图像到动态视频:

音频驱动的 "数字复活术"

只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专业级呈现。技术团队演示中,仅凭一段音频即可让电影中的人物复活 " 为动态数字人,视频效果生动自然,肢体动作与语音节奏高度同步。

该图由 AI 生成

核心突破:攻克长视频两大技术难关

InfinityHuman 的关键优势在于创造性解决了长期动画中的两大核心难题:

商用场景全面落地,推动数字人技术实用化

从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用:

尤其值得关注的是,该模型对中文语音的支持效果尤为出色,在分钟级长视频中仍能保持身份稳定与手部动作自然,充分满足中文内容创作需求。

技术细节与更多展示

如需了解更多技术细节和效果演示,可访问:

方法概述

如图所示,InfinityHuman 是一个统一框架,旨在通过单张参考图像、音频和可选文本提示生成长时间、全身的高分辨率说话视频,确保视觉一致性、精准唇同步和自然手部动作。该框架采用 “由粗到细” 策略:先通过低分辨率音视频生成模块得到含粗略动作的低分辨率视频,再由姿态引导细化模块结合低分辨率视频和参考图像生成高分辨率视频,同时引入手部校正策略提升手部动作的真实感与结构完整性。

低分辨率音视频生成模块基于 Flow Matching 和 DIT,融合参考图像、文本、音频等多模态信息,通过多模态条件注意力机制增强音频与视觉的对齐;姿态引导细化模块利用参考图像作为身份先验,结合低分辨率视频及其姿态序列,通过前缀潜变量参考策略和姿态引导确保长时生成中的时序连贯性与外观一致性;手部特定奖励反馈学习则针对手部易出现的畸变问题,利用预训练奖励模型进行偏好微调,提升手部结构的合理性与真实感。

实验结果

实验结果表明,InfinityHuman 在音频驱动全身说话视频生成任务中表现优异。在 EMTD 和 HDTF 数据集上的评估显示,该方法在视觉真实感(FID)和时序连贯性(FVD)指标上均优于 FantasyTalking、Hallo3 等主流基线方法,生成视频的整体质量显著提升。身份一致性方面,通过姿态引导细化模块有效维持了与参考图像的相似度,解决了长时生成中的外观漂移问题。针对手部生成这一难点,手部特定奖励反馈学习显著提升了手部关键点的准确性,减少了手指畸变、关节异常等常见问题,尤其在复杂手势场景中表现稳定。

消融实验进一步验证了核心模块的有效性:移除姿态引导细化模块会导致视觉质量下降、身份一致性减弱,视觉细节模糊且时序连贯性降低;取消手部奖励机制则使手部关键点精度下降,手部失真现象明显增多。

综合定量指标和定性分析,InfinityHuman 在高分辨率、长时长视频生成任务中实现了真实感、一致性与动作自然度的全面提升。

字节跳动 VIVID Avatar 团队:深耕音视频数字人技术,推动AI生成走向实用化

作为字节跳动旗下专注于音视频数字人生成的研发力量,商业化 GenAI 的 VIVID(Voice Integrated Video Immersive Digital)Avatar 团队始终站在技术前沿,致力于突破音频与视觉融合的技术边界。团队以 “让数字人更鲜活、更实用” 为目标,在语音合成与视频生成两大方向持续深耕,形成了从基础研究到商业化落地的完整技术链路。

语音合成方向,团队推出 MegaTTS3、Make-An-Audio 2 等模型,视频生成领域,从长视频模型 HumanDiT、NeurIPS 2024 收录的 MimicTalk 个性化 3D 建模,到 ICLR 2024 Spotlight 成果 Real3D-Portrait 单样本 3D 合成,再到 DiTalker 等音频驱动方案,构建了覆盖长视频、3D 肖像、实时驱动的完整技术矩阵。目前,团队已通过 GitHub 开源平台(https://github.com/VIVID-Avatar/)分享多项核心技术,并将最新研发的长时序音频驱动视频生成模型 InfinityHuman 部署至商业化即创平台,让前沿技术从实验室快速走向产业应用,为内容创作、教育培训、电商直播等领域提供低成本、高质量的数字人解决方案。

文中视频链接:https://mp.weixin.qq.com/s/reH9XXQokvCosbqaEOJHFQ

冲破禁锢,在孤独中寻找意义,于虚无里捕捉真实!_【2025/09/07 01:37:45】【bilibili】【哔哩哔哩】 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型

/search-15515906-lzkhtml

「活动」kumadaibiaotitest

9.88MB
版本V3.32.556
下载饮渴人妻电车❌乂Ⅹ乂安装你想要的应用 更方便 更快捷 发现更多
喜欢 46%好评(86378人)
评论 67
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型截图0 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型截图1 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型截图2 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型截图3 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型截图4
详细信息
  • 软件大小  90434.74978MB
  • 最后更新  2025/09/07 01:37:45
  • 最新版本  V2.98754.3
  • 文件格式  apk
  • 应用分类 ios-Android 免费观看已满十八岁动漫电视剧
  • 使用语言  中文
  •   需要联网
  • 系统要求  2.25965以上
应用介绍
国产无套✅尤物少妇一二三区A片
动漫裸体❌到爽视频免费
甘雨❌❌爆乳❌❌3d扶她
精品视频🈲在线观看
动漫❌裸体❌女同❌2D
性裸交❌❌❌❌❌性裸内客
40岁丰满妇女毛茸茸
自慰看的高黄啪啪💥

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V5.1.85
十八🈲APP

长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • 免费涩涩18🈲️网站入口女同 6天前
    ⭐⭐浪潮AV无码专区免费
  • 18-20同性Gay❌❌❌做受 0天前
    女人👙摸🐻亲嘴动漫
  • 朝鲜老妇善交BBw 4天前
    丝袜美女强迫裸体被❌出水妖精
  • 羞羞漫画❌破解版 6天前
    用力挤压夹男人的🍌动漫
  • 动漫美女被❌脱脱内内视频 8天前
    www91日本私㊙️奶头大屁股
  • 动漫男女✅免费视频 7天前
    国产老女人乱婬免费
  • 动漫护士被❌到爽视频 9天前
    公牛黄色在线网站
  • 国产精品㊙️入口9UU 3天前
    捆绑裸体美女网站㊙️
  • 腹肌男自慰GaY☑️免费中国 6天前
    免费➕无码➕国产29在线
  • 女仆白丝jk❌❌❌❌ 7天前
    91看片成人软件