字节出品的「图片 - 视频」AI 工具

只有登录用户才可以评论

OmniHuman，一种端到端的多模态条件人类视频生成框架。

该模型能够基于单个人像图像和运动信号（如音频、视频或两者结合）生成人类视频。

OmniHuman提出了一种多模态运动条件混合训练策略，这使得模型能够从混合条件的数据规模中受益，解决了前人端到端方法因为高质量数据稀缺而面临的困境。

实验结果显示，OmniHuman生成的视频在音频等弱信号输入下表现极为逼真。

此外，OmniHuman支持各种视觉和音频风格，能够生成任意长宽比和身体比例（包括头像、半身像、全身像）的逼真视频。

它在多种场景下实现了更真实和高质量的结果，还特别提到能够处理不同风格的人像输入（卡通、人造物体、动物等），并生成匹配各自风格特征的运动。

瓦白 2025-02-08 20:04:43