只有登录用户才可以评论
OmniHuman,一种端到端的多模态条件人类视频生成框架。
该模型能够基于单个人像图像和运动信号(如音频、视频或两者结合)生成人类视频。
OmniHuman提出了一种多模态运动条件混合训练策略,这使得模型能够从混合条件的数据规模中受益,解决了前人端到端方法因为高质量数据稀缺而面临的困境。
实验结果显示,OmniHuman生成的视频在音频等弱信号输入下表现极为逼真。
此外,OmniHuman支持各种视觉和音频风格,能够生成任意长宽比和身体比例(包括头像、半身像、全身像)的逼真视频。
它在多种场景下实现了更真实和高质量的结果,还特别提到能够处理不同风格的人像输入(卡通、人造物体、动物等),并生成匹配各自风格特征的运动。
OmniHuman,一种端到端的多模态条件人类视频生成框架。
该模型能够基于单个人像图像和运动信号(如音频、视频或两者结合)生成人类视频。
OmniHuman提出了一种多模态运动条件混合训练策略,这使得模型能够从混合条件的数据规模中受益,解决了前人端到端方法因为高质量数据稀缺而面临的困境。
实验结果显示,OmniHuman生成的视频在音频等弱信号输入下表现极为逼真。
此外,OmniHuman支持各种视觉和音频风格,能够生成任意长宽比和身体比例(包括头像、半身像、全身像)的逼真视频。
它在多种场景下实现了更真实和高质量的结果,还特别提到能够处理不同风格的人像输入(卡通、人造物体、动物等),并生成匹配各自风格特征的运动。