@article{huang2025voyager,
title={Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation},
author={Huang, Tianyu and Zheng, Wangguandong and Wang, Tengfei and Liu, Yuhao and Wang, Zhenwei and Wu, Junta and Jiang, Jie and Li, Hui and Lau, Rynson WH and Zuo, Wangmeng and Guo, Chunchao},
journal={arXiv preprint arXiv:2506.04225},
year={2025}
}
腾讯混元3D
混元世界-Voyager
我们正式发布混元世界模型-Voyager(HunyuanWorld-Voyager),一种创新的视频扩散框架。该模型能够基于单张输入图像生成具有世界一致性的3D点云,并支持用户按照自定义的相机路径进行沉浸式世界探索。同时,HunyuanWorld-Voyager 还能够同时生成精确对齐的深度信息与RGB视频,无需后处理即可直接用于高质量三维重建。
混元世界模型-Voyager架构
HunyuanWorld-Voyager 包含两个关键组件:
(1) 世界一致的视频扩散: 提出了一种统一的架构,能够基于现有世界观测,同时生成精确对齐的RGB视频与深度视频序列,并确保全局场景的一致性。
(2) 长距离世界探索: 提出了一种高效的世界缓存机制,该机制融合了点云剔除与自回归推理能力,可支持迭代式的场景扩展,并通过上下文感知的一致性技术实现平滑的视频采样。
为训练 HunyuanWorld-Voyager 模型,我们构建了一套可扩展的数据构建引擎——该引擎是一个自动化视频重建流水线,能够对任意输入视频自动估计相机位姿以及度量深度,从而无需依赖人工标注,即可实现大规模、多样化训练数据的构建。 基于此流水线,HunyuanWorld-Voyager 整合了真实世界采集与虚幻引擎渲染的视频资源,构建了一个包含超过10 万个视频片段的大规模数据集。
实验结果
视频生成
为评估 HunyuanWorld-Voyager 的视频生成质量,我们与四种开源的相机可控视频生成方法进行了对比分析。实验随机选取 RealEstate10K 测试集中的 150 个视频片段作为评估数据,并采用 PSNR、SSIM 和 LPIPS 指标量化生成帧与真实帧之间的感知相似性与结构一致性。
SEVA 16.648 0.613 0.349 ViewCrafter 16.512 0.636 0.332 See3D 18.189 0.694 0.290 FlexWorld 18.278 0.693 0.281 Voyager**18.7510.7150.277**
右侧表格中是相应的定量评估结果。所提出方法在所有基线模型上均表现更优,充分证明了 HunyuanWorld-Voyager 具备卓越的视频生成质量。 上图中的定性对比结果同样表明,HunyuanWorld-Voyager 能够生成高度逼真的视频序列。特别在最后一组样例中,只有 HunyuanWorld-Voyager 有效保留了输入图像中产品的细节特征。 相比之下,其他方法容易产生明显伪影。例如在第一个样例中,当相机运动幅度较大时,这些方法难以生成合理的预测结果。
RealEstate10K数据集上的定量比较。
Method
PSNR ↑
SSIM ↑
LPIPS ↓
场景生成
为评估 HunyuanWorld-Voyager 的场景生成质量,我们进一步对场景重建与生成视频的质量进行了比较。由于所对比的基线模型仅能生成 RGB 帧,我们首先使用 VGGT 估计相机参数,并基于这些方法生成的视频初始化点云 得益于能够直接生成 RGB-D 内容这一特性,我们的生成结果无需中间处理即可用于高质量 3D Gaussian Splatting(3DGS)重建。
SEVA VGGT 15.581 0.602 0.452 ViewCrafter VGGT 16.161 0.628 0.440 See3D VGGT 16.764 0.633 0.440 FlexWorld VGGT 17.623 0.659 0.425 Voyager VGGT 17.742**0.7120.404Voyager - 18.0350.7140.381**
如右侧表格所示,在使用 VGGT 进行后处理的情况下,HunyuanWorld-Voyager 的重建结果优于所有基线模型,表明我们的生成视频在几何一致性方面表现更为出色。 同时,若进一步使用生成的深度信息来初始化点云,重建效果更佳,这也进一步证明了所提出深度生成模块对于场景重建任务的有效性。 上图中的定性结果同样印证了这一结论。在最后一组样例中,HunyuanWorld-Voyager 能够较好地保留吊灯的细节特征,而其他方法难以重建出基本形状。
RealEstate10K数据集上的3DGS重建的定量比较。基线模型需要额外的重建步骤,而 HunyuanWorld-Voyager 结合深度生成表现出更佳的效果。
Method
Post Rec.
PSNR ↑
SSIM ↑
LPIPS ↓
世界生成
除了在 RealEstate10K 数据集上进行的域内性能比较之外,我们还在 WorldScore 静态基准上对 HunyuanWorld-Voyager 的世界生成能力进行了评估。HunyuanWorld-Voyager 在该基准测试中取得了最高分数。 这一结果表明,与基于3D的方法相比,我们的方法在相机运动控制和空间一致性方面表现出优异竞争力。同时,在主观质量评价中,HunyuanWorld-Voyager 同样获得最高评分,进一步验证了所生成视频具备卓越的视觉真实性。 另外,由于我们采用深度度量作为视频生成条件,因此生成的视频中相机运动幅度能够显著大于其他方法,这也对生成模型提出了更高的要求。
WorldScore基准测试上的定量比较。粗体和下划线表示第1名,粗体表示第2名,下划线表示第3名。
Method
WorldScore Average
Camera Control
Object Control
Content Alignment
3D Consistency
Photometric Consistency
Style Consistency
Subjective Quality
WonderJourney
63.75
84.6
37.1
35.54
80.6
79.03
62.82
66.56
WonderWorld
72.69
92.98
51.76
71.25
86.87
85.56
70.57
49.81
EasyAnimate
52.85
26.72
54.5
50.76
67.29
47.35
73.05
50.31
Allegro
55.31
24.84
57.47
51.48
70.5
69.89
65.6
47.41
Gen-3
60.71
29.47
62.92
50.49
68.31
87.09
62.82
63.85
CogVideoX-I2V
62.15
38.27
40.07
36.73
86.21
88.12
83.22
62.44
Voyager
77.62
85.95
66.92
68.92
81.56
85.99
84.89
71.09
BibTeX