本项目的核心目标非常明确:从单目转头短视频,实现静态头部的高保真重建(基于 3DGS)。
经历了前期的摸爬滚打,我目前已经将自己拍摄的一段视频,经过预处理、相机/位姿恢复、3DGS 训练与渲染评估,形成了一条可复现、可分析的实验链路。
为了厘清接下来的破局点,我需要对截至目前的整个实验历程进行一次彻底的“全盘复盘”。
一、 实验总阶段概览
从项目启动至今,我将其划分为 5 个清晰的阶段:
- 官方 Baseline 验证: 证明 AutoDL + RTX 4090 + 官方 3DGS 仓库的底座可用。
- 第一版自有数据(A_set): 首次将自己的视频转化为图片,并强行送入链路。
- 第一版数据 Baseline 验证: 验证自有数据可以跑通,但暴露出严重的“视角分布失衡”问题。
- 重拍与第二版数据(B_set): 解决数据分布问题,构建更健康的 COLMAP 工程。
- 有效训练与诊断: 派生 GS 兼容目录,完成第二轮有效训练,并开始深度 Failure Analysis。
二、 11 次核心实验推演:我是如何一步步逼近真相的?
如果按“真正跑过的主实验链路”来细数,我一共经历了 11 次关键的迭代:
- Exp 0-2 (验证与试错): 跑通了官方 Demo,并用第一版极不均衡的自有视频(A_set)跑通了 Baseline。这让我第一次在自己的数据上看到了真实的 Failure,意识到问题大概率在数据分布而非模型本身。
- Exp 3-5 (重构数据源): 痛定思痛,重拍视频并引入时间均衡筛帧,得到最核心的源数据
B_set/images。随后成功构建原始 COLMAP 工程,得到database.db与稀疏点云。 - Exp 6-7 (撞墙与诊断): 试图直接用
B_set训练 3DGS,遭遇only undistorted datasets supported的相机模型报错。这逼迫我去诊断 COLMAP 产物,最终确认sparse/1才是真正健康的主模型(80 张图全注册,6553 个点)。 - Exp 8-9 (有效训练): 从健康的
sparse/1派生出官方 3DGS 可用的兼容目录B_set_gs_s1,并成功完成了第二轮真正有效的训练(PSNR 达到 26.3)。 - Exp 10-11 (核心危机出现): 在做渲染结果评估时,我发现了当前最致命的问题——完整脸丢失。我发现源头
B_set/images里明明有完整的脸,但在送入训练的B_set_gs_s1/images目录里,脸却被莫名其妙地裁剪或丢失了。
三、 沉淀与反思:数据血统的纯净度
经过这 11 次实验,我目前最大的收获是对“数据可信度”的重新分级:
- 绝对可信的源头:
B_set/images。 - 已被污染/不可信的环节: 从 COLMAP 生成到 GS 目录转换的中间过程,大概率截断了我的有效像素。
这意味着,我当前的有效 Run 评估的仅仅是“局部脸 / 窄视野版本”的质量,而非完整的全头重建。
科研感悟: 我现在最重要的科研认识已经不是“环境怎么配”或者“3DGS 能不能跑通”。我已经真正进入了**“实验设计与归因”**阶段。
我开始关心:哪一层是可信输入?哪个转换步骤引入了系统性破坏?哪一轮结果可以当科学证据?
接下来的破局之战,就是要把 B_set/images 当作唯一可信的输入,将后续所有的预处理与转换步骤,重新标准地走一遍。