[논문리뷰] VGGT: Visual Geometry Grounded Transformer (CVPR 2025 Best Paper)

논문: VGGT: Visual Geometry Grounded Transformer
학회: CVPR 2025 (Best Paper Award)
저자: Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny
소속: Visual Geometry Group (VGG), University of Oxford + Meta AI
arXiv: 2503.11651
GitHub: facebookresearch/vggt

한 줄 요약

이미지 N장을 한 번의 forward pass로 넣으면, 카메라 파라미터 + 깊이 맵 + 포인트 클라우드 + 3D 트래킹을 0.2초 안에 동시에 뽑아주는 1.2B짜리 Transformer.

1. 배경과 문제 정의

3D 재건(reconstruction)의 전통적인 파이프라인은 SfM(Structure from Motion) → MVS(Multi-View Stereo) → Bundle Adjustment로 이어지는 구조입니다. 각 단계가 분리되어 있고, 반복 최적화(iterative optimization)가 필요해 장면 하나에 수십 초에서 수 분이 걸립니다.

최근 학습 기반 방법인 DUSt3R와 MASt3R가 이 흐름을 바꾸려 했습니다. 두 이미지를 쌍(pairwise)으로 처리해 3D 포인트 맵을 바로 예측하는 방식입니다. 하지만 여전히 한계가 있습니다:

쌍(pair) 단위 처리: 두 이미지씩만 처리하고, 전체 장면은 쌍별 결과를 나중에 합친다.
전역 정렬 필요: 쌍별 포인트 맵을 하나의 좌표계로 통합하는 최적화 단계가 필수.
느린 속도: 장면당 7~9초 소요.

VGGT의 질문은 단순합니다: “이 모든 걸 한 번에 할 수는 없을까?”

2. 핵심 아이디어

VGGT의 핵심 주장은 하나입니다.

충분히 다양한 3D 데이터로 학습한 큰 Transformer는, 3D 특화 귀납 편향(geometric inductive bias)이나 후처리 없이도 3D 비전의 모든 작업을 동시에 풀 수 있다.

NLP와 2D 비전에서 검증된 파운데이션 모델 철학을 3D 재건에 그대로 적용했습니다. 설계 원칙은 세 가지입니다:

모든 입력 이미지를 동시에 처리한다 (sequential/pairwise 없음).
단일 forward pass — 반복 최적화 없음.
멀티태스크 출력 — 카메라 포즈, 깊이, 포인트 맵, 트래킹을 한 번에.

3. 아키텍처

전체 파이프라인

N개의 입력 이미지
    → DINOv2 패치 토크나이저 → 이미지 토큰 (이미지당 K개)
    → 카메라 토큰 (이미지당 1개) + 레지스터 토큰 (이미지당 4개) 추가
    → Alternating-Attention Transformer (24 레이어, dim=1024, 16 heads)
    ├─→ Camera Head   → 카메라 내/외부 파라미터
    ├─→ DPT Head      → 깊이 맵, 포인트 맵, 불확실성 맵
    └─→ Tracking Head → 프레임 간 2D 포인트 대응

vggt-fig2

Figure 2: VGGT 전체 아키텍처 개요. 입력 이미지들은 DINOv2 패치 토크나이저로 이미지 토큰으로 변환되고, 카메라 토큰·레지스터 토큰과 합쳐져 Alternating-Attention Transformer에 입력된다. Camera Head, DPT Head, Tracking Head 세 개의 헤드가 각기 다른 출력을 예측한다.

Alternating-Attention (핵심 설계)

24개의 Transformer 레이어가 두 종류의 어텐션을 번갈아 수행합니다:

짝수 레이어 → Frame-wise Self-Attention: 같은 이미지 내 토큰끼리만 어텐션. 각 프레임의 공간적 맥락 보존.
홀수 레이어 → Global Self-Attention: 모든 프레임의 모든 토큰이 서로 어텐션. 멀티뷰 대응 및 3D 추론 수행.

Cross-attention은 사용하지 않습니다. 아래 어블레이션 결과가 이 설계 선택을 뒷받침합니다 (ETH3D Overall, 낮을수록 좋음):

vggt-tab9

Table 9: 어텐션 메커니즘 어블레이션. Alternating-attention이 Cross-attention(1.061)과 Global self-attention only(0.827)를 모두 능가하며 0.709를 달성한다.

Camera Head

카메라 토큰만 추가 self-attention 4레이어 통과 후 선형 투영으로 9차원 벡터 예측:

쿼터니언 회전 (4D) + 이동 (3D) + 시야각 FoV (2D)

첫 번째 이미지의 카메라는 항상 identity(월드 좌표계 기준점)로 고정.

DPT Head

DPT(Dense Prediction Transformer) 업샘플링으로 이미지 토큰을 다시 dense map으로 복원:

깊이 맵 \(D_i \in \mathbb{R}^{H \times W}\)
포인트 맵 \(P_i \in \mathbb{R}^{3 \times H \times W}\) (픽셀당 월드 좌표)
트래킹 피처 맵 \(T_i \in \mathbb{R}^{C \times H \times W}\)
불확실성 맵 (aleatoric uncertainty)

Tracking Head

CoTracker2 아키텍처를 차용. 기준 프레임의 쿼리 포인트 하나를 받아, 트래킹 피처 맵을 통해 다른 모든 프레임에서의 2D 대응점을 예측합니다. 프레임 순서를 가정하지 않습니다.

4. 학습

손실 함수

\[\mathcal{L} = \mathcal{L}_{\text{camera}} + \mathcal{L}_{\text{depth}} + \mathcal{L}_{\text{pmap}} + 0.05 \times \mathcal{L}_{\text{track}}\]

\(\mathcal{L}_{\text{camera}}\): 쿼터니언, 이동, FoV에 대한 Huber loss
\(\mathcal{L}_{\text{depth}}, \mathcal{L}_{\text{pmap}}\): 불확실성 가중 L1 + 그래디언트 스무스니스 − α·log(uncertainty)
\(\mathcal{L}_{\text{track}}\): 2D 대응 위치에 대한 L2 + 가시성 BCE

학습 데이터 (~17개 데이터셋)

카테고리	데이터셋
오브젝트 중심	Co3Dv2, BlendMVS, DL3DV, 합성 에셋
실외 장면	MegaDepth, WildRGB, Mapillary
실내	ScanNet, HyperSim, Replica, Habitat
합성	Kubric, Virtual KITTI, Aria Synthetic Environments, MVS-Synth
비디오 트래킹	PointOdyssey

학습 설정

AdamW, LR 0.0002, cosine schedule, 8K warmup
총 160K 이터레이션, 64×A100, 9일 소요
bfloat16 + gradient checkpointing

5. 실험 결과

카메라 포즈 추정 (AUC@30, 높을수록 좋음)

vggt-tab1

Table 1: 멀티뷰 카메라 포즈 추정 결과 (RealEstate10K, CO3Dv2). VGGT feed-forward는 기존 최고 성능인 VGGSfM v2(78.9)를 RealEstate10K 기준 85.3으로 크게 상회한다. Bundle Adjustment 적용 시 93.5로 격차가 더 벌어진다.

vggt-fig4

Figure 4: 카메라 포즈 추정 정성적 비교. VGGT가 예측한 카메라 궤적이 DUSt3R/MASt3R 대비 ground truth에 훨씬 가깝게 정렬된다.

포인트 클라우드 재건 — ETH3D (Chamfer distance, 낮을수록 좋음)

vggt-tab2

Table 2: ETH3D 3D 재건 결과. VGGT는 Accuracy, Completeness, Overall 모두에서 DUSt3R/MASt3R를 능가하고, 속도는 약 50배 빠르다(~0.2s vs ~7~9s).

흥미로운 점: 포인트 맵 헤드 단독보다 깊이 맵 + 카메라를 조합하면 성능이 더 좋습니다 (0.677).

vggt-fig3

Figure 3: ETH3D 3D 재건 정성적 비교. VGGT의 포인트 클라우드가 DUSt3R 대비 더 완전하고 정확한 장면 구조를 복원한다.

DTU 멀티뷰 깊이 추정 (Chamfer distance, 낮을수록 좋음)

vggt-tab3

Table 3: DTU 멀티뷰 깊이 추정 결과. VGGT는 카메라 정보 없이(Camera Known: ✗)도 카메라를 제공받은 MASt3R(0.374)에 준하는 0.382를 달성한다.

카메라 정보 없이도 카메라를 이미 아는 MASt3R에 준하는 성능.

2-뷰 매칭 — ScanNet-1500 (AUC, 높을수록 좋음)

vggt-tab4

Table 4: ScanNet-1500 이미지 매칭 결과. 매칭 전용 모델인 RoMa(AUC@5: 31.8)를 VGGT Tracking Head(33.9)가 AUC@5/10/20 모두에서 능가한다.

매칭 전용 모델을 범용 모델이 능가.

vggt-fig5

Figure 5: 멀티뷰 재건 및 깊이 추정 추가 정성적 비교. 다양한 장면 유형에서 VGGT의 출력 품질을 보여준다.

동적 포인트 트래킹 — TAP-Vid (AJ metric, 높을수록 좋음)

vggt-tab5

Table 5: TAP-Vid 포인트 트래킹 결과. VGGT 피처를 백본으로 활용한 CoTracker2가 Kinetics(49.6→57.2), RGB-S(67.4→72.1), DAVIS(61.8→64.7)에서 일관된 성능 향상을 보인다.

VGGT 피처를 백본으로 쓰면 CoTracker2도 크게 개선됩니다.

vggt-fig6

Figure 6: 포인트 트래킹 및 2D 대응 정성적 결과. VGGT Tracking Head가 생성한 프레임 간 포인트 대응이 정확하게 유지된다.

속도 프로파일 (H100 GPU, 336×518 해상도)

vggt-tab6

Table 6: 추론 속도 및 GPU 메모리 프로파일. 10프레임 기준 0.14초·3.63 GB로 실시간에 가까운 처리가 가능하며, 200프레임에서는 8.75초·40.63 GB가 소요된다.

6. DUSt3R와의 비교

항목	DUSt3R / MASt3R	VGGT
입력 단위	이미지 쌍(pair)	1장 ~ 수백 장 동시
처리 방식	Pairwise → 전역 정렬	모든 뷰 동시 처리
후처리	필수 (전역 정렬, BA)	선택적 (없어도 경쟁력)
어텐션 구조	Cross-attention (쌍 간)	Alternating self-attention
포즈 정확도 (RealEstate10K)	76.4	85.3 (FF) / 93.5 (BA)
점군 정확도 (ETH3D)	0.826	0.709
속도	~7~9초	~0.2초 (50배 빠름)

근본적인 차이: DUSt3R는 여러 쌍(pair)의 결과를 합산하고, VGGT는 처음부터 모든 뷰를 함께 추론합니다.

7. 어블레이션: 멀티태스크의 효과

단일 태스크를 제거했을 때 전반적인 성능 변화:

vggt-tab7

Table 7: 멀티태스크 학습 어블레이션. 카메라 손실 제거 시 ETH3D 성능이 0.709 → 0.834로 가장 크게 하락해, 카메라 감독이 포인트 클라우드 품질에 핵심 역할임을 보여준다.

카메라 감독이 포인트 클라우드 품질에 가장 중요하다는 사실이 흥미롭습니다. 추론하자면, 카메라 파라미터 학습이 모델로 하여금 올바른 3D 좌표계를 내면화하도록 강제하고, 이것이 포인트 맵 예측 전반에 긍정적으로 작용하는 것으로 보입니다.

8. 한계점

어안(fisheye) 및 파노라마 카메라 미지원
극단적인 회전 입력에서 성능 저하
큰 비강체(non-rigid) 변형에 취약
프레임 수에 비례하는 메모리 (200프레임 = 40.6 GB)
단안(monocular) 재건에 특화 학습 없음

vggt-fig7

Figure 7: VGGT 실패 사례. 어안 카메라 왜곡, 극단적 회전, 비강체 변형 등 학습 분포를 벗어난 입력에서 재건 품질이 저하된다.

저자들은 이 한계들이 추가 파인튜닝으로 해소 가능하다고 명시합니다.

9. 정리

VGGT는 3D 컴퓨터 비전에 파운데이션 모델 패러다임을 성공적으로 적용한 사례입니다. 핵심 메시지는 명확합니다:

“기하학적 귀납 편향 < 대규모 데이터 + 대규모 모델”

파이프라인을 잘게 쪼개 각 단계를 전문화하는 대신, 충분한 데이터와 적절한 어텐션 구조를 갖춘 Transformer 하나가 3D 비전의 모든 작업을 동시에, 더 빠르게, 더 정확하게 풀 수 있음을 보였습니다.

DUSt3R가 “쌍별 처리 후 합산”의 한계를 드러냈다면, VGGT는 “처음부터 함께 보는 것”이 근본적으로 더 나은 접근임을 증명했습니다.