[논문리뷰] VGGT: Visual Geometry Grounded Transformer (CVPR 2025 Best Paper)
논문: VGGT: Visual Geometry Grounded Transformer
학회: CVPR 2025 (Best Paper Award)
저자: Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny
소속: Visual Geometry Group (VGG), University of Oxford + Meta AI
arXiv: 2503.11651
GitHub: facebookresearch/vggt
한 줄 요약
이미지 N장을 한 번의 forward pass로 넣으면, 카메라 파라미터 + 깊이 맵 + 포인트 클라우드 + 3D 트래킹을 0.2초 안에 동시에 뽑아주는 1.2B짜리 Transformer.
1. 배경과 문제 정의
3D 재건(reconstruction)의 전통적인 파이프라인은 SfM(Structure from Motion) → MVS(Multi-View Stereo) → Bundle Adjustment로 이어지는 구조다. 각 단계가 분리되어 있고, 반복 최적화(iterative optimization)가 필요해 장면 하나에 수십 초에서 수 분이 걸린다.
최근 학습 기반 방법인 DUSt3R와 MASt3R가 이 흐름을 바꾸려 했다. 두 이미지를 쌍(pairwise)으로 처리해 3D 포인트 맵을 바로 예측하는 방식이다. 하지만 여전히 한계가 있다:
- 쌍(pair) 단위 처리: 두 이미지씩만 처리하고, 전체 장면은 쌍별 결과를 나중에 합친다.
- 전역 정렬 필요: 쌍별 포인트 맵을 하나의 좌표계로 통합하는 최적화 단계가 필수.
- 느린 속도: 장면당 7~9초 소요.
VGGT의 질문은 단순하다: “이 모든 걸 한 번에 할 수는 없을까?”
2. 핵심 아이디어
VGGT의 핵심 주장은 하나다.
충분히 다양한 3D 데이터로 학습한 큰 Transformer는, 3D 특화 귀납 편향(geometric inductive bias)이나 후처리 없이도 3D 비전의 모든 작업을 동시에 풀 수 있다.
NLP와 2D 비전에서 검증된 파운데이션 모델 철학을 3D 재건에 그대로 적용했다. 설계 원칙은 세 가지:
- 모든 입력 이미지를 동시에 처리한다 (sequential/pairwise 없음).
- 단일 forward pass — 반복 최적화 없음.
- 멀티태스크 출력 — 카메라 포즈, 깊이, 포인트 맵, 트래킹을 한 번에.
3. 아키텍처
전체 파이프라인
N개의 입력 이미지
→ DINOv2 패치 토크나이저 → 이미지 토큰 (이미지당 K개)
→ 카메라 토큰 (이미지당 1개) + 레지스터 토큰 (이미지당 4개) 추가
→ Alternating-Attention Transformer (24 레이어, dim=1024, 16 heads)
├─→ Camera Head → 카메라 내/외부 파라미터
├─→ DPT Head → 깊이 맵, 포인트 맵, 불확실성 맵
└─→ Tracking Head → 프레임 간 2D 포인트 대응

Alternating-Attention (핵심 설계)
24개의 Transformer 레이어가 두 종류의 어텐션을 번갈아 수행한다:
- 짝수 레이어 → Frame-wise Self-Attention: 같은 이미지 내 토큰끼리만 어텐션. 각 프레임의 공간적 맥락 보존.
- 홀수 레이어 → Global Self-Attention: 모든 프레임의 모든 토큰이 서로 어텐션. 멀티뷰 대응 및 3D 추론 수행.
Cross-attention은 사용하지 않는다. 아래 어블레이션 결과가 이 설계 선택을 뒷받침한다 (ETH3D Overall, 낮을수록 좋음):

Camera Head
카메라 토큰만 추가 self-attention 4레이어 통과 후 선형 투영으로 9차원 벡터 예측:
- 쿼터니언 회전 (4D) + 이동 (3D) + 시야각 FoV (2D)
첫 번째 이미지의 카메라는 항상 identity(월드 좌표계 기준점)로 고정.
DPT Head
DPT(Dense Prediction Transformer) 업샘플링으로 이미지 토큰을 다시 dense map으로 복원:
- 깊이 맵 \(D_i \in \mathbb{R}^{H \times W}\)
- 포인트 맵 \(P_i \in \mathbb{R}^{3 \times H \times W}\) (픽셀당 월드 좌표)
- 트래킹 피처 맵 \(T_i \in \mathbb{R}^{C \times H \times W}\)
- 불확실성 맵 (aleatoric uncertainty)
Tracking Head
CoTracker2 아키텍처를 차용. 기준 프레임의 쿼리 포인트 하나를 받아, 트래킹 피처 맵을 통해 다른 모든 프레임에서의 2D 대응점을 예측. 프레임 순서를 가정하지 않는다.
4. 학습
손실 함수
\[\mathcal{L} = \mathcal{L}_{\text{camera}} + \mathcal{L}_{\text{depth}} + \mathcal{L}_{\text{pmap}} + 0.05 \times \mathcal{L}_{\text{track}}\]- \(\mathcal{L}_{\text{camera}}\): 쿼터니언, 이동, FoV에 대한 Huber loss
- \(\mathcal{L}_{\text{depth}}, \mathcal{L}_{\text{pmap}}\): 불확실성 가중 L1 + 그래디언트 스무스니스 − α·log(uncertainty)
- \(\mathcal{L}_{\text{track}}\): 2D 대응 위치에 대한 L2 + 가시성 BCE
학습 데이터 (~17개 데이터셋)
| 카테고리 | 데이터셋 |
|---|---|
| 오브젝트 중심 | Co3Dv2, BlendMVS, DL3DV, 합성 에셋 |
| 실외 장면 | MegaDepth, WildRGB, Mapillary |
| 실내 | ScanNet, HyperSim, Replica, Habitat |
| 합성 | Kubric, Virtual KITTI, Aria Synthetic Environments, MVS-Synth |
| 비디오 트래킹 | PointOdyssey |
학습 설정
- AdamW, LR 0.0002, cosine schedule, 8K warmup
- 총 160K 이터레이션, 64×A100, 9일 소요
- bfloat16 + gradient checkpointing
5. 실험 결과
카메라 포즈 추정 (AUC@30, 높을수록 좋음)


포인트 클라우드 재건 — ETH3D (Chamfer distance, 낮을수록 좋음)

흥미로운 점: 포인트 맵 헤드 단독보다 깊이 맵 + 카메라를 조합하면 성능이 더 좋다 (0.677).

DTU 멀티뷰 깊이 추정 (Chamfer distance, 낮을수록 좋음)

카메라 정보 없이도 카메라를 이미 아는 MASt3R에 준하는 성능.
2-뷰 매칭 — ScanNet-1500 (AUC, 높을수록 좋음)

매칭 전용 모델을 범용 모델이 능가.

동적 포인트 트래킹 — TAP-Vid (AJ metric, 높을수록 좋음)

VGGT 피처를 백본으로 쓰면 CoTracker2도 크게 개선됨.

속도 프로파일 (H100 GPU, 336×518 해상도)

6. DUSt3R와의 비교
| 항목 | DUSt3R / MASt3R | VGGT |
|---|---|---|
| 입력 단위 | 이미지 쌍(pair) | 1장 ~ 수백 장 동시 |
| 처리 방식 | Pairwise → 전역 정렬 | 모든 뷰 동시 처리 |
| 후처리 | 필수 (전역 정렬, BA) | 선택적 (없어도 경쟁력) |
| 어텐션 구조 | Cross-attention (쌍 간) | Alternating self-attention |
| 포즈 정확도 (RealEstate10K) | 76.4 | 85.3 (FF) / 93.5 (BA) |
| 점군 정확도 (ETH3D) | 0.826 | 0.709 |
| 속도 | ~7~9초 | ~0.2초 (50배 빠름) |
근본적인 차이: DUSt3R는 여러 쌍(pair)의 결과를 합산하고, VGGT는 처음부터 모든 뷰를 함께 추론한다.
7. 어블레이션: 멀티태스크의 효과
단일 태스크를 제거했을 때 전반적인 성능 변화:

카메라 감독이 포인트 클라우드 품질에 가장 중요하다는 사실이 흥미롭다. 추론하자면, 카메라 파라미터 학습이 모델로 하여금 올바른 3D 좌표계를 내면화하도록 강제하고, 이것이 포인트 맵 예측 전반에 긍정적으로 작용하는 것으로 보인다.
8. 한계점
- 어안(fisheye) 및 파노라마 카메라 미지원
- 극단적인 회전 입력에서 성능 저하
- 큰 비강체(non-rigid) 변형에 취약
- 프레임 수에 비례하는 메모리 (200프레임 = 40.6 GB)
- 단안(monocular) 재건에 특화 학습 없음

저자들은 이 한계들이 추가 파인튜닝으로 해소 가능하다고 명시한다.
9. 정리
VGGT는 3D 컴퓨터 비전에 파운데이션 모델 패러다임을 성공적으로 적용한 사례다. 핵심 메시지는 명확하다:
“기하학적 귀납 편향 < 대규모 데이터 + 대규모 모델”
파이프라인을 잘게 쪼개 각 단계를 전문화하는 대신, 충분한 데이터와 적절한 어텐션 구조를 갖춘 Transformer 하나가 3D 비전의 모든 작업을 동시에, 더 빠르게, 더 정확하게 풀 수 있음을 보였다.
DUSt3R가 “쌍별 처리 후 합산”의 한계를 드러냈다면, VGGT는 “처음부터 함께 보는 것”이 근본적으로 더 나은 접근임을 증명했다.