[논문리뷰] VGGT-Ω: Scaling Feed-Forward 3D Reconstruction (CVPR 2026 Oral)
논문: VGGT-Ω: Scaling Feed-Forward 3D Reconstruction
학회: CVPR 2026 (Oral Presentation)
저자: Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht
소속: Visual Geometry Group (VGG), University of Oxford + Meta AI
arXiv: 2605.15195
GitHub: facebookresearch/vggt-omega
한 줄 요약
VGGT의 후속작. 레지스터 어텐션으로 메모리를 70% 절감하고 15배 더 많은 데이터로 학습해, 정적·동적 장면 3D 재건 성능을 대폭 끌어올린 1B 파라미터 feed-forward 모델.

1. 배경과 문제 정의
VGGT(CVPR 2025 Best Paper)는 파운데이션 모델 철학을 3D 재건에 성공적으로 적용해 큰 반향을 일으켰다. 그러나 실용화 과정에서 몇 가지 구조적 한계가 드러났다.
VGGT의 한계:
- Global Attention의 메모리 폭발: 홀수 레이어에서 N개 프레임의 모든 토큰이 서로 어텐션. 프레임 수에 제곱으로 증가하는 메모리 비용.
- 동적 장면 미지원: 정적 장면 위주 학습 데이터로 인해 움직이는 물체가 포함된 동적 장면 처리 불가.
- 멀티헤드 복잡성: Camera Head, DPT Head, Tracking Head 각각의 전문화된 설계가 확장성을 제약.
- 고해상도 Conv 병목: DPT 헤드의 고해상도 컨볼루션 연산이 메모리·속도 병목으로 작용.
VGGT-Ω의 핵심 질문:
“올바른 아키텍처 선택과 충분히 큰 데이터가 결합되면, 3D 재건 모델 성능은 예측 가능하게 스케일링되는가?”
2. 핵심 아이디어
세 가지 기여가 맞물려 있다.
① 레지스터 어텐션 (Register Attention)
Global Self-Attention을 레지스터 토큰을 경유한 병목 통신으로 교체. 프레임 간 정보는 오직 레지스터를 통해서만 교환되며, 이미지 토큰은 프레임 내 어텐션만 수행한다. 연산 복잡도가 O(N²K²) → O(N²R² + NK²)로 감소(R ≪ K).
② 단일 Dense Prediction Head
VGGT의 세 개 특화 헤드(Camera, DPT, Tracking)를 단일 멀티태스크 Dense Prediction Head로 통합. 고해상도 컨볼루션 레이어 제거. 구조가 단순해져 스케일링에 유리.
③ 대규모·다양성 있는 학습
- 기존 VGGT 대비 15배 많은 지도학습 데이터 확보
- 레이블 없는 동영상에 대한 자기지도 학습(self-supervised learning) 프로토콜 도입
- 동적 장면 어노테이션 파이프라인 신규 구축
3. 아키텍처
전체 파이프라인
N개의 입력 이미지
→ 패치 토크나이저 → 이미지 토큰 (프레임당 K개)
→ 레지스터 토큰 (프레임당 R개, R ≪ K) 추가
→ Transformer 레이어 (Register Attention)
│ ├─ 프레임 내 Self-Attention: 이미지 토큰 + 레지스터 (K+R개)
│ └─ 프레임 간 Self-Attention: 레지스터 토큰만 (R개 × N프레임)
└─→ 단일 Dense Prediction Head (multi-task supervision)
→ 카메라 외부 파라미터 (회전 + 이동)
→ 카메라 내부 파라미터 (FoV)
→ 깊이 맵 + 신뢰도 맵
→ 씬 레지스터 (다운스트림 재활용 가능)

Register Attention 상세
기존 VGGT의 Alternating-Attention에서 핵심 병목이었던 Global Self-Attention (모든 프레임의 모든 토큰이 서로 어텐션)을 다음 두 단계로 분리한다:
- 프레임 내 어텐션: 각 프레임의 이미지 토큰과 레지스터 토큰이 함께 어텐션 수행. 공간 정보를 레지스터로 압축.
- 레지스터 간 어텐션: 모든 프레임의 레지스터 토큰끼리만 글로벌 어텐션. 씬 전반의 3D 구조 정보를 교환.
이미지 토큰이 다른 프레임의 정보를 얻으려면 반드시 레지스터를 경유해야 한다. 레지스터는 각 프레임의 씬 요약자(scene aggregator) 역할을 한다.

메모리 효율
Register Attention은 Global Self-Attention 대비 메모리를 70% 절감한다. 고해상도 Conv 레이어 제거가 더해져 전체적으로 VGGT의 약 30% 메모리만 사용.
| 프레임 수 | GPU 메모리 (GB) | 해상도 |
|---|---|---|
| 1 | 6.02 | 624×416 |
| 10 | 6.67 | 624×416 |
| 25 | 7.80 | 624×416 |
| 50 | 9.66 | 624×416 |
| 100 | 13.37 | 624×416 |
| 200 | 20.82 | 624×416 |
| 300 | 28.26 | 624×416 |
| 500 | 43.15 | 624×416 |
4. 학습
학습 데이터 구성
VGGT-Ω는 VGGT 대비 15배 많은 지도학습 데이터를 사용한다. 핵심 확장 방향은 두 가지다.
신규: 동적 장면 어노테이션 파이프라인
- 움직이는 물체가 포함된 동적 장면 데이터를 자동으로 어노테이션하는 파이프라인 구축
- 기존 정적 장면 위주 데이터셋의 한계를 극복
신규: 자기지도 학습
- 레이블 없는 동영상 데이터를 활용하는 자기지도 학습 프로토콜 도입
- 인터넷 규모의 비레이블 비디오로부터 3D 구조 정보 학습

5. 실험 결과
주요 벤치마크 결과



동적 장면 결과
VGGT가 완전히 다루지 못했던 동적 장면에서의 성능을 새로 측정한다. Sintel 벤치마크에서 이전 최고 대비 77% 향상이라는 압도적인 결과를 기록했다.



6. 어블레이션

7. 레지스터의 다운스트림 활용
Register Attention의 숨겨진 이점은 씬 레지스터 토큰이 다운스트림 태스크에 재활용 가능하다는 점이다. 3D 재건 학습 과정에서 레지스터는 씬의 공간적 구조를 압축적으로 표현하는 방법을 학습하게 되는데, 이 표현이 다른 공간 이해 태스크로 전이된다.
확인된 다운스트림 활용 사례:
- Vision-Language-Action (VLA) 모델: 로봇 조작 등 공간 이해가 필요한 VLA 모델에서 씬 레지스터 활용
- 언어 정렬(Language Alignment): 256px 체크포인트(VGGT-Omega-1B-256-Text-Alignment)는 텍스트-이미지 정렬 임베딩 출력 지원
3D 재건이 단순한 메트릭 성능 개선을 넘어 공간 이해를 위한 강력한 프리트레이닝 태스크임을 시사한다.


8. VGGT와의 비교
| 항목 | VGGT | VGGT-Ω |
|---|---|---|
| 프레임 간 어텐션 | Global Self-Attention (모든 토큰) | Register Attention (레지스터만) |
| 예측 헤드 | Camera + DPT + Tracking (3개) | 단일 Dense Prediction Head |
| 동적 장면 | 미지원 | 지원 |
| 학습 데이터 | ~17개 데이터셋 | ~15× 확장 + 자기지도 학습 |
| GPU 메모리 (100프레임) | ~21 GB (336×518) | 13.37 GB (624×416, 더 높은 해상도에서 더 적은 메모리) |
| Sintel 카메라 추정 | 기준 | +77% 향상 |
| 씬 레지스터 활용 | 없음 | VLA / 언어 정렬 전이 가능 |
| 스케일링 검증 | — | 모델·데이터 스케일 법칙 실증 |
9. 한계점
- 고해상도(512px 이상) 처리 시 여전히 수백 GB급 메모리 필요 (500프레임·624px = 43.15 GB)
- 자기지도 학습의 신뢰도가 지도학습 대비 낮을 수 있음
- 텍스트 정렬 모델은 256px 저해상도로 제한
- HuggingFace 접근 승인 절차 필요 (공개 즉시 접근 불가)
10. 정리
VGGT-Ω는 “스케일링 법칙이 3D 재건에도 적용된다”는 명제를 실증한 논문이다. 핵심 메시지:
“Register Attention + 단일 헤드 + 대규모 데이터 = 예측 가능한 스케일링”
VGGT가 3D 비전의 파운데이션 모델 가능성을 증명했다면, VGGT-Ω는 그 가능성을 스케일링 법칙의 언어로 확인했다. 아키텍처 복잡성을 줄이고(레지스터 어텐션, 단일 헤드), 데이터를 늘리면(15× 지도 + 자기지도) 성능이 예측 가능하게 향상되며, 그 표현은 다른 공간 이해 태스크로도 전이된다.
NLP와 2D 비전에서 확립된 스케일링 법칙이 이제 3D 재건에서도 작동한다.