[논문리뷰] VGGT-Ω: Scaling Feed-Forward 3D Reconstruction (CVPR 2026 Oral)

논문: VGGT-Ω: Scaling Feed-Forward 3D Reconstruction
학회: CVPR 2026 (Oral Presentation)
저자: Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schönberger, Patrick Labatut, Piotr Bojanowski, David Novotny, Andrea Vedaldi, Christian Rupprecht
소속: Visual Geometry Group (VGG), University of Oxford + Meta AI
arXiv: 2605.15195
GitHub: facebookresearch/vggt-omega


한 줄 요약

VGGT의 후속작. 레지스터 어텐션으로 메모리를 70% 절감하고 15배 더 많은 데이터로 학습해, 정적·동적 장면 3D 재건 성능을 대폭 끌어올린 1B 파라미터 feed-forward 모델.


vggt-omega-fig1

Figure 1: VGGT-Ω 개요. 단일 forward pass로 카메라 파라미터·깊이 맵·씬 레지스터를 동시 예측하며, 정적/동적 장면을 모두 지원한다. 스케일링 법칙에 따라 모델·데이터 규모가 커질수록 성능이 예측 가능하게 향상된다.

1. 배경과 문제 정의

VGGT(CVPR 2025 Best Paper)는 파운데이션 모델 철학을 3D 재건에 성공적으로 적용해 큰 반향을 일으켰다. 그러나 실용화 과정에서 몇 가지 구조적 한계가 드러났다.

VGGT의 한계:

  • Global Attention의 메모리 폭발: 홀수 레이어에서 N개 프레임의 모든 토큰이 서로 어텐션. 프레임 수에 제곱으로 증가하는 메모리 비용.
  • 동적 장면 미지원: 정적 장면 위주 학습 데이터로 인해 움직이는 물체가 포함된 동적 장면 처리 불가.
  • 멀티헤드 복잡성: Camera Head, DPT Head, Tracking Head 각각의 전문화된 설계가 확장성을 제약.
  • 고해상도 Conv 병목: DPT 헤드의 고해상도 컨볼루션 연산이 메모리·속도 병목으로 작용.

VGGT-Ω의 핵심 질문:

“올바른 아키텍처 선택과 충분히 큰 데이터가 결합되면, 3D 재건 모델 성능은 예측 가능하게 스케일링되는가?”


2. 핵심 아이디어

세 가지 기여가 맞물려 있다.

① 레지스터 어텐션 (Register Attention)

Global Self-Attention을 레지스터 토큰을 경유한 병목 통신으로 교체. 프레임 간 정보는 오직 레지스터를 통해서만 교환되며, 이미지 토큰은 프레임 내 어텐션만 수행한다. 연산 복잡도가 O(N²K²) → O(N²R² + NK²)로 감소(R ≪ K).

② 단일 Dense Prediction Head

VGGT의 세 개 특화 헤드(Camera, DPT, Tracking)를 단일 멀티태스크 Dense Prediction Head로 통합. 고해상도 컨볼루션 레이어 제거. 구조가 단순해져 스케일링에 유리.

③ 대규모·다양성 있는 학습

  • 기존 VGGT 대비 15배 많은 지도학습 데이터 확보
  • 레이블 없는 동영상에 대한 자기지도 학습(self-supervised learning) 프로토콜 도입
  • 동적 장면 어노테이션 파이프라인 신규 구축

3. 아키텍처

전체 파이프라인

N개의 입력 이미지
    → 패치 토크나이저 → 이미지 토큰 (프레임당 K개)
    → 레지스터 토큰 (프레임당 R개, R ≪ K) 추가
    → Transformer 레이어 (Register Attention)
    │   ├─ 프레임 내 Self-Attention: 이미지 토큰 + 레지스터 (K+R개)
    │   └─ 프레임 간 Self-Attention: 레지스터 토큰만 (R개 × N프레임)
    └─→ 단일 Dense Prediction Head (multi-task supervision)
           → 카메라 외부 파라미터 (회전 + 이동)
           → 카메라 내부 파라미터 (FoV)
           → 깊이 맵 + 신뢰도 맵
           → 씬 레지스터 (다운스트림 재활용 가능)

vggt-omega-fig2

Figure 2: VGGT와 VGGT-Ω 아키텍처 비교. VGGT의 Global Self-Attention(좌)이 VGGT-Ω에서는 Register Attention(우)으로 대체된다. 이미지 토큰 간 직접 통신이 없어지고, 레지스터 토큰을 통해서만 프레임 간 정보가 교환된다.

Register Attention 상세

기존 VGGT의 Alternating-Attention에서 핵심 병목이었던 Global Self-Attention (모든 프레임의 모든 토큰이 서로 어텐션)을 다음 두 단계로 분리한다:

  1. 프레임 내 어텐션: 각 프레임의 이미지 토큰과 레지스터 토큰이 함께 어텐션 수행. 공간 정보를 레지스터로 압축.
  2. 레지스터 간 어텐션: 모든 프레임의 레지스터 토큰끼리만 글로벌 어텐션. 씬 전반의 3D 구조 정보를 교환.

이미지 토큰이 다른 프레임의 정보를 얻으려면 반드시 레지스터를 경유해야 한다. 레지스터는 각 프레임의 씬 요약자(scene aggregator) 역할을 한다.

vggt-omega-fig3

Figure 3: Register Attention 메커니즘. 레지스터 토큰(■)이 프레임 내 이미지 토큰으로부터 정보를 수집하고(프레임 내 어텐션), 레지스터끼리 글로벌 어텐션으로 프레임 간 정보를 교환한다. 이미지 토큰(○) 간 직접 크로스프레임 통신은 없다.

메모리 효율

Register Attention은 Global Self-Attention 대비 메모리를 70% 절감한다. 고해상도 Conv 레이어 제거가 더해져 전체적으로 VGGT의 약 30% 메모리만 사용.

프레임 수 GPU 메모리 (GB) 해상도
1 6.02 624×416
10 6.67 624×416
25 7.80 624×416
50 9.66 624×416
100 13.37 624×416
200 20.82 624×416
300 28.26 624×416
500 43.15 624×416

4. 학습

학습 데이터 구성

VGGT-Ω는 VGGT 대비 15배 많은 지도학습 데이터를 사용한다. 핵심 확장 방향은 두 가지다.

신규: 동적 장면 어노테이션 파이프라인

  • 움직이는 물체가 포함된 동적 장면 데이터를 자동으로 어노테이션하는 파이프라인 구축
  • 기존 정적 장면 위주 데이터셋의 한계를 극복

신규: 자기지도 학습

  • 레이블 없는 동영상 데이터를 활용하는 자기지도 학습 프로토콜 도입
  • 인터넷 규모의 비레이블 비디오로부터 3D 구조 정보 학습

vggt-omega-fig4

Figure 4: VGGT-Ω 학습 파이프라인. 지도학습 데이터(정적+동적 장면), 자기지도 학습(레이블 없는 비디오), 동적 장면 어노테이션 파이프라인의 세 축이 결합된다.

5. 실험 결과

주요 벤치마크 결과

vggt-omega-tab1

Table 1: 정적 장면 주요 벤치마크 결과. VGGT-Ω는 카메라 포즈 추정, 포인트 클라우드 재건, 깊이 추정 등 전 부문에서 VGGT를 포함한 이전 최고 성능을 대폭 갱신한다.

vggt-omega-fig5

Figure 5: 정적 장면 3D 재건 정성적 비교. VGGT-Ω가 VGGT 대비 더 정밀하고 완전한 포인트 클라우드를 생성한다.

vggt-omega-fig7

Figure 7: 카메라 포즈 추정 정성적 비교. VGGT-Ω의 카메라 궤적이 ground truth에 현저히 가까운 정렬을 보인다.

동적 장면 결과

VGGT가 완전히 다루지 못했던 동적 장면에서의 성능을 새로 측정한다. Sintel 벤치마크에서 이전 최고 대비 77% 향상이라는 압도적인 결과를 기록했다.

vggt-omega-tab2

Table 2: 동적 장면 벤치마크 결과. Sintel, TartanAir 등 동적 씬 데이터셋에서 VGGT-Ω가 이전 방법들을 크게 앞선다. Sintel에서 이전 최고 대비 77% 향상.

vggt-omega-fig6

Figure 6: 동적 장면 재건 정성적 결과. 움직이는 물체(사람, 차량 등)가 포함된 장면에서도 안정적인 재건 품질을 보인다.

vggt-omega-fig8

Figure 8: 깊이 추정 정성적 비교. 정적·동적 장면 모두에서 세밀한 경계와 물체 디테일이 잘 보존된다.

6. 어블레이션

vggt-omega-tab3

Table 3: 어블레이션 스터디. Register Attention, 단일 Dense Prediction Head, 자기지도 학습 각 요소의 기여를 분해 분석한다. 세 요소 모두 최종 성능에 유의미하게 기여한다.

7. 레지스터의 다운스트림 활용

Register Attention의 숨겨진 이점은 씬 레지스터 토큰이 다운스트림 태스크에 재활용 가능하다는 점이다. 3D 재건 학습 과정에서 레지스터는 씬의 공간적 구조를 압축적으로 표현하는 방법을 학습하게 되는데, 이 표현이 다른 공간 이해 태스크로 전이된다.

확인된 다운스트림 활용 사례:

  • Vision-Language-Action (VLA) 모델: 로봇 조작 등 공간 이해가 필요한 VLA 모델에서 씬 레지스터 활용
  • 언어 정렬(Language Alignment): 256px 체크포인트(VGGT-Omega-1B-256-Text-Alignment)는 텍스트-이미지 정렬 임베딩 출력 지원

3D 재건이 단순한 메트릭 성능 개선을 넘어 공간 이해를 위한 강력한 프리트레이닝 태스크임을 시사한다.

vggt-omega-fig9

Figure 9: 씬 레지스터의 다운스트림 활용. 3D 재건으로 학습된 레지스터 표현이 언어 정렬 및 VLA 모델로 전이되는 과정을 보여준다.

vggt-omega-fig10

Figure 10: 스케일링 곡선. 모델 크기와 학습 데이터 양이 증가함에 따라 주요 벤치마크 성능이 예측 가능하게 향상된다. 이는 3D 재건 영역에서도 스케일링 법칙이 성립함을 처음으로 보인다.

8. VGGT와의 비교

항목 VGGT VGGT-Ω
프레임 간 어텐션 Global Self-Attention (모든 토큰) Register Attention (레지스터만)
예측 헤드 Camera + DPT + Tracking (3개) 단일 Dense Prediction Head
동적 장면 미지원 지원
학습 데이터 ~17개 데이터셋 ~15× 확장 + 자기지도 학습
GPU 메모리 (100프레임) ~21 GB (336×518) 13.37 GB (624×416, 더 높은 해상도에서 더 적은 메모리)
Sintel 카메라 추정 기준 +77% 향상
씬 레지스터 활용 없음 VLA / 언어 정렬 전이 가능
스케일링 검증 모델·데이터 스케일 법칙 실증

9. 한계점

  • 고해상도(512px 이상) 처리 시 여전히 수백 GB급 메모리 필요 (500프레임·624px = 43.15 GB)
  • 자기지도 학습의 신뢰도가 지도학습 대비 낮을 수 있음
  • 텍스트 정렬 모델은 256px 저해상도로 제한
  • HuggingFace 접근 승인 절차 필요 (공개 즉시 접근 불가)

10. 정리

VGGT-Ω는 “스케일링 법칙이 3D 재건에도 적용된다”는 명제를 실증한 논문이다. 핵심 메시지:

“Register Attention + 단일 헤드 + 대규모 데이터 = 예측 가능한 스케일링”

VGGT가 3D 비전의 파운데이션 모델 가능성을 증명했다면, VGGT-Ω는 그 가능성을 스케일링 법칙의 언어로 확인했다. 아키텍처 복잡성을 줄이고(레지스터 어텐션, 단일 헤드), 데이터를 늘리면(15× 지도 + 자기지도) 성능이 예측 가능하게 향상되며, 그 표현은 다른 공간 이해 태스크로도 전이된다.

NLP와 2D 비전에서 확립된 스케일링 법칙이 이제 3D 재건에서도 작동한다.

* 본 블로그의 포스트들은 클로드 코드의 도움을 받아 작성하기도 하였습니다.