[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation (CVPR 2026)

논문: Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
학회: CVPR 2026
저자: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
소속: Insta360 Research Team, Wuhan University, UC Merced, UC San Diego
arXiv: 2512.16913
GitHub: Insta360-Research-Team/DAP

한 줄 요약

파노라마 깊이 추정의 첫 파운데이션 모델. 2M+ 규모의 파노라마 데이터셋과 3단계 수도 레이블 파이프라인, 플러그앤플레이 레인지 마스크 헤드를 결합해 실내외 다양한 거리 범위에서 metric 일관성을 달성했습니다.

dap-fig1

Figure 1: DAP 개요. 다양한 실내외 파노라마 이미지에 대해 거리 범위에 무관하게 정밀한 metric 깊이를 예측한다. 가까운 실내 공간부터 수백 미터 이상의 야외 장면까지 일관된 깊이 추정을 보여준다.

1. 배경과 문제 정의

파노라마 깊이 추정이란?

360도 카메라로 촬영된 전방위(omnidirectional) 이미지에서 픽셀 단위의 깊이값을 예측하는 태스크입니다. 일반 핀홀 카메라와 달리 등장방형(Equirectangular Projection, ERP) 포맷으로 표현되며, 이 과정에서 극점 근처의 왜곡이 심하고 이미지 경계에서 불연속이 발생합니다.

파노라마 깊이 추정은 VR/AR, 실내 네비게이션, 공간 이해, 360도 3D 재건 등 다양한 분야에서 핵심 역할을 합니다.

기존 방법의 한계

일반 핀홀 카메라 기반 깊이 추정 모델(DepthAnything V2, UniDepth 등)은 파노라마 이미지에 그대로 적용하면 성능이 크게 떨어집니다. 세 가지 근본적인 이유가 있습니다.

① 기하 왜곡 처리 미흡: ERP 특유의 비선형 왜곡(특히 극점 근처)을 핀홀 카메라 가정으로 처리하면 깊이 예측 오류가 누적됩니다.

② 거리 범위 불일치: 실내(수 미터)와 실외(수백 미터)를 동시에 처리하는 metric 깊이 모델이 없습니다. 기존 파노라마 전용 모델은 특정 범위에 과적합됩니다.

③ 데이터 부재: 파노라마 이미지에 pixel-level depth GT를 취득하는 비용이 매우 높습니다. 대규모 학습 데이터가 존재하지 않아 파운데이션 모델 수준의 일반화를 달성한 연구가 없었습니다.

2. 핵심 아이디어

세 가지 기여가 맞물립니다.

① 대규모 파노라마 데이터셋 (DAP-2M)

2M+ 샘플로 구성된 파노라마 데이터셋을 구축합니다. 단순히 데이터를 모으는 것이 아니라, 레이블이 없는 대량의 웹 이미지와 생성 이미지를 수도 레이블로 변환하는 파이프라인을 설계해 규모를 확장했습니다.

② 3단계 수도 레이블 파이프라인

합성-실제 간 도메인 갭, 실내-실외 간 거리 범위 차이를 단계적으로 브리징하는 학습 파이프라인입니다. 품질 낮은 수도 레이블이 학습에 악영향을 주는 것을 막기 위해 PatchGAN 기반 판별기로 고신뢰도 샘플만 선별합니다.

③ 플러그앤플레이 레인지 마스크 헤드

실내/실외의 깊이 범위가 크게 다른 문제를 해결하기 위해, 거리 임계값(range threshold)을 예측하는 보조 헤드를 추가합니다. 이 헤드는 scene의 깊이 범위를 먼저 분류한 뒤, 해당 정보를 metric 깊이 예측에 반영합니다. 기존 아키텍처에 독립적으로 추가 가능한 플러그앤플레이 방식입니다.

3. 데이터셋 구축: DAP-2M

데이터 구성

dap-tab2

Table 2: DAP-2M 데이터셋 구성. Structured3D 레이블 데이터 18,298개, UE5 합성 야외 데이터 90K, 웹 수집 및 DiT360 생성 비레이블 데이터 1.9M으로 구성된다. 총 2.1M개 이상의 파노라마 샘플이다.

레이블 데이터 (108K):

Structured3D: 실내 합성 데이터. pixel-level 깊이 GT 제공.
UE5 합성 야외: Unreal Engine 5 시뮬레이터로 렌더링한 야외 파노라마. 실내 GT만 있던 Structured3D의 야외 부재를 보완.

비레이블 데이터 (1.9M):

웹 수집 실제 파노라마: 인터넷에서 수집한 실제 360도 이미지
DiT360 생성 파노라마: 텍스트-이미지 생성 모델로 생성한 다양한 장면의 파노라마

3단계 수도 레이블 파이프라인

dap-fig3

Figure 3: 3단계 수도 레이블 파이프라인. Stage 1: Scene-Invariant Labeler가 합성 데이터로 초기화. Stage 2: Realism-Invariant Labeler가 PatchGAN 판별기로 고신뢰도 수도 레이블 600K 선별. Stage 3: 전체 2.1M 데이터로 DAP 최종 학습.

Stage 1 — Scene-Invariant Labeler (장면 불변 레이블러)

학습 데이터: UE5 합성 실내 20K + 합성 야외 90K (총 110K, 모두 GT 레이블)
목적: 실내/실외 장면에 무관하게 안정적인 깊이를 예측할 수 있는 기초 모델 학습
결과: 합성 데이터 기반으로 강한 장면 일반화, 하지만 실제 이미지와 도메인 갭 존재

Stage 2 — Realism-Invariant Labeler (현실성 불변 레이블러)

Stage 1 모델로 1.9M 비레이블 이미지에 수도 레이블 생성
PatchGAN 기반 판별기: 합성 도메인 vs. 실제 도메인을 구분하는 판별기 학습
판별기 신뢰도 점수가 높은 상위 샘플만 선별: 실내 300K + 실외 300K = 600K 고신뢰도 수도 레이블
저품질 수도 레이블이 학습에 섞이는 것을 원천 차단

Stage 3 — DAP 최종 학습

학습 데이터: 레이블 108K + 수도 레이블 600K + 추가 비레이블(자기지도) → 전체 2.1M
Stage 2 모델을 초기화로 사용, 대규모 반지도 학습
최종 DAP 파운데이션 모델 완성

4. 아키텍처

dap-fig2

Figure 2: DAP 아키텍처. DINOv3-Large 백본, 왜곡 인식 깊이 디코더, 플러그앤플레이 레인지 마스크 헤드의 세 모듈로 구성된다. 레인지 마스크가 장면 거리 범위를 분류하고, 이 정보가 metric 깊이 예측을 안내한다.

백본: DINOv3-Large

강력한 비전 프리트레이닝 표현을 제공하는 DINOv3-Large를 인코더로 사용합니다. 파노라마 이미지의 글로벌 구조와 지역적 세부를 동시에 포착하는 데 유리합니다.

왜곡 인식 깊이 디코더 (Distortion-Aware Depth Decoder)

ERP 포맷의 기하 왜곡을 명시적으로 처리하는 디코더입니다. 극점 근처의 픽셀이 실제로는 작은 입체각을 나타냄에도 이미지상 넓게 펼쳐지는 왜곡을 보정합니다.

플러그앤플레이 레인지 마스크 헤드

핵심 기여 중 하나입니다. “이 장면의 깊이 범위는 얼마인가?” 를 먼저 분류한 뒤, 그 정보를 깊이 예측에 반영합니다.

레인지 마스크 M: 거리 임계값 τ를 기준으로 픽셀을 근거리/원거리로 이진 분류
임계값 τ 선택: 10m / 20m / 50m / 100m 중 실험적으로 100m가 최적
마스크 손실: ℒ_mask = ||M - M_gt||² + 0.5·ℒ_Dice(M, M_gt)
기존 아키텍처에 독립적으로 부착 가능 (플러그앤플레이)

5. 손실 함수

왜곡된 파노라마 이미지의 특성을 반영한 5종의 손실을 조합합니다.

\[\mathcal{L}_{total} = M_{distort} \odot (\lambda_1 \mathcal{L}_{SILog} + \lambda_2 \mathcal{L}_{DF} + \lambda_3 \mathcal{L}_{grad} + \lambda_4 \mathcal{L}_{normal} + \lambda_5 \mathcal{L}_{pts} + \lambda_6 \mathcal{L}_{mask})\]

M_distort: ERP 왜곡 가중치 맵입니다. 극점 근처의 왜곡이 큰 픽셀에 낮은 가중치를 부여해, 왜곡이 심한 영역이 손실을 지배하는 것을 방지합니다.

손실	가중치	역할
ℒ_SILog	λ₁=1.0	Scale-Invariant Log 손실. 전체적인 깊이 스케일 맞춤
ℒ_DF	λ₂=0.4	DF-Gram 손실. 12개 정이십면체 패치 단위로 깊이 분포 통계 매칭 (글로벌 기하 일관성)
ℒ_grad	λ₃=5.0	Gradient 손실. 경계와 표면 전환점의 날카로움 보존
ℒ_normal	λ₄=2.0	Normal 손실. 깊이에서 유도한 표면 법선을 GT 법선과 매칭 (기하 정확도)
ℒ_pts	λ₅=2.0	Point-Cloud 손실. 3D 포인트 클라우드 레벨에서의 유클리드 거리 최소화
ℒ_mask	λ₆=2.0	레인지 마스크 헤드 지도 손실

ℒ_DF (DF-Gram) 상세: 구면을 12개 정이십면체 패치로 분할한 뒤, 각 패치의 깊이값 Gram 행렬을 GT와 비교합니다. 이를 통해 ERP의 왜곡에 영향을 덜 받으면서 글로벌 기하 구조의 일관성을 강제합니다.

\[\mathcal{L}_{DF} = \frac{1}{N}\sum_{k}\|D_{pred}^{(k)}\odot D_{pred}^{(k)T} - D_{gt}^{(k)}\odot D_{gt}^{(k)T}\|_F^2\]

6. 학습 세부 설정

설정	값
입력 해상도	512×1024 (ERP)
옵티마이저	Adam
백본 학습률	5e-6
디코더 학습률	5e-5
학습 하드웨어	NVIDIA H20 GPU
데이터 증강	Color jittering, 수평 이동, 좌우 반전

7. 실험 결과

제로샷 벤치마크 (Table 3)

dap-tab3

Table 3: 제로샷 벤치마크 결과. Stanford2D3D (실내), Matterport3D (실내), Deep360 (실외) 세 데이터셋에서 DAP가 모든 기존 방법을 상회한다. 핀홀 기반 일반 깊이 모델들(DepthAnything V2, UniDepth)과 파노라마 전용 모델들 모두 크게 앞선다.

DAP-Test 자체 벤치마크 (Table 4)

dap-tab4

Table 4: DAP-Test 벤치마크 결과. 실내외를 모두 포함한 DAP 자체 평가 세트에서 기존 최고 방법(Unik3D) 대비 AbsRel 69% 감소, RMSE 35.7% 감소, δ₁ 53.8% 향상이라는 압도적 성능 차이를 보인다.

DAP는 Unik3D 대비:

AbsRel: 0.2517 → 0.0781 (69% 감소)
RMSE: 10.56 → 6.804 (35.7% 감소)
δ₁: 0.6086 → 0.9370 (53.8% 향상)

정성적 비교

dap-fig4

Figure 4: 정성적 비교. DAP(맨 오른쪽)는 DAC, Unik3D와 비교해 경계 선명도, 원거리 영역 정확도, 글로벌 기하 일관성 모두에서 월등한 품질을 보인다. 특히 파노라마의 가장자리와 극점 근처에서도 안정적인 깊이 예측을 유지한다.

dap-fig5

Figure 5: 다양한 실제 파노라마에 대한 DAP의 깊이 추정 결과. 도심 거리, 실내 공간, 자연 환경, 복잡한 구조물 등 다양한 장면에서 일관된 metric 깊이를 출력한다. 레인지 마스크가 장면마다 적절한 깊이 범위를 자동 적응함을 확인할 수 있다.

8. 어블레이션

구성 요소 분석 (Table 5)

dap-tab5

Table 5: 구성 요소 어블레이션. 왜곡 인식(Distortion), 기하 일관성(Geometry), 선명도(Sharpness) 세 요소를 순차적으로 추가할 때의 Stanford2D3D와 Deep360 성능 변화. 세 요소 모두 유의미하게 기여한다.

각 요소의 역할:

왜곡 인식: M_distort 가중치맵으로 극점 왜곡 픽셀의 손실 영향 감소
기하 일관성: ℒ_DF (DF-Gram), ℒ_normal, ℒ_pts 손실로 3D 구조 정확도 향상
선명도: ℒ_grad 손실로 물체 경계 및 표면 전환점의 예리함 강화

레인지 마스크 임계값 분석 (Table 6)

dap-tab6

Table 6: 레인지 마스크 거리 임계값 어블레이션. 10m, 20m, 50m, 100m, None(마스크 없음) 중 100m 임계값이 DAP-2M과 Deep360 모두에서 최고 성능을 달성한다. 마스크 자체(None 대비 유의미한 개선)가 성능에 필수적임을 확인.

100m 임계값의 의미: 실내(~10m 이하)와 대규모 야외 장면(수백m)을 실용적으로 구분하는 경계가 100m임을 실험적으로 발견했습니다. 너무 낮은 임계값(10m, 20m)은 야외 중거리 장면을 올바르게 분류하지 못하고, 임계값이 없는 경우보다 100m가 항상 우수합니다.

9. 기존 방법과의 비교

항목	핀홀 깊이 모델 (DAV2 등)	파노라마 전용 (PanDA 등)	DAP
파노라마 기하 처리	✗ (핀홀 가정)	✓	✓ (왜곡 인식)
Metric 깊이	△ (상대적)	△	✓ (metric 절대값)
실내/실외 동시 지원	△	✗ (주로 실내)	✓
학습 데이터 규모	대규모 (핀홀)	소규모	2M+ 파노라마
제로샷 일반화	낮음	중간	높음
레인지 적응	✗	✗	✓ (마스크 헤드)

10. 한계점

수도 레이블 오류 전파: 3단계 파이프라인은 Stage 1의 품질에 의존합니다. 초기 레이블러 오류가 후속 단계로 누적될 수 있습니다.
극점 왜곡: M_distort로 완화했지만, 극점 근처의 심각한 왜곡 영역에서는 여전히 품질 저하 가능합니다.
고해상도 처리 비용: 512×1024 입력 기준 설계입니다. 더 높은 해상도 파노라마 처리 시 메모리·속도 부담이 있습니다.
실제 야외 GT 부재: 야외 학습 데이터 중 GT 레이블은 모두 UE5 합성 기반입니다. 실제 야외 LiDAR GT로 검증이 제한적입니다.

11. 정리

DAP는 파노라마 깊이 추정 분야에 파운데이션 모델 패러다임을 처음으로 성공적으로 도입한 논문입니다. 핵심 메시지:

“데이터 규모 + 도메인 브리징 파이프라인 + 파노라마 특화 설계 = 실내외 범용 metric 깊이”

기존 핀홀 기반 깊이 모델들이 파노라마에 그대로 적용 불가능하고, 파노라마 전용 모델들은 특정 환경(주로 실내)에 과적합되었던 문제를 2M+ 규모의 다양한 데이터와 단계적 수도 레이블 파이프라인으로 극복했습니다. 레인지 마스크 헤드는 실내외의 깊이 범위 차이를 우아하게 해결하는 실용적 아이디어입니다.

Insta360이라는 360도 카메라 하드웨어 기업이 주도했다는 점에서, 실제 제품 적용을 염두에 둔 실용적 연구라는 점도 주목할 만합니다.