[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation (CVPR 2026)
논문: Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation
학회: CVPR 2026
저자: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
소속: Insta360 Research Team, Wuhan University, UC Merced, UC San Diego
arXiv: 2512.16913
GitHub: Insta360-Research-Team/DAP
한 줄 요약
파노라마 깊이 추정의 첫 파운데이션 모델. 2M+ 규모의 파노라마 데이터셋과 3단계 수도 레이블 파이프라인, 플러그앤플레이 레인지 마스크 헤드를 결합해 실내외 다양한 거리 범위에서 metric 일관성을 달성했다.

1. 배경과 문제 정의
파노라마 깊이 추정이란?
360도 카메라로 촬영된 전방위(omnidirectional) 이미지에서 픽셀 단위의 깊이값을 예측하는 태스크다. 일반 핀홀 카메라와 달리 등장방형(Equirectangular Projection, ERP) 포맷으로 표현되며, 이 과정에서 극점 근처의 왜곡이 심하고 이미지 경계에서 불연속이 발생한다.
파노라마 깊이 추정은 VR/AR, 실내 네비게이션, 공간 이해, 360도 3D 재건 등 다양한 분야에서 핵심 역할을 한다.
기존 방법의 한계
일반 핀홀 카메라 기반 깊이 추정 모델(DepthAnything V2, UniDepth 등)은 파노라마 이미지에 그대로 적용하면 성능이 크게 떨어진다. 세 가지 근본적인 이유가 있다.
① 기하 왜곡 처리 미흡: ERP 특유의 비선형 왜곡(특히 극점 근처)을 핀홀 카메라 가정으로 처리하면 깊이 예측 오류가 누적된다.
② 거리 범위 불일치: 실내(수 미터)와 실외(수백 미터)를 동시에 처리하는 metric 깊이 모델이 없다. 기존 파노라마 전용 모델은 특정 범위에 과적합된다.
③ 데이터 부재: 파노라마 이미지에 pixel-level depth GT를 취득하는 비용이 매우 높다. 대규모 학습 데이터가 존재하지 않아 파운데이션 모델 수준의 일반화를 달성한 연구가 없었다.
2. 핵심 아이디어
세 가지 기여가 맞물린다.
① 대규모 파노라마 데이터셋 (DAP-2M)
2M+ 샘플로 구성된 파노라마 데이터셋을 구축한다. 단순히 데이터를 모으는 것이 아니라, 레이블이 없는 대량의 웹 이미지와 생성 이미지를 수도 레이블로 변환하는 파이프라인을 설계해 규모를 확장했다.
② 3단계 수도 레이블 파이프라인
합성-실제 간 도메인 갭, 실내-실외 간 거리 범위 차이를 단계적으로 브리징하는 학습 파이프라인. 품질 낮은 수도 레이블이 학습에 악영향을 주는 것을 막기 위해 PatchGAN 기반 판별기로 고신뢰도 샘플만 선별한다.
③ 플러그앤플레이 레인지 마스크 헤드
실내/실외의 깊이 범위가 크게 다른 문제를 해결하기 위해, 거리 임계값(range threshold)을 예측하는 보조 헤드를 추가한다. 이 헤드는 scene의 깊이 범위를 먼저 분류한 뒤, 해당 정보를 metric 깊이 예측에 반영한다. 기존 아키텍처에 독립적으로 추가 가능한 플러그앤플레이 방식이다.
3. 데이터셋 구축: DAP-2M
데이터 구성

| 소스 | 실내/실외 | GT 레이블 | 샘플 수 |
|---|---|---|---|
| Structured3D | 실내 | ✓ | 18,298 |
| UE5 합성 (DAP-2M-Labeled) | 실외 | ✓ | ~90,000 |
| 웹/DiT360 생성 (DAP-2M-Unlabeled) | 실내+실외 | ✗ | ~1.9M |
| 합계 | ~2.1M |
레이블 데이터 (108K):
- Structured3D: 실내 합성 데이터. pixel-level 깊이 GT 제공.
- UE5 합성 야외: Unreal Engine 5 시뮬레이터로 렌더링한 야외 파노라마. 실내 GT만 있던 Structured3D의 야외 부재를 보완.
비레이블 데이터 (1.9M):
- 웹 수집 실제 파노라마: 인터넷에서 수집한 실제 360도 이미지
- DiT360 생성 파노라마: 텍스트-이미지 생성 모델로 생성한 다양한 장면의 파노라마
3단계 수도 레이블 파이프라인

Stage 1 — Scene-Invariant Labeler (장면 불변 레이블러)
- 학습 데이터: UE5 합성 실내 20K + 합성 야외 90K (총 110K, 모두 GT 레이블)
- 목적: 실내/실외 장면에 무관하게 안정적인 깊이를 예측할 수 있는 기초 모델 학습
- 결과: 합성 데이터 기반으로 강한 장면 일반화, 하지만 실제 이미지와 도메인 갭 존재
Stage 2 — Realism-Invariant Labeler (현실성 불변 레이블러)
- Stage 1 모델로 1.9M 비레이블 이미지에 수도 레이블 생성
- PatchGAN 기반 판별기: 합성 도메인 vs. 실제 도메인을 구분하는 판별기 학습
- 판별기 신뢰도 점수가 높은 상위 샘플만 선별: 실내 300K + 실외 300K = 600K 고신뢰도 수도 레이블
- 저품질 수도 레이블이 학습에 섞이는 것을 원천 차단
Stage 3 — DAP 최종 학습
- 학습 데이터: 레이블 108K + 수도 레이블 600K + 추가 비레이블(자기지도) → 전체 2.1M
- Stage 2 모델을 초기화로 사용, 대규모 반지도 학습
- 최종 DAP 파운데이션 모델 완성
4. 아키텍처

백본: DINOv3-Large
강력한 비전 프리트레이닝 표현을 제공하는 DINOv3-Large를 인코더로 사용한다. 파노라마 이미지의 글로벌 구조와 지역적 세부를 동시에 포착하는 데 유리하다.
왜곡 인식 깊이 디코더 (Distortion-Aware Depth Decoder)
ERP 포맷의 기하 왜곡을 명시적으로 처리하는 디코더. 극점 근처의 픽셀이 실제로는 작은 입체각을 나타냄에도 이미지상 넓게 펼쳐지는 왜곡을 보정한다.
플러그앤플레이 레인지 마스크 헤드
핵심 기여 중 하나. “이 장면의 깊이 범위는 얼마인가?” 를 먼저 분류한 뒤, 그 정보를 깊이 예측에 반영한다.
- 레인지 마스크 M: 거리 임계값 τ를 기준으로 픽셀을 근거리/원거리로 이진 분류
- 임계값 τ 선택: 10m / 20m / 50m / 100m 중 실험적으로 100m가 최적
- 마스크 손실:
ℒ_mask = ||M - M_gt||² + 0.5·ℒ_Dice(M, M_gt) - 기존 아키텍처에 독립적으로 부착 가능 (플러그앤플레이)
5. 손실 함수
왜곡된 파노라마 이미지의 특성을 반영한 5종의 손실을 조합한다.
\[\mathcal{L}_{total} = M_{distort} \odot (\lambda_1 \mathcal{L}_{SILog} + \lambda_2 \mathcal{L}_{DF} + \lambda_3 \mathcal{L}_{grad} + \lambda_4 \mathcal{L}_{normal} + \lambda_5 \mathcal{L}_{pts} + \lambda_6 \mathcal{L}_{mask})\]M_distort: ERP 왜곡 가중치 맵. 극점 근처의 왜곡이 큰 픽셀에 낮은 가중치를 부여해, 왜곡이 심한 영역이 손실을 지배하는 것을 방지.
| 손실 | 가중치 | 역할 |
|---|---|---|
| ℒ_SILog | λ₁=1.0 | Scale-Invariant Log 손실. 전체적인 깊이 스케일 맞춤 |
| ℒ_DF | λ₂=0.4 | DF-Gram 손실. 12개 정이십면체 패치 단위로 깊이 분포 통계 매칭 (글로벌 기하 일관성) |
| ℒ_grad | λ₃=5.0 | Gradient 손실. 경계와 표면 전환점의 날카로움 보존 |
| ℒ_normal | λ₄=2.0 | Normal 손실. 깊이에서 유도한 표면 법선을 GT 법선과 매칭 (기하 정확도) |
| ℒ_pts | λ₅=2.0 | Point-Cloud 손실. 3D 포인트 클라우드 레벨에서의 유클리드 거리 최소화 |
| ℒ_mask | λ₆=2.0 | 레인지 마스크 헤드 지도 손실 |
ℒ_DF (DF-Gram) 상세: 구면을 12개 정이십면체 패치로 분할한 뒤, 각 패치의 깊이값 Gram 행렬을 GT와 비교한다. 이를 통해 ERP의 왜곡에 영향을 덜 받으면서 글로벌 기하 구조의 일관성을 강제한다.
\[\mathcal{L}_{DF} = \frac{1}{N}\sum_{k}\|D_{pred}^{(k)}\odot D_{pred}^{(k)T} - D_{gt}^{(k)}\odot D_{gt}^{(k)T}\|_F^2\]6. 학습 세부 설정
| 설정 | 값 |
|---|---|
| 입력 해상도 | 512×1024 (ERP) |
| 옵티마이저 | Adam |
| 백본 학습률 | 5e-6 |
| 디코더 학습률 | 5e-5 |
| 학습 하드웨어 | NVIDIA H20 GPU |
| 데이터 증강 | Color jittering, 수평 이동, 좌우 반전 |
7. 실험 결과
제로샷 벤치마크 (Table 3)

Stanford2D3D (실내, 학습 미포함):
| 방법 | AbsRel ↓ | RMSE ↓ | δ₁ ↑ |
|---|---|---|---|
| DepthAnything V2 | 0.1822 | 0.7340 | 0.7691 |
| UniDepth | 0.1654 | 0.6893 | 0.8012 |
| PanDA | 0.1135 | 0.4210 | 0.8901 |
| DAP | 0.0921 | 0.3820 | 0.9135 |
Matterport3D (실내, 학습 미포함):
| 방법 | AbsRel ↓ | RMSE ↓ | δ₁ ↑ |
|---|---|---|---|
| DAP | 0.1186 | 0.7510 | 0.8518 |
Deep360 (실외):
| 방법 | AbsRel ↓ | RMSE ↓ | δ₁ ↑ |
|---|---|---|---|
| DAP | 0.0659 | 5.224 | 0.9525 |
DAP-Test 자체 벤치마크 (Table 4)

| 방법 | AbsRel ↓ | RMSE ↓ | δ₁ ↑ |
|---|---|---|---|
| DAC | 0.3197 | 8.799 | 0.5193 |
| Unik3D | 0.2517 | 10.56 | 0.6086 |
| DAP | 0.0781 | 6.804 | 0.9370 |
DAP는 Unik3D 대비:
- AbsRel: 0.2517 → 0.0781 (69% 감소)
- RMSE: 10.56 → 6.804 (35.7% 감소)
- δ₁: 0.6086 → 0.9370 (53.8% 향상)
정성적 비교


8. 어블레이션
구성 요소 분석 (Table 5)

| 왜곡 인식 | 기하 일관성 | 선명도 | Stanford AbsRel ↓ | Stanford δ₁ ↑ | Deep360 AbsRel ↓ | Deep360 δ₁ ↑ |
|---|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | 0.1166 | 0.8409 | 0.0942 | 0.8396 |
| ✓ | ✗ | ✗ | 0.1149 | 0.8440 | 0.0926 | 0.8423 |
| ✓ | ✓ | ✗ | 0.1112 | 0.8509 | 0.0880 | 0.8592 |
| ✓ | ✓ | ✓ | 0.1084 | 0.8576 | 0.0862 | 0.8719 |
각 요소의 역할:
- 왜곡 인식: M_distort 가중치맵으로 극점 왜곡 픽셀의 손실 영향 감소
- 기하 일관성: ℒ_DF (DF-Gram), ℒ_normal, ℒ_pts 손실로 3D 구조 정확도 향상
- 선명도: ℒ_grad 손실로 물체 경계 및 표면 전환점의 예리함 강화
레인지 마스크 임계값 분석 (Table 6)

| 임계값 τ | DAP-2M AbsRel ↓ | DAP-2M δ₁ ↑ | Deep360 AbsRel ↓ | Deep360 δ₁ ↑ |
|---|---|---|---|---|
| 10m | 0.0801 | 0.9315 | 0.0934 | 0.8493 |
| 20m | 0.0823 | 0.9164 | 0.0873 | 0.8668 |
| 50m | 0.0864 | 0.9104 | 0.0843 | 0.8594 |
| 100m | 0.0793 | 0.9353 | 0.0862 | 0.8719 |
| None | 0.0832 | 0.9042 | 0.0938 | 0.8411 |
100m 임계값의 의미: 실내(~10m 이하)와 대규모 야외 장면(수백m)을 실용적으로 구분하는 경계가 100m임을 실험적으로 발견. 너무 낮은 임계값(10m, 20m)은 야외 중거리 장면을 올바르게 분류하지 못하고, 임계값이 없는 경우보다 100m가 항상 우수하다.
9. 기존 방법과의 비교
| 항목 | 핀홀 깊이 모델 (DAV2 등) | 파노라마 전용 (PanDA 등) | DAP |
|---|---|---|---|
| 파노라마 기하 처리 | ✗ (핀홀 가정) | ✓ | ✓ (왜곡 인식) |
| Metric 깊이 | △ (상대적) | △ | ✓ (metric 절대값) |
| 실내/실외 동시 지원 | △ | ✗ (주로 실내) | ✓ |
| 학습 데이터 규모 | 대규모 (핀홀) | 소규모 | 2M+ 파노라마 |
| 제로샷 일반화 | 낮음 | 중간 | 높음 |
| 레인지 적응 | ✗ | ✗ | ✓ (마스크 헤드) |
10. 한계점
- 수도 레이블 오류 전파: 3단계 파이프라인은 Stage 1의 품질에 의존. 초기 레이블러 오류가 후속 단계로 누적될 수 있다.
- 극점 왜곡: M_distort로 완화했지만, 극점 근처의 심각한 왜곡 영역에서는 여전히 품질 저하 가능.
- 고해상도 처리 비용: 512×1024 입력 기준 설계. 더 높은 해상도 파노라마 처리 시 메모리·속도 부담.
- 실제 야외 GT 부재: 야외 학습 데이터 중 GT 레이블은 모두 UE5 합성 기반. 실제 야외 LiDAR GT로 검증이 제한적.
11. 정리
DAP는 파노라마 깊이 추정 분야에 파운데이션 모델 패러다임을 처음으로 성공적으로 도입한 논문이다. 핵심 메시지:
“데이터 규모 + 도메인 브리징 파이프라인 + 파노라마 특화 설계 = 실내외 범용 metric 깊이”
기존 핀홀 기반 깊이 모델들이 파노라마에 그대로 적용 불가능하고, 파노라마 전용 모델들은 특정 환경(주로 실내)에 과적합되었던 문제를 2M+ 규모의 다양한 데이터와 단계적 수도 레이블 파이프라인으로 극복했다. 레인지 마스크 헤드는 실내외의 깊이 범위 차이를 우아하게 해결하는 실용적 아이디어다.
Insta360이라는 360도 카메라 하드웨어 기업이 주도했다는 점에서, 실제 제품 적용을 염두에 둔 실용적 연구라는 점도 주목할 만하다.