[논문리뷰] UST-Hand: Uncertainty-aware Spatiotemporal Point Cloud for Self-supervised 3D Hand Pose Estimation (CVPR 2026)
논문: UST-Hand: An Uncertainty-aware Spatiotemporal Point Cloud Interaction Network for 3D Self-supervised Hand Pose Estimation
학회: CVPR 2026
저자: Tianhao Han, Haoyang Zhang, Liang Xie, Haochen Chang, Kun Gao, Yuan Cheng, Pengfei Ren, Erwei Yin
arXiv: 2605.17742
한 줄 요약
Conditional Normalizing Flow로 손 포즈 분포를 모델링하고 다수의 가설을 확률론적 포인트 클라우드 공간에 투영해 시공간 상호작용을 수행하는 자기지도 3D 손 포즈 추정 프레임워크. HanCo에서 기존 최고 대비 37.8% MPVPE 향상.

1. 배경과 문제 정의
자기지도 3D 손 포즈 추정의 어려움
수동 3D 어노테이션은 비용이 매우 높기 때문에, 레이블 없이 멀티뷰 카메라 정보만 활용하는 자기지도(self-supervised) 방법이 실용적인 대안으로 연구되어 왔다. 그러나 기존 자기지도 접근들은 두 가지 구조적 한계를 공유한다.
① 노이즈 의사 레이블(Pseudo-label) 취약성
자기지도 학습은 외부 2D 검출기(OpenPose 등)나 멀티뷰 삼각측량에서 의사 레이블을 생성해 지도 신호로 사용한다. 그러나 이 의사 레이블에는 검출 오류, 가림(occlusion), 반사 등 다양한 원인의 노이즈가 포함되어 있다. 기존 방법들은 하나의 결정론적 예측만 생성하기 때문에 이런 노이즈에 취약하다.
② 공간적 상관관계 미활용
손 관절은 해부학적으로 강한 공간적 구조를 가지며, 멀티뷰 카메라 배치는 3D 구조에 대한 보완적 정보를 제공한다. 하지만 기존 방법들은 이 뷰 간 공간적 상관관계와 시간적 연속성을 충분히 활용하지 못했다.
UST-Hand의 핵심 질문
“불확실성 분포 추정과 시공간 포인트 클라우드 상호작용을 결합하면, 노이즈가 있는 의사 레이블 환경에서도 안정적인 3D 손 포즈 추정이 가능한가?”
2. 핵심 아이디어
UST-Hand는 두 단계 파이프라인으로 구성된다.
Stage 1: 확률론적 2D 다중 가설 생성
단일 결정론적 예측 대신, Conditional Normalizing Flow(RealNVP)로 가능한 손 포즈 분포를 모델링하고 다수의 2D 관절 위치 가설을 샘플링한다. 신뢰도 기반 특징 상호작용으로 뷰 간 정보를 교환하고, 불확실성이 높은 관절의 영향을 억제한다.
Stage 2: 3D 포인트 클라우드 시공간 상호작용
Stage 1의 다중 가설을 신뢰도 가중 삼각측량으로 확률론적 3D 포인트 클라우드 공간에 투영한다. Spatiotemporal Point Transformer(STPT)가 공간적·시간적 어텐션으로 이 분포를 정제해 최종 손 포즈를 추출한다.
3. Stage 1: 확률론적 2D 다중 가설 생성
3.1 히트맵 기반 관절 추정
ResNet34 백본이 다중 레벨 특징 맵을 출력하고, 가중 히트맵 합산으로 2D 관절 위치와 신뢰도 점수를 함께 추정한다.
\[\mathcal{J}_{hm}^{2D} = \sum_{p \in \Omega} p \cdot \mathcal{H}_{pred}(p), \quad c = \max_{p \in \Omega} \mathcal{H}_{pred}(p)\]신뢰도 점수 \(c\)는 히트맵의 피크 값으로, 해당 관절 예측의 신뢰도를 직접 반영한다.
3.2 신뢰도 인식 특징 상호작용
각 관절에 대해 두 종류의 특징을 추출하고 융합한다.
- 공간 인식 관절 특징: 관절 주변 공간 컨텍스트 포함
- 관절 정렬 로컬 특징: 히트맵으로부터 추출한 위치 정렬 특징
두 특징을 융합한 뒤 신뢰도 인식 자기 어텐션(CASA)으로 뷰 내 관절 간 상호작용을 수행한다. CASA는 신뢰도가 낮은 관절의 영향력을 억제하여 노이즈 레이블에 대한 강건성을 높인다.
뷰 간 상호작용은 적응형 그래프 합성곱 네트워크(Adaptive-GCN)으로 처리한다. 고정 그래프 구조 없이 관절 간 의존 관계를 학습 데이터로부터 동적으로 추론한다.

3.3 불확실성 인식 다중 가설 생성
Conditional Normalizing Flow (RealNVP)를 사용해 손 포즈의 사후 분포를 모델링한다.
\[\mathbf{x} = f_\theta(\mathbf{z}; \mathbf{F}_{fuse})\]여기서 \(\mathbf{z} \sim \mathcal{N}(0, I)\)는 표준 정규 사전 분포에서 샘플링되고, \(f_\theta\)는 융합 특징 \(\mathbf{F}_{fuse}\)를 조건으로 하는 가역 변환이다.
학습 시 음의 로그 우도(NLL) 손실로 분포 파라미터를 학습한다:
\[\mathcal{L}_{nll} = -\log \hat{p}(\mathbf{x} | \mathbf{F}_{fuse})\]추론 시에는 \(M\)개의 다양한 가설과 1개의 최빈값(mode) 인스턴스를 샘플링한다. 이 다양한 가설 집합이 손 포즈 불확실성의 분포적 표현을 구성한다.
4. Stage 2: 3D 포인트 클라우드 시공간 상호작용
4.1 통합 확률론적 포인트 클라우드 공간
Stage 1에서 생성된 2D 가설들을 신뢰도 가중 DLT(Direct Linear Transform) 삼각측량으로 3D 공간에 투영한다.
두 종류의 포인트 클라우드를 구성한다.
- 앵커 포인트 클라우드: 다중 가설의 무작위 샘플에서 구성. 불확실성 분포를 보존
- 쿼리 포인트 클라우드: 최빈값(mode) 인스턴스에서 구성. 정제의 기준점
각 포인트의 특징은 모든 뷰의 히트맵에서 쌍선형 보간(bilinear interpolation)으로 추출·융합된다. 이 설계 덕분에 분포의 다양성과 정밀도의 기준점이 동시에 유지된다.
4.2 Spatiotemporal Point Transformer (STPT)
STPT는 세 종류의 어텐션을 결합해 포인트 클라우드를 정제한다.
공간 어텐션 (Spatial Attention)
k-최근접 이웃(k-NN)으로 각 포인트의 이웃을 정의하고, 포인트 간 기하학적 관계를 모델링한다.
여기서 \(\delta_{ij}\)는 두 포인트 간의 상대 위치 임베딩이다.
시간 어텐션 (Temporal Attention)
연속된 프레임에 걸쳐 손의 움직임을 모델링한다. 학습 가능한 위치 임베딩으로 각 프레임의 시간적 위치를 인코딩하고, 시간축 어텐션으로 프레임 간 대응을 확립한다.
실험에서 시간 어텐션의 제거가 STPT 구성 요소 중 가장 큰 성능 저하를 유발하며, 시간적 일관성이 3D 포즈 정확도에 핵심적임을 보인다.
크로스 어텐션 (Cross-Attention)
쿼리 포인트 클라우드와 앵커 포인트 클라우드 간의 대응을 학습한다. 쿼리가 앵커의 분포 정보를 활용해 자신의 예측을 정제한다.
K번의 반복 정제(iterative refinement)를 통해 포즈가 점진적으로 향상된다.
5. 손실 함수
총 손실은 네 항목의 가중 합이다.
\[\mathcal{L} = \lambda_0 \mathcal{L}_{hmap} + \lambda_1 \mathcal{L}_{hm2d} + \lambda_2 \mathcal{L}_{nll} + \lambda_3 \mathcal{L}_{proj2d}\]| 손실 | 수식 | 가중치 |
|---|---|---|
| \(\mathcal{L}_{hmap}\) | MSE 히트맵 손실 | \(\lambda_0 = 0.001\) |
| \(\mathcal{L}_{hm2d}\) | 2D 관절 위치 손실 | \(\lambda_1 = 10\) |
| \(\mathcal{L}_{nll}\) | NLL 분포 손실 | \(\lambda_2 = 0.1\) |
| \(\mathcal{L}_{proj2d}\) | 신뢰도 가중 2D 재투영 손실 | \(\lambda_3 = 10\) |
\(\mathcal{L}_{proj2d}\)는 3D 예측을 각 뷰에 재투영하고, 신뢰도가 높은 예측에 더 큰 페널티를 부과하는 방식으로 자기지도 학습의 핵심 지도 신호를 구성한다.
6. 실험 결과
주요 비교 결과 (Table 1)

UST-Hand는 세 데이터셋 모두에서 기존 자기지도 최고 성능을 갱신한다.
| 데이터셋 | UST-Hand MPVPE | HaMuCo MPVPE | 향상 |
|---|---|---|---|
| HanCo (8뷰) | 5.82mm | 9.35mm | 37.8% |
| DexYCB-MV (8뷰) | 8.16mm | 9.54mm | 14.5% |
| OakInk-MV (4뷰) | 10.02mm | 13.04mm | 23.2% |
희소 뷰 강건성 (Table 2)

카메라 수를 2개로 줄여도 UST-Hand는 HaMuCo의 8뷰 성능에 근접하는 강건성을 보인다.
| 뷰 수 | UST-Hand MPJPE | HaMuCo MPJPE |
|---|---|---|
| 2뷰 | 7.18mm | 10.14mm |
| 4뷰 | 6.01mm | 9.60mm |
| 6뷰 | 5.67mm | 8.92mm |
| 8뷰 | 5.38mm | 8.73mm |

의사 레이블 품질 강건성 (Table 3)

의사 레이블 품질이 저하되는 환경에서 UST-Hand의 강건성이 두드러진다.
| 의사 레이블 | UST-Hand MPJPE | HaMuCo MPJPE | 향상 |
|---|---|---|---|
| OpenPose (노이즈 많음) | — | — | 14.8% 우세 |
| WiLoR (중간) | 5.2mm | — | 26.4% 우세 |
| GT 2D (완벽) | 3.7mm | — | 38.3% 우세 |
흥미롭게도 의사 레이블이 완벽할수록 UST-Hand의 상대적 이점이 커진다. 불확실성 모델링이 노이즈 보정에만 그치지 않고 분포 표현력 자체를 향상시키기 때문이다.
7. 어블레이션 연구
컴포넌트 기여 분석 (Table 4)

| 제거 항목 | MPVPE (DexYCB) | 저하 |
|---|---|---|
| Full model | 8.16mm | — |
| w/o 히트맵 모듈 | +0.84~1.41mm | 10.3~17.3% |
| w/o 투영 융합 | +0.32~0.54mm | 3.9~6.6% |
| w/o STPT | +0.33~0.61mm | 4.0~7.5% |
| w/o GCN | 8.22mm | +0.06mm |
| w/o CASA | 8.28mm | +0.12mm |
| w/o 공간 어텐션 | 8.46mm | +0.30mm |
| w/o 시간 어텐션 | 8.55mm | +0.39mm (최대) |
| w/o 크로스 어텐션 | 8.50mm | +0.34mm |
시간 어텐션 제거가 가장 큰 성능 저하를 유발한다. 손 움직임의 시간적 일관성이 3D 포즈 정확도에 핵심적이다.
하이퍼파라미터 분석 (Table 5)

- 시간 윈도우: 5프레임에서 최적 (HanCo MPVPE 5.82mm)
- STPT 블록: 4개에서 최적
- 카메라 수 (DexYCB): 2뷰(10.90mm) → 8뷰(8.16mm), 선형 향상
8. 정성적 결과





9. 구현 세부사항
- 백본: ResNet34 (ImageNet 사전학습)
- 학습: 30 에폭, 배치 크기 8, 학습률 \(3 \times 10^{-4}\)
- 하드웨어: NVIDIA RTX 4090 24GB × 2
- 시간 처리: 5프레임 슬라이딩 윈도우, 스트라이드 1
- 데이터 증강: 중심 오프셋(±5%), 스케일(±6%), 컬러 지터(±30%), 회전(±10°)
10. 데이터셋
| 데이터셋 | 학습 샘플 | 카메라 수 | 특징 |
|---|---|---|---|
| HanCo | 107,538 인스턴스 | 8뷰 동기화 | 5Hz, 시간 정보 풍부 |
| DexYCB-MV | 25,387 샘플 | 8뷰 | 손-물체 상호작용 |
| OakInk-MV | 58,692 샘플 | 4뷰 | 다양한 도구 파지 |
11. HaMuCo와의 비교
UST-Hand의 주요 비교 대상은 기존 자기지도 SOTA인 HaMuCo다.
| 항목 | HaMuCo | UST-Hand |
|---|---|---|
| 불확실성 모델링 | 없음 (결정론적) | Conditional Normalizing Flow |
| 가설 수 | 1 | M 가설 + 1 최빈값 |
| 포인트 클라우드 | 없음 | 앵커 + 쿼리 이중 포인트 클라우드 |
| 시간 정보 | 제한적 | Temporal Attention (STPT) |
| HanCo MPVPE | 9.35mm | 5.82mm (37.8% 향상) |
| 희소 뷰 강건성 | 낮음 | 높음 |
| 노이즈 레이블 강건성 | 낮음 | 높음 |
12. 정리
UST-Hand의 핵심 통찰은 불확실성을 피할 게 아니라 명시적으로 모델링하고 활용하라는 것이다.
“노이즈 있는 의사 레이블 환경에서 단일 예측은 취약하다. 분포를 모델링하고, 그 분포를 공간에 펼쳐 시공간 상호작용하면 견고해진다.”
세 가지 기여가 맞물린다.
- Conditional Normalizing Flow: 결정론적 예측 대신 분포를 학습. 노이즈에 확률론적으로 대응
- 확률론적 포인트 클라우드: 분포의 다양성(앵커)과 정밀도의 기준점(쿼리)을 동시에 3D 공간에 표현
- STPT: 공간(k-NN) + 시간(프레임 간) + 크로스(앵커↔쿼리) 어텐션으로 포즈를 반복 정제
HanCo에서 37.8%, OakInk-MV에서 23.2%, DexYCB-MV에서 14.5%의 MPVPE 향상은 이 접근법의 실용적 가치를 뒷받침한다.