[논문리뷰] UST-Hand: Uncertainty-aware Spatiotemporal Point Cloud for Self-supervised 3D Hand Pose Estimation (CVPR 2026)

논문: UST-Hand: An Uncertainty-aware Spatiotemporal Point Cloud Interaction Network for 3D Self-supervised Hand Pose Estimation
학회: CVPR 2026
저자: Tianhao Han, Haoyang Zhang, Liang Xie, Haochen Chang, Kun Gao, Yuan Cheng, Pengfei Ren, Erwei Yin
arXiv: 2605.17742

한 줄 요약

Conditional Normalizing Flow로 손 포즈 분포를 모델링하고 다수의 가설을 확률론적 포인트 클라우드 공간에 투영해 시공간 상호작용을 수행하는 자기지도 3D 손 포즈 추정 프레임워크. HanCo에서 기존 최고 대비 37.8% MPVPE 향상.

ust-hand-fig1

Figure 1: UST-Hand 전체 프레임워크. Stage 1에서 Conditional Normalizing Flow로 다수의 2D 가설을 생성하고, Stage 2에서 이를 확률론적 포인트 클라우드 공간으로 들어올려 Spatiotemporal Point Transformer(STPT)로 정제한다.

1. 배경과 문제 정의

자기지도 3D 손 포즈 추정의 어려움

수동 3D 어노테이션은 비용이 매우 높기 때문에, 레이블 없이 멀티뷰 카메라 정보만 활용하는 자기지도(self-supervised) 방법이 실용적인 대안으로 연구되어 왔습니다. 그러나 기존 자기지도 접근들은 두 가지 구조적 한계를 공유합니다.

① 노이즈 의사 레이블(Pseudo-label) 취약성

자기지도 학습은 외부 2D 검출기(OpenPose 등)나 멀티뷰 삼각측량에서 의사 레이블을 생성해 지도 신호로 사용합니다. 그러나 이 의사 레이블에는 검출 오류, 가림(occlusion), 반사 등 다양한 원인의 노이즈가 포함되어 있습니다. 기존 방법들은 하나의 결정론적 예측만 생성하기 때문에 이런 노이즈에 취약합니다.

② 공간적 상관관계 미활용

손 관절은 해부학적으로 강한 공간적 구조를 가지며, 멀티뷰 카메라 배치는 3D 구조에 대한 보완적 정보를 제공합니다. 하지만 기존 방법들은 이 뷰 간 공간적 상관관계와 시간적 연속성을 충분히 활용하지 못했습니다.

UST-Hand의 핵심 질문

“불확실성 분포 추정과 시공간 포인트 클라우드 상호작용을 결합하면, 노이즈가 있는 의사 레이블 환경에서도 안정적인 3D 손 포즈 추정이 가능한가?”

2. 핵심 아이디어

UST-Hand는 두 단계 파이프라인으로 구성됩니다.

Stage 1: 확률론적 2D 다중 가설 생성

단일 결정론적 예측 대신, Conditional Normalizing Flow(RealNVP)로 가능한 손 포즈 분포를 모델링하고 다수의 2D 관절 위치 가설을 샘플링합니다. 신뢰도 기반 특징 상호작용으로 뷰 간 정보를 교환하고, 불확실성이 높은 관절의 영향을 억제합니다.

Stage 2: 3D 포인트 클라우드 시공간 상호작용

Stage 1의 다중 가설을 신뢰도 가중 삼각측량으로 확률론적 3D 포인트 클라우드 공간에 투영합니다. Spatiotemporal Point Transformer(STPT)가 공간적·시간적 어텐션으로 이 분포를 정제해 최종 손 포즈를 추출합니다.

3. Stage 1: 확률론적 2D 다중 가설 생성

3.1 히트맵 기반 관절 추정

ResNet34 백본이 다중 레벨 특징 맵을 출력하고, 가중 히트맵 합산으로 2D 관절 위치와 신뢰도 점수를 함께 추정합니다.

\[\mathcal{J}_{hm}^{2D} = \sum_{p \in \Omega} p \cdot \mathcal{H}_{pred}(p), \quad c = \max_{p \in \Omega} \mathcal{H}_{pred}(p)\]

신뢰도 점수 \(c\)는 히트맵의 피크 값으로, 해당 관절 예측의 신뢰도를 직접 반영합니다.

3.2 신뢰도 인식 특징 상호작용

각 관절에 대해 두 종류의 특징을 추출하고 융합합니다.

공간 인식 관절 특징: 관절 주변 공간 컨텍스트 포함
관절 정렬 로컬 특징: 히트맵으로부터 추출한 위치 정렬 특징

두 특징을 융합한 뒤 신뢰도 인식 자기 어텐션(CASA)으로 뷰 내 관절 간 상호작용을 수행합니다. CASA는 신뢰도가 낮은 관절의 영향력을 억제하여 노이즈 레이블에 대한 강건성을 높입니다.

뷰 간 상호작용은 적응형 그래프 합성곱 네트워크(Adaptive-GCN)으로 처리합니다. 고정 그래프 구조 없이 관절 간 의존 관계를 학습 데이터로부터 동적으로 추론합니다.

ust-hand-fig2

Figure 2: 신뢰도 점수와 2D 관절 오류 간의 상관관계. 신뢰도가 낮을수록 실제 오류가 크게 나타나, UST-Hand의 신뢰도 추정이 의미 있는 불확실성 지표임을 확인할 수 있다.

3.3 불확실성 인식 다중 가설 생성

Conditional Normalizing Flow (RealNVP)를 사용해 손 포즈의 사후 분포를 모델링합니다.

\[\mathbf{x} = f_\theta(\mathbf{z}; \mathbf{F}_{fuse})\]

여기서 \(\mathbf{z} \sim \mathcal{N}(0, I)\)는 표준 정규 사전 분포에서 샘플링되고, \(f_\theta\)는 융합 특징 \(\mathbf{F}_{fuse}\)를 조건으로 하는 가역 변환입니다.

학습 시 음의 로그 우도(NLL) 손실로 분포 파라미터를 학습합니다:

\[\mathcal{L}_{nll} = -\log \hat{p}(\mathbf{x} | \mathbf{F}_{fuse})\]

추론 시에는 \(M\)개의 다양한 가설과 1개의 최빈값(mode) 인스턴스를 샘플링합니다. 이 다양한 가설 집합이 손 포즈 불확실성의 분포적 표현을 구성합니다.

4. Stage 2: 3D 포인트 클라우드 시공간 상호작용

4.1 통합 확률론적 포인트 클라우드 공간

Stage 1에서 생성된 2D 가설들을 신뢰도 가중 DLT(Direct Linear Transform) 삼각측량으로 3D 공간에 투영합니다.

두 종류의 포인트 클라우드를 구성합니다.

앵커 포인트 클라우드: 다중 가설의 무작위 샘플에서 구성. 불확실성 분포를 보존
쿼리 포인트 클라우드: 최빈값(mode) 인스턴스에서 구성. 정제의 기준점

각 포인트의 특징은 모든 뷰의 히트맵에서 쌍선형 보간(bilinear interpolation)으로 추출·융합됩니다. 이 설계 덕분에 분포의 다양성과 정밀도의 기준점이 동시에 유지됩니다.

4.2 Spatiotemporal Point Transformer (STPT)

STPT는 세 종류의 어텐션을 결합해 포인트 클라우드를 정제합니다.

공간 어텐션 (Spatial Attention)
k-최근접 이웃(k-NN)으로 각 포인트의 이웃을 정의하고, 포인트 간 기하학적 관계를 모델링합니다.

\[\mathbf{f}_i^{spatial} = \sum_{j \in \mathcal{N}(i)} \alpha_{ij} \cdot \phi(\mathbf{f}_j + \delta_{ij})\]

여기서 \(\delta_{ij}\)는 두 포인트 간의 상대 위치 임베딩입니다.

시간 어텐션 (Temporal Attention)
연속된 프레임에 걸쳐 손의 움직임을 모델링합니다. 학습 가능한 위치 임베딩으로 각 프레임의 시간적 위치를 인코딩하고, 시간축 어텐션으로 프레임 간 대응을 확립합니다.

\[\mathbf{f}_t^{temporal} = \sum_{t'} \beta_{tt'} \cdot \psi(\mathbf{f}_{t'} + \epsilon_{tt'})\]

실험에서 시간 어텐션의 제거가 STPT 구성 요소 중 가장 큰 성능 저하를 유발하며, 시간적 일관성이 3D 포즈 정확도에 핵심적임을 보입니다.

크로스 어텐션 (Cross-Attention)
쿼리 포인트 클라우드와 앵커 포인트 클라우드 간의 대응을 학습합니다. 쿼리가 앵커의 분포 정보를 활용해 자신의 예측을 정제합니다.

K번의 반복 정제(iterative refinement)를 통해 포즈가 점진적으로 향상됩니다.

5. 손실 함수

총 손실은 네 항목의 가중 합입니다.

\[\mathcal{L} = \lambda_0 \mathcal{L}_{hmap} + \lambda_1 \mathcal{L}_{hm2d} + \lambda_2 \mathcal{L}_{nll} + \lambda_3 \mathcal{L}_{proj2d}\]

손실	수식	가중치
\(\mathcal{L}_{hmap}\)	MSE 히트맵 손실	\(\lambda_0 = 0.001\)
\(\mathcal{L}_{hm2d}\)	2D 관절 위치 손실	\(\lambda_1 = 10\)
\(\mathcal{L}_{nll}\)	NLL 분포 손실	\(\lambda_2 = 0.1\)
\(\mathcal{L}_{proj2d}\)	신뢰도 가중 2D 재투영 손실	\(\lambda_3 = 10\)

\(\mathcal{L}_{proj2d}\)는 3D 예측을 각 뷰에 재투영하고, 신뢰도가 높은 예측에 더 큰 페널티를 부과하는 방식으로 자기지도 학습의 핵심 지도 신호를 구성합니다.

6. 실험 결과

주요 비교 결과 (Table 1)

ust-hand-tab1

Table 1: 세 데이터셋(HanCo, DexYCB-MV, OakInk-MV)에서의 정량 비교. MPVPE, PA-V, MPJPE, AUC-V 지표. UST-Hand가 기존 자기지도 방법인 HaMuCo를 모든 데이터셋에서 크게 능가한다.

UST-Hand는 세 데이터셋 모두에서 기존 자기지도 최고 성능을 갱신합니다.

희소 뷰 강건성 (Table 2)

ust-hand-tab2

Table 2: HanCo 데이터셋에서 카메라 수(2/4/6/8뷰) 변화에 따른 MPJPE 비교. UST-Hand는 뷰 수가 줄어도 HaMuCo 대비 일관되게 우수한 성능을 유지한다.

카메라 수를 2개로 줄여도 UST-Hand는 HaMuCo의 8뷰 성능에 근접하는 강건성을 보입니다.

ust-hand-fig3

Figure 3: 카메라 수에 따른 평균 2D 픽셀 오류 곡선. UST-Hand가 HaMuCo 대비 전 구간에서 일관되게 낮은 오류를 기록하며, 특히 뷰 수가 적을 때 격차가 크다.

의사 레이블 품질 강건성 (Table 3)

ust-hand-tab3

Table 3: HanCo에서 다양한 의사 레이블 품질(OpenPose, WiLoR, GT 2D)에 따른 MPJPE 비교. UST-Hand는 노이즈 많은 의사 레이블에서도 HaMuCo 대비 큰 폭으로 우수하다.

의사 레이블 품질이 저하되는 환경에서 UST-Hand의 강건성이 두드러집니다.

흥미롭게도 의사 레이블이 완벽할수록 UST-Hand의 상대적 이점이 커집니다. 불확실성 모델링이 노이즈 보정에만 그치지 않고 분포 표현력 자체를 향상시키기 때문입니다.

7. 어블레이션 연구

컴포넌트 기여 분석 (Table 4)

ust-hand-tab4

Table 4: DexYCB-MV에서 각 컴포넌트 제거 실험. 히트맵 모듈, 투영 융합, STPT의 각 요소(공간/시간/크로스 어텐션) 기여를 분리 분석한다.

시간 어텐션 제거가 가장 큰 성능 저하를 유발합니다. 손 움직임의 시간적 일관성이 3D 포즈 정확도에 핵심적입니다.

하이퍼파라미터 분석 (Table 5)

ust-hand-tab5

Table 5: 시간 윈도우 길이, STPT 블록 수, 카메라 수에 따른 MPVPE. 최적 구성은 5-프레임 윈도우, 4개 STPT 블록이다.

시간 윈도우: 5프레임에서 최적 (HanCo MPVPE 5.82mm)
STPT 블록: 4개에서 최적
카메라 수 (DexYCB): 2뷰(10.90mm) → 8뷰(8.16mm), 선형 향상

8. 정성적 결과

ust-hand-fig4

Figure 4: 2D 키포인트 시각화 비교. 오프라인 검출기(OpenPose), HaMuCo, UST-Hand의 2D 관절 예측을 비교한다. UST-Hand가 가림(occlusion)과 경계 조건에서도 더 정확한 관절 위치를 추정한다.

ust-hand-fig5

Figure 5: 세 데이터셋(HanCo, DexYCB-MV, OakInk-MV)에서의 3D 메시 시각화. UST-Hand가 물체와의 접촉, 손가락 자세 등 세밀한 구조를 더 잘 재건한다.

ust-hand-fig6

Figure 6: HanCo 데이터셋 정성적 비교. 각 멀티뷰에서의 2D 및 3D 예측 결과. UST-Hand가 다중 카메라 뷰 전반에서 기하학적으로 일관된 예측을 생성한다.

ust-hand-fig7

Figure 7: DexYCB-MV 데이터셋 정성적 비교. 손-물체 상호작용 장면에서 UST-Hand가 HaMuCo 대비 더 정확한 손 포즈를 추정한다.

ust-hand-fig8

Figure 8: OakInk-MV 데이터셋 정성적 비교. 다양한 도구를 파지하는 장면에서도 일관된 3D 손 포즈 추정 품질을 보인다.

9. 구현 세부사항

백본: ResNet34 (ImageNet 사전학습)
학습: 30 에폭, 배치 크기 8, 학습률 \(3 \times 10^{-4}\)
하드웨어: NVIDIA RTX 4090 24GB × 2
시간 처리: 5프레임 슬라이딩 윈도우, 스트라이드 1
데이터 증강: 중심 오프셋(±5%), 스케일(±6%), 컬러 지터(±30%), 회전(±10°)

10. 데이터셋

데이터셋	학습 샘플	카메라 수	특징
HanCo	107,538 인스턴스	8뷰 동기화	5Hz, 시간 정보 풍부
DexYCB-MV	25,387 샘플	8뷰	손-물체 상호작용
OakInk-MV	58,692 샘플	4뷰	다양한 도구 파지

11. HaMuCo와의 비교

UST-Hand의 주요 비교 대상은 기존 자기지도 SOTA인 HaMuCo입니다.

항목	HaMuCo	UST-Hand
불확실성 모델링	없음 (결정론적)	Conditional Normalizing Flow
가설 수	1	M 가설 + 1 최빈값
포인트 클라우드	없음	앵커 + 쿼리 이중 포인트 클라우드
시간 정보	제한적	Temporal Attention (STPT)
HanCo MPVPE	9.35mm	5.82mm (37.8% 향상)
희소 뷰 강건성	낮음	높음
노이즈 레이블 강건성	낮음	높음

12. 정리

UST-Hand의 핵심 통찰은 불확실성을 피할 게 아니라 명시적으로 모델링하고 활용하라는 것입니다.

“노이즈 있는 의사 레이블 환경에서 단일 예측은 취약하다. 분포를 모델링하고, 그 분포를 공간에 펼쳐 시공간 상호작용하면 견고해진다.”

세 가지 기여가 맞물립니다.

Conditional Normalizing Flow: 결정론적 예측 대신 분포를 학습. 노이즈에 확률론적으로 대응
확률론적 포인트 클라우드: 분포의 다양성(앵커)과 정밀도의 기준점(쿼리)을 동시에 3D 공간에 표현
STPT: 공간(k-NN) + 시간(프레임 간) + 크로스(앵커↔쿼리) 어텐션으로 포즈를 반복 정제

HanCo에서 37.8%, OakInk-MV에서 23.2%, DexYCB-MV에서 14.5%의 MPVPE 향상은 이 접근법의 실용적 가치를 뒷받침합니다.