[논문리뷰] HaMeR: Reconstructing Hands in 3D with Transformers (CVPR 2024)
논문: Reconstructing Hands in 3D with Transformers
학회: CVPR 2024
저자: Georgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa, David Fouhey, Jitendra Malik
소속: UC Berkeley, NYU
arXiv: 2312.05251
GitHub: geopavlakos/hamer
한 줄 요약
ViT-H 백본과 Transformer 디코더로 구성된 완전 트랜스포머 기반 3D 손 메시 복원 모델로, 270만 개 학습 데이터와 새로운 in-the-wild 벤치마크(HInt)를 통해 실제 환경에서의 일반화 성능을 기존 대비 2–3배 향상.
1. 배경과 문제 정의
단안 3D 손 재건 (Monocular 3D Hand Mesh Recovery)
단일 RGB 이미지에서 손의 3D 형태와 포즈를 추정하는 문제다. 완성된 손 메시는 AR/VR, 인간-컴퓨터 상호작용, 로보틱스, 의료 분석 등 다양한 응용 분야에서 핵심 입력으로 활용된다.
기존 방법들이 공통적으로 겪는 문제:
- 취약한 CNN 백본: 제한된 수용 영역과 归납적 편향으로 in-the-wild 일반화 실패
- 소규모 스튜디오 데이터: 통제된 환경에서 수집된 소량 데이터로 학습 → 실제 환경 미반영
- 폐색 및 상호작용 처리 불가: 손-손, 손-물체 상호작용, 극단적 폐색 상황에서 성능 급락
- 제한적 다양성: 특정 피부색, 조명, 시점에만 강건
스케일링의 철학
HaMeR가 제안하는 접근 방식의 핵심은 단순하다.
“최근 컴퓨터 비전과 NLP의 발전은 대용량 데이터로 훈련된 단순하고 고용량 모델이 진보를 이끈다는 방향을 제시한다.”
즉, 복잡한 아키텍처 설계나 도메인 특화 귀납 편향 대신, 모델 규모와 데이터 규모를 동시에 키우는 것이 3D 손 재건에서도 통한다는 가설을 검증한다.
2. 출력 표현: MANO 손 모델
HaMeR는 파라메트릭 손 모델인 MANO를 출력 공간으로 사용한다.
MANO 파라미터:
- 포즈 \(\theta \in \mathbb{R}^{48}\): 손가락 관절 회전 (PCA 기반)
- 형태 \(\beta \in \mathbb{R}^{10}\): 개인별 손 형태 변수
- 카메라 \(\pi\): weak-perspective 카메라 이동
최종 출력 \(\Theta = \{\theta, \beta, \pi\}\)로부터 778개 꼭짓점 메시와 21개 관절 위치가 결정론적으로 계산된다.
MANO를 출력으로 사용하는 이유는 두 가지다. 첫째, 컴팩트한 파라미터 공간이 학습을 용이하게 한다. 둘째, 물리적으로 타당한 손 형태만 생성된다.
3. 아키텍처
전체 파이프라인
단일 RGB 이미지 (손 바운딩 박스 크롭)
→ ViT-H 이미지 인코더 → 패치 토큰 시퀀스
→ Transformer 디코더 (단일 쿼리 토큰, 전체 패치 토큰에 cross-attention)
→ MANO 파라미터 회귀 (θ, β, π)
→ MANO 레이어 → 3D 메시 + 관절 좌표
Vision Transformer Huge (ViT-H) 백본
- 이미지를 고정 크기 패치로 분할하여 토큰 시퀀스 생성
- 전역 self-attention으로 이미지 전체 맥락을 동시에 파악
- ImageNet-21K 사전학습 가중치에서 fine-tuning
CNN 기반 백본 대비 ViT-H의 핵심 장점은 전역 수용 영역이다. 첫 번째 레이어부터 이미지 전체를 참조할 수 있어 폐색이나 가려진 영역의 손 형태를 추론하는 데 유리하다.
Transformer 디코더 헤드
단일 쿼리 토큰이 ViT-H의 모든 출력 패치 토큰에 cross-attention을 수행한다. 쿼리 토큰이 전체 이미지 정보를 집약하여 MANO 파라미터를 회귀한다.
이 설계의 핵심은 단순성이다. 복잡한 다단계 회귀나 반복적 개선 과정 없이, 단일 포워드 패스로 최종 출력을 생성한다.
4. 손실 함수
세 가지 손실을 함께 최적화한다.
3D 손실 (3D GT가 있는 데이터셋)
\[\mathcal{L}_{3D} = \|\theta - \theta^*\|_2^2 + \|\beta - \beta^*\|_2^2 + \|X - X^*\|_1\]포즈와 형태 파라미터 L2 오차에 더해, 실제 3D 관절 좌표 L1 오차를 감독 신호로 사용한다.
2D 재투영 손실
\[\mathcal{L}_{2D} = \|x - x^*\|_1\]예측된 3D 관절을 이미지 평면에 투영한 2D 좌표와 정답 2D 키포인트 간의 L1 오차. 3D GT 없이 2D 어노테이션만 가진 데이터셋에서도 학습 가능하게 한다.
적대적 손실 (2D 전용 데이터용)
\[\mathcal{L}_{adv} = \sum_k (D_k(\Theta) - 1)^2\]세 종류의 판별자(Discriminator)를 사용한다:
- 전체 형태 판별자: 전체 MANO 파라미터가 자연스러운 손인지 판별
- 전체 포즈 판별자: 전체 손 포즈의 자연스러움 판별
- 개별 관절 판별자: 각 손가락 관절 각도의 자연스러움 판별
적대적 손실은 3D GT 없이 2D 어노테이션으로만 학습할 때 발생하는 비현실적 손 포즈를 억제하는 역할을 한다.
5. 학습 데이터 스케일링
2.7M 학습 예제
기존 FrankMocap 대비 4배 규모. 10개 이종 데이터셋을 혼합하여 사용한다.
3D 어노테이션 보유 데이터셋:
| 데이터셋 | 특성 |
|---|---|
| FreiHAND | 스튜디오, 단일 손 |
| HO-3D | 손-물체 상호작용 |
| MTC (Panoptic Studio) | 다중 카메라 |
| RHD | 합성 데이터 |
| InterHand2.6M | 양손 상호작용 |
| H2O3D | 손-물체 상호작용 |
| DexYCB | 손-물체 조작 |
2D 어노테이션 전용 데이터셋:
| 데이터셋 | 특성 |
|---|---|
| COCO WholeBody | 자연스러운 환경 |
| Halpe | 인물 사진 |
| MPII NZSL | 수화 |
2D 전용 데이터셋에 대해서는 3D 손실 없이 재투영 손실과 적대적 손실만 적용한다. 이를 통해 3D GT를 구하기 어려운 in-the-wild 데이터도 학습에 활용할 수 있다.
6. HInt 데이터셋: 새로운 In-the-Wild 벤치마크
기존 벤치마크의 한계
FreiHAND, HO3Dv2 같은 기존 벤치마크는 통제된 환경에서 수집된다. 실제 환경(에고센트릭 영상, 손-물체 상호작용, 다양한 조명)에서의 일반화 성능을 측정하기 어렵다.
HInt (Hand Interactions in the Wild)
40,400개 손 어노테이션으로 구성된 새로운 in-the-wild 벤치마크.
핵심 특징:
- 21개 관절의 2D 키포인트 + 폐색 레이블 제공 (최초)
- 전체 손의 86.7%가 접촉 상황
- 어노테이터 간 폐색 레이블 일치율 90.5%
- 가시 키포인트의 94.6%가 팜 길이의 0.25배 이내에서 어노테이터 간 일치
세 가지 소스:
| 소스 | 수량 | 특성 |
|---|---|---|
| Hands23 (New Days of Hands) | 12.0K | 제3자 시점, 자연스러운 환경 |
| Epic-Kitchens VISOR | 5.3K | 에고센트릭, 주방 환경 |
| Ego4D | 23.2K | 에고센트릭, 다양한 활동 |
폐색 레이블을 제공하는 최초의 대규모 in-the-wild 손 데이터셋이라는 점이 중요하다. 이를 통해 폐색 상황에서의 성능을 별도로 측정할 수 있다.
7. 실험 결과
FreiHAND 벤치마크 (Table 1)
| 방법 | PA-MPJPE (mm) ↓ | PA-MPVPE (mm) ↓ | F@5mm ↑ | F@15mm ↑ |
|---|---|---|---|---|
| I2L-MeshNet | 7.4 | 7.6 | 0.681 | 0.973 |
| MobRecon | 5.7 | 5.8 | 0.784 | 0.987 |
| HaMeR | 6.0 | 5.7 | 0.785 | 0.990 |
FreiHAND에서 HaMeR는 전반적으로 최고 수준 성능을 달성한다. 스튜디오 데이터에서는 기존 방법 대비 소폭 우위 혹은 동등 수준이다.
HO3Dv2 벤치마크 (Table 2)
| 방법 | AUCⱼ ↑ | PA-MPJPE (mm) ↓ | AUCᵥ ↑ |
|---|---|---|---|
| HandOccNet | 0.831 | 8.8 | — |
| AMVUR | 0.835 | 8.3 | 0.836 |
| HaMeR | 0.846 | 7.7 | 0.841 |
손-물체 상호작용이 포함된 HO3Dv2에서 모든 메트릭에서 최고 성능 달성.
HInt 벤치마크: PCK@0.05 (Table 3) — 핵심 결과
| 방법 | New Days | VISOR | Ego4D |
|---|---|---|---|
| FrankMocap | 16.1% | 16.8% | 13.1% |
| HandOccNet (param) | 9.1% | 8.1% | 7.7% |
| HaMeR | 48.0% | 43.0% | 38.9% |
HaMeR가 기존 최고 방법 대비 2–3배 향상. 이 결과가 HaMeR 논문의 가장 강력한 주장이다.
폐색 여부별 세분화 (VISOR 기준):
| 구분 | HaMeR |
|---|---|
| 가시 관절 전체 | 56.6% |
| 폐색 관절 전체 | 25.9% |
8. 어블레이션: 데이터 스케일 vs. 모델 스케일
독립 기여도와 시너지 효과 (Table 5)
| 구성 | 대용량 데이터 | 대용량 모델 | New Days | VISOR | Ego4D |
|---|---|---|---|---|---|
| FrankMocap | ✗ | ✗ | 16.1% | 16.8% | 13.1% |
| Base (ResNet50) | ✗ | ✗ | 16.9% | 17.5% | 13.9% |
| + 대용량 데이터만 | ✓ | ✗ | 31.3% | 29.9% | 24.7% |
| + 대용량 모델만 | ✗ | ✓ | 25.9% | 24.1% | 19.4% |
| HaMeR (둘 다) | ✓ | ✓ | 48.0% | 43.0% | 38.9% |
주목할 점: 대용량 데이터만 사용하면 +14.4%p, 대용량 모델만 사용하면 +9.8%p 향상되지만, 둘을 함께 사용하면 +31.1%p의 시너지 효과가 나타난다. 데이터 스케일과 모델 규모가 서로를 증폭시키는 관계임을 보여준다.
HInt 학습 데이터의 효과 (Table 4)
HInt의 학습 분할 데이터를 추가로 fine-tuning했을 때:
| 데이터셋 | HInt 미사용 | HInt 사용 | 개선 |
|---|---|---|---|
| VISOR (전체) | 43.0% | 56.5% | +13.5%p |
| VISOR (가시) | 56.6% | 66.5% | +9.9%p |
| VISOR (폐색) | 25.9% | 42.6% | +16.7%p |
| Ego4D (전체) | 38.9% | 46.9% | +8.0%p |
폐색 관절에 대한 향상 폭(+16.7%p)이 가시 관절(+9.9%p)보다 훨씬 크다. HInt의 폐색 레이블이 폐색 처리 능력 향상에 직접적으로 기여함을 보여준다.
9. 정성적 일반화 능력
HaMeR가 강건성을 보이는 시나리오:
- 에고센트릭 및 제3자 시점 영상
- 손-손, 손-물체 상호작용 및 폐색
- 모션 블러, 다양한 조명 환경
- 다양한 피부색
- 비표준 외관 (장갑, 로봇 손, 삽화 등)
- 시간적 스무딩 적용 없이도 비디오에서 부드러운 출력 (프레임 단위 추론)
10. 한계점
- 오탐지: 업스트림 손 검출기의 false positive가 전체 파이프라인에 영향
- 좌우 분류 오류: 손의 좌/우를 잘못 분류하는 경우 발생
- 극단적 포즈: 매우 비자연스러운 손가락 구성에서 성능 저하
- 심각한 폐색: HInt 학습으로 개선되었으나 완전 폐색 상황에서 여전히 어려움
- 시간 모델링 부재: 단일 프레임 접근으로 명시적 시간적 일관성 없음
- 3D GT 부재: In-the-wild 데이터에 대한 3D 정량 평가 불가 (2D PCK만 가능)
11. 정리
HaMeR의 핵심 주장은 하나다: 3D 손 재건에서 아키텍처 복잡성보다 모델과 데이터의 규모가 더 중요하다.
구체적으로:
- ViT-H + Transformer 디코더라는 단순한 파이프라인
- 10개 데이터셋 혼합 2.7M 학습 예제
- 새로운 in-the-wild 벤치마크 HInt (40.4K 손, 폐색 레이블 포함)
이 세 가지 요소가 결합되어 기존 방법 대비 in-the-wild 환경에서 2–3배 향상을 달성한다. 특히 데이터 스케일과 모델 규모 간의 시너지 효과가 인상적이다 — 각각의 기여도를 단순히 더한 것보다 함께 사용했을 때 더 큰 향상이 나타난다.
HaMeR는 LLM 스케일링 법칙이 3D 인간 재건 도메인에서도 유효함을 보여주는 사례다.
“복잡한 귀납 편향 대신, 충분히 큰 모델에 충분히 많은 데이터를 — 손 재건도 예외가 아니다.”