[논문리뷰] HaMeR: Reconstructing Hands in 3D with Transformers (CVPR 2024)

논문: Reconstructing Hands in 3D with Transformers
학회: CVPR 2024
저자: Georgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa, David Fouhey, Jitendra Malik
소속: UC Berkeley, NYU
arXiv: 2312.05251
GitHub: geopavlakos/hamer

한 줄 요약

ViT-H 백본과 Transformer 디코더로 구성된 완전 트랜스포머 기반 3D 손 메시 복원 모델로, 270만 개 학습 데이터와 새로운 in-the-wild 벤치마크(HInt)를 통해 실제 환경에서의 일반화 성능을 기존 대비 2–3배 향상.

1. 배경과 문제 정의

단안 3D 손 재건 (Monocular 3D Hand Mesh Recovery)

단일 RGB 이미지에서 손의 3D 형태와 포즈를 추정하는 문제입니다. 완성된 손 메시는 AR/VR, 인간-컴퓨터 상호작용, 로보틱스, 의료 분석 등 다양한 응용 분야에서 핵심 입력으로 활용됩니다.

기존 방법들이 공통적으로 겪는 문제:

취약한 CNN 백본: 제한된 수용 영역과 归납적 편향으로 in-the-wild 일반화 실패
소규모 스튜디오 데이터: 통제된 환경에서 수집된 소량 데이터로 학습 → 실제 환경 미반영
폐색 및 상호작용 처리 불가: 손-손, 손-물체 상호작용, 극단적 폐색 상황에서 성능 급락
제한적 다양성: 특정 피부색, 조명, 시점에만 강건

스케일링의 철학

HaMeR가 제안하는 접근 방식의 핵심은 단순합니다.

“최근 컴퓨터 비전과 NLP의 발전은 대용량 데이터로 훈련된 단순하고 고용량 모델이 진보를 이끈다는 방향을 제시한다.”

즉, 복잡한 아키텍처 설계나 도메인 특화 귀납 편향 대신, 모델 규모와 데이터 규모를 동시에 키우는 것이 3D 손 재건에서도 통한다는 가설을 검증합니다.

2. 출력 표현: MANO 손 모델

HaMeR는 파라메트릭 손 모델인 MANO를 출력 공간으로 사용합니다.

MANO 파라미터:

포즈 \(\theta \in \mathbb{R}^{48}\): 손가락 관절 회전 (PCA 기반)
형태 \(\beta \in \mathbb{R}^{10}\): 개인별 손 형태 변수
카메라 \(\pi\): weak-perspective 카메라 이동

최종 출력 \(\Theta = \{\theta, \beta, \pi\}\)로부터 778개 꼭짓점 메시와 21개 관절 위치가 결론적으로 계산됩니다.

MANO를 출력으로 사용하는 이유는 두 가지입니다. 첫째, 컴팩트한 파라미터 공간이 학습을 용이하게 합니다. 둘째, 물리적으로 타당한 손 형태만 생성됩니다.

3. 아키텍처

전체 파이프라인

단일 RGB 이미지 (손 바운딩 박스 크롭)
    → ViT-H 이미지 인코더 → 패치 토큰 시퀀스
    → Transformer 디코더 (단일 쿼리 토큰, 전체 패치 토큰에 cross-attention)
    → MANO 파라미터 회귀 (θ, β, π)
    → MANO 레이어 → 3D 메시 + 관절 좌표

Vision Transformer Huge (ViT-H) 백본

이미지를 고정 크기 패치로 분할하여 토큰 시퀀스 생성
전역 self-attention으로 이미지 전체 맥락을 동시에 파악
ImageNet-21K 사전학습 가중치에서 fine-tuning

CNN 기반 백본 대비 ViT-H의 핵심 장점은 전역 수용 영역입니다. 첫 번째 레이어부터 이미지 전체를 참조할 수 있어 폐색이나 가려진 영역의 손 형태를 추론하는 데 유리합니다.

Transformer 디코더 헤드

단일 쿼리 토큰이 ViT-H의 모든 출력 패치 토큰에 cross-attention을 수행합니다. 쿼리 토큰이 전체 이미지 정보를 집약하여 MANO 파라미터를 회귀합니다.

이 설계의 핵심은 단순성입니다. 복잡한 다단계 회귀나 반복적 개선 과정 없이, 단일 포워드 패스로 최종 출력을 생성합니다.

4. 손실 함수

세 가지 손실을 함께 최적화합니다.

3D 손실 (3D GT가 있는 데이터셋)

\[\mathcal{L}_{3D} = \|\theta - \theta^*\|_2^2 + \|\beta - \beta^*\|_2^2 + \|X - X^*\|_1\]

포즈와 형태 파라미터 L2 오차에 더해, 실제 3D 관절 좌표 L1 오차를 감독 신호로 사용합니다.

2D 재투영 손실

\[\mathcal{L}_{2D} = \|x - x^*\|_1\]

예측된 3D 관절을 이미지 평면에 투영한 2D 좌표와 정답 2D 키포인트 간의 L1 오차입니다. 3D GT 없이 2D 어노테이션만 가진 데이터셋에서도 학습 가능하게 합니다.

적대적 손실 (2D 전용 데이터용)

\[\mathcal{L}_{adv} = \sum_k (D_k(\Theta) - 1)^2\]

세 종류의 판별자(Discriminator)를 사용합니다:

전체 형태 판별자: 전체 MANO 파라미터가 자연스러운 손인지 판별
전체 포즈 판별자: 전체 손 포즈의 자연스러움 판별
개별 관절 판별자: 각 손가락 관절 각도의 자연스러움 판별

적대적 손실은 3D GT 없이 2D 어노테이션으로만 학습할 때 발생하는 비현실적 손 포즈를 억제하는 역할을 합니다.

5. 학습 데이터 스케일링

2.7M 학습 예제

기존 FrankMocap 대비 4배 규모. 10개 이종 데이터셋을 혼합하여 사용합니다.

3D 어노테이션 보유 데이터셋:

데이터셋	특성
FreiHAND	스튜디오, 단일 손
HO-3D	손-물체 상호작용
MTC (Panoptic Studio)	다중 카메라
RHD	합성 데이터
InterHand2.6M	양손 상호작용
H2O3D	손-물체 상호작용
DexYCB	손-물체 조작

2D 어노테이션 전용 데이터셋:

데이터셋	특성
COCO WholeBody	자연스러운 환경
Halpe	인물 사진
MPII NZSL	수화

2D 전용 데이터셋에 대해서는 3D 손실 없이 재투영 손실과 적대적 손실만 적용합니다. 이를 통해 3D GT를 구하기 어려운 in-the-wild 데이터도 학습에 활용할 수 있습니다.

6. HInt 데이터셋: 새로운 In-the-Wild 벤치마크

기존 벤치마크의 한계

FreiHAND, HO3Dv2 같은 기존 벤치마크는 통제된 환경에서 수집됩니다. 실제 환경(에고센트릭 영상, 손-물체 상호작용, 다양한 조명)에서의 일반화 성능을 측정하기 어렵습니다.

HInt (Hand Interactions in the Wild)

40,400개 손 어노테이션으로 구성된 새로운 in-the-wild 벤치마크입니다.

핵심 특징:

21개 관절의 2D 키포인트 + 폐색 레이블 제공 (최초)
전체 손의 86.7%가 접촉 상황
어노테이터 간 폐색 레이블 일치율 90.5%
가시 키포인트의 94.6%가 팜 길이의 0.25배 이내에서 어노테이터 간 일치

세 가지 소스:

소스	수량	특성
Hands23 (New Days of Hands)	12.0K	제3자 시점, 자연스러운 환경
Epic-Kitchens VISOR	5.3K	에고센트릭, 주방 환경
Ego4D	23.2K	에고센트릭, 다양한 활동

폐색 레이블을 제공하는 최초의 대규모 in-the-wild 손 데이터셋이라는 점이 중요합니다. 이를 통해 폐색 상황에서의 성능을 별도로 측정할 수 있습니다.

7. 실험 결과

FreiHAND 벤치마크 (Table 1)

방법	PA-MPJPE (mm) ↓	PA-MPVPE (mm) ↓	F@5mm ↑	F@15mm ↑
I2L-MeshNet	7.4	7.6	0.681	0.973
MobRecon	5.7	5.8	0.784	0.987
HaMeR	6.0	5.7	0.785	0.990

FreiHAND에서 HaMeR는 전반적으로 최고 수준 성능을 달성합니다. 스튜디오 데이터에서는 기존 방법 대비 소폭 우위 혹은 동등 수준입니다.

HO3Dv2 벤치마크 (Table 2)

방법	AUCⱼ ↑	PA-MPJPE (mm) ↓	AUCᵥ ↑
HandOccNet	0.831	8.8	—
AMVUR	0.835	8.3	0.836
HaMeR	0.846	7.7	0.841

손-물체 상호작용이 포함된 HO3Dv2에서 모든 메트릭에서 최고 성능을 달성합니다.

HInt 벤치마크: PCK@0.05 (Table 3) — 핵심 결과

방법	New Days	VISOR	Ego4D
FrankMocap	16.1%	16.8%	13.1%
HandOccNet (param)	9.1%	8.1%	7.7%
HaMeR	48.0%	43.0%	38.9%

HaMeR가 기존 최고 방법 대비 2–3배 향상. 이 결과가 HaMeR 논문의 가장 강력한 주장입니다.

폐색 여부별 세분화 (VISOR 기준):

구분	HaMeR
가시 관절 전체	56.6%
폐색 관절 전체	25.9%

8. 어블레이션: 데이터 스케일 vs. 모델 스케일

독립 기여도와 시너지 효과 (Table 5)

구성	대용량 데이터	대용량 모델	New Days	VISOR	Ego4D
FrankMocap	✗	✗	16.1%	16.8%	13.1%
Base (ResNet50)	✗	✗	16.9%	17.5%	13.9%
+ 대용량 데이터만	✓	✗	31.3%	29.9%	24.7%
+ 대용량 모델만	✗	✓	25.9%	24.1%	19.4%
HaMeR (둘 다)	✓	✓	48.0%	43.0%	38.9%

주목할 점: 대용량 데이터만 사용하면 +14.4%p, 대용량 모델만 사용하면 +9.8%p 향상되지만, 둘을 함께 사용하면 +31.1%p의 시너지 효과가 나타납니다. 데이터 스케일과 모델 규모가 서로를 증폭시키는 관계임을 보여줍니다.

HInt 학습 데이터의 효과 (Table 4)

HInt의 학습 분할 데이터를 추가로 fine-tuning했을 때:

데이터셋	HInt 미사용	HInt 사용	개선
VISOR (전체)	43.0%	56.5%	+13.5%p
VISOR (가시)	56.6%	66.5%	+9.9%p
VISOR (폐색)	25.9%	42.6%	+16.7%p
Ego4D (전체)	38.9%	46.9%	+8.0%p

폐색 관절에 대한 향상 폭(+16.7%p)이 가시 관절(+9.9%p)보다 훨씬 큽니다. HInt의 폐색 레이블이 폐색 처리 능력 향상에 직접적으로 기여함을 보여줍니다.

9. 정성적 일반화 능력

HaMeR가 강건성을 보이는 시나리오:

에고센트릭 및 제3자 시점 영상
손-손, 손-물체 상호작용 및 폐색
모션 블러, 다양한 조명 환경
다양한 피부색
비표준 외관 (장갑, 로봇 손, 삽화 등)
시간적 스무딩 적용 없이도 비디오에서 부드러운 출력 (프레임 단위 추론)

10. 한계점

오탐지: 업스트림 손 검출기의 false positive가 전체 파이프라인에 영향
좌우 분류 오류: 손의 좌/우를 잘못 분류하는 경우 발생
극단적 포즈: 매우 비자연스러운 손가락 구성에서 성능 저하
심각한 폐색: HInt 학습으로 개선되었으나 완전 폐색 상황에서 여전히 어려움
시간 모델링 부재: 단일 프레임 접근으로 명시적 시간적 일관성 없음
3D GT 부재: In-the-wild 데이터에 대한 3D 정량 평가 불가 (2D PCK만 가능)

11. 정리

HaMeR의 핵심 주장은 하나입니다: 3D 손 재건에서 아키텍처 복잡성보다 모델과 데이터의 규모가 더 중요합니다.

구체적으로:

ViT-H + Transformer 디코더라는 단순한 파이프라인
10개 데이터셋 혼합 2.7M 학습 예제
새로운 in-the-wild 벤치마크 HInt (40.4K 손, 폐색 레이블 포함)

이 세 가지 요소가 결합되어 기존 방법 대비 in-the-wild 환경에서 2–3배 향상을 달성합니다. 특히 데이터 스케일과 모델 규모 간의 시너지 효과가 인상적입니다 — 각각의 기여도를 단순히 더한 것보다 함께 사용했을 때 더 큰 향상이 나타납니다.

HaMeR는 LLM 스케일링 법칙이 3D 인간 재건 도메인에서도 유효함을 보여주는 사례입니다.

“복잡한 귀납 편향 대신, 충분히 큰 모델에 충분히 많은 데이터를 — 손 재건도 예외가 아니다.”