[논문리뷰] DexVLG: Dexterous Vision-Language-Grasp Model at Scale (ICCV 2025)
논문: DexVLG: Dexterous Vision-Language-Grasp Model at Scale
학회: ICCV 2025 Spotlight
저자: Jiawei He, Danshi Li, Xinqiang Yu, Zekun Qi, Wenyao Zhang, Jiayi Chen, Zhaoxiang Zhang, Zhizheng Zhang, Li Yi, He Wang
소속: BAAI, Galbot, Tsinghua University, Peking University, CASIA, Shanghai Jiao Tong University, EIT
arXiv: 2507.02747
GitHub: jiaweihe1996/DexVLG
한 줄 요약
170M 규모의 부분-정렬 파지 데이터셋 DexGraspNet 3.0과 플로우 매칭 기반 VLM DexVLG로, 단일 시점 RGBD 입력에서 자연어 명령과 정렬된 덱스테러스 파지 포즈를 생성하며 시뮬레이션 87.7% 성공률, 실세계 80% 성공률 달성.


1. 배경과 문제 정의
VLA 시스템과 덱스테러스 핸드의 간극
최근 Vision-Language-Action(VLA) 시스템이 로봇 조작 분야에서 급속히 발전하였으나, 대부분의 연구는 단순 병렬 그리퍼(parallel gripper)에 집중되어 있다. 인간 손 구조에 가까운 덱스테러스 핸드(dexterous hand, Shadow Hand 기준 22 DoF)는 훨씬 풍부한 조작 능력을 제공하지만, 다음 세 가지 이유로 대규모 VLA 연구가 부재하다.
- 데이터 부족: 기존 덱스테러스 파지 데이터셋은 수만~100만 건 수준으로 소규모
- 의미론적 정렬 부재: 물체 부위(part) 수준의 언어 정렬을 지원하는 데이터셋이 없음
- 복잡한 구성 공간: 22 DoF 고차원 공간에서 물리적으로 안정된 파지 포즈 자동 생성이 어려움
기존 데이터셋의 한계
| 방법 | 규모 | 의미론적 부위 정렬 | 언어 조건 |
|---|---|---|---|
| DexGraspNet | 1.32M | ✗ | ✗ |
| DexGYS | 50k | ✗ | ✗ |
| SemGrasp | 50k | 부분 | ✗ |
| Multi-GraspLLM | 120k | △ | ✗ |
| DexGraspNet 3.0 (Ours) | 170M | ✓ | ✓ |
2. 핵심 아이디어
- 대규모 부분-정렬 데이터셋 자동 생성: GPT-4o와 SAMesh를 이용해 174k 물체에 대해 170M 파지 포즈를 완전 자동으로 생성하고, 부위 수준 캡션과 함께 쌍으로 구성
- 부분-인식 초기 포즈 설정: 물체 부위를 4가지 기하학적 카테고리로 분류하고 OBB(Oriented Bounding Box) 기반으로 기하학에 정렬된 초기 핸드 포즈를 설정
- LP 기반 물리 에너지 최적화: 기존 DFC의 등크기 접촉력 가정을 LP(선형 계획법)로 대체해 보다 현실적인 파지 안정성 최적화
- 플로우 매칭 VLM: Uni3D 포인트 클라우드 인코더 + Florence-2 LLM + 플로우 매칭 헤드를 결합한 엔드-투-엔드 언어 조건부 파지 모델
3. DexGraspNet 3.0 데이터셋 생성
데이터셋은 5단계 파이프라인으로 생성된다.

단계 1: 물체 준비 및 부위 분할
Objaverse에서 800k+ 자산을 5가지 기준으로 GPT-4o로 필터링한 후 처리한다.
- ManifoldPlus + CoACD: 충돌 메시 생성 및 볼록 분해(threshold=0.4)
- GPT-4o: 물체 크기 추정 후 대각선 20~50cm 범위로 정규화
- SAMesh: 제로샷 기하학 기반 의미론적 부위 분할
- Set-of-Mark + GPT-4o: 다중 시점 렌더링 이미지를 분석해 부위 이름 자동 레이블링
단계 2: 부분-인식 덱스테러스 파지 생성
Shadow Hand(22 DoF)의 초기 손바닥 포즈 \(T \in \mathbb{R}^3, R \in SO(3)\)와 관절 각도 \(\theta \in \mathbb{R}^{22}\)를 OBB 기반으로 설정한다. 물체 부위를 4가지 카테고리로 분류해 초기화 전략을 차별화한다.
| 카테고리 | 설명 | 초기화 전략 |
|---|---|---|
| Lid-like | 물체에 내장된 평면형 부위 | 손바닥을 부위 주방향에 수직 배치, 24방향 각도 지터 적용 |
| Disk-like | 돌출된 원판형 부위 | 손바닥을 옆으로 회전하여 배치 |
| L-shaped | 얇고 긴 상호작용 부위 | 손바닥을 파지점 기하학에 직접 정렬 |
| Shaft-like | 기타 일반 부위(기본값) | 손바닥을 부위 주방향에 정렬 |
파지 방식은 두 가지로 구분된다.
- Wrap: 손끝 5개 + 손바닥 2곳, 7개 접촉 후보
- Pinch: 엄지, 검지, 중지, 손바닥, 4개 접촉 후보
단계 3: 경사 기반 에너지 최적화
자세한 내용은 다음 절에서 설명한다.
단계 4: 파지 검증 및 캡션 생성
Isaac Gym에서 물리 기반 검증을 수행한다.
- 침투 < 3mm, 자기-침투 < 3mm
- 6방향 중력 대응 테스트
- 부위 정렬 검증: 접촉 링크가 목표 부위에 가장 가까워야 함
합격한 파지에 대해 다음 템플릿으로 캡션을 자동 생성한다.
“Grasp the {part} of the {object} object, with contacts on {fingers}”
단계 5: 테이블탑 장면 생성
물체를 낙하시켜 안정 포즈를 생성하고, RealSense D415 카메라 8개 시점에서 렌더링한다. 테이블 표면과의 충돌 필터링을 적용해 실제 테이블탑 환경을 모사한다.
4. 에너지 기반 최적화
총 에너지 함수는 4개 항의 가중합으로 구성된다.
\[E = \omega_{FC} \cdot E_{FC} + \omega_{bar} \cdot E_{bar} + \omega_{dis} \cdot E_{dis} + \omega_{reg} \cdot E_{reg}\]4-1. LP 기반 미분 가능 Force Closure (\(E_{FC}\))
기존 Differentiable Force Closure(DFC)는 모든 접촉력의 크기가 동일하다고 가정하지만, 실제 덱스테러스 핸드에서는 손가락마다 다르다. 이 등크기 가정은 기울어진 손가락, 벗어난 접촉점 등의 부작용을 야기한다. LP 기반 DFC는 이를 선형 계획법으로 대체한다.
파지 포즈가 안정(\(P < \tau_{FC}\))할 때:
\[E_{FC} = \|G(f \odot c)\|^2\]불안정한 초기 상태에서는:
\[E_{FC} = \|Gc\|^2\]- \(G\): 접촉력을 net wrench로 변환하는 파지 행렬
- \(c\): 접촉 법선 벡터
- \(f\): LP로 최적화된 접촉력 크기 (\(\max_i f_i = 1,\ f_i \geq 0\))
4-2. 부위 접촉 에너지 (\(E_{bar}\))
손끝이 목표 부위 밖으로 침투하는 것을 페널티한다.
\[E_{bar} = \sum_{n=1}^{5} \sum_{p_j \notin s_i} b(d(x_n, p_j),\ d_{thr})\]truncated barrier 함수:
\[b(d,\ d_{thr}) = \begin{cases} -(d - d_{thr})^2 \ln(d/d_{thr}) & 0 < d < d_{thr} \\ 0 & \text{otherwise} \end{cases}\]- \(x_n\): \(n\)번째 손끝 위치
- \(p_j\): 목표 부위 외부의 물체 표면점
- \(s_i\): 목표 부위에 속하는 표면점 집합
4-3. 거리 에너지 (\(E_{dis}\))
\[E_{dis} = \sum_{n=1}^{N} d(x_n, O) + \omega_{palm} \left| d(x_{palm}, O) - d_0 \right|\]손끝과 물체 간 거리를 최소화하고, 손바닥이 목표 거리 \(d_0\)를 유지하도록 유도한다.
4-4. 정규화 에너지 (\(E_{reg}\))
\[E_{reg} = \omega_{limit} \cdot E_{limit} + \omega_{pen} \cdot E_{pen} + \omega_{spen} \cdot E_{spen} + \omega_{dir} \cdot E_{dir}\]- \(E_{limit}\): 관절 범위 위반 페널티 (cuRobo 활용)
- \(E_{pen}\): 핸드-물체 침투 페널티
- \(E_{spen}\): 핸드 자기-충돌 페널티
- \(E_{dir}\): 방향 정렬 에너지 \(\displaystyle E_{dir} = \sum_{i=0}^{N} (1 - c_i \cdot N_i)\)
5. DexVLG 모델 아키텍처

5-1. 포인트 클라우드 인코더
- 백본: Uni3D (ViT 기반 사전학습 3D 인코더)
- 입력: 단일 시점 RGBD에서 다운샘플링한 10,000개 컬러 포인트 클라우드
- 정렬: MLP projector로 언어 임베딩 공간에 매핑
5-2. 언어 파운데이션 모델
- LLM: Florence-2 (Base 또는 Large 변형 지원)
- 포인트 클라우드 피처와 언어 토큰 임베딩을 concatenate하여 처리
- 학습 중 언어 토크나이저는 동결
5-3. 플로우 매칭 기반 파지 생성 헤드
노이즈 샘플 \(X_0\)에서 목표 파지 포즈 \(X_1\)으로의 속도장 \(v(X_t, t)\)를 학습한다.
\[\min_v \mathbb{E}_{(t, X_0, X_1) \sim \gamma} \left\| \frac{d}{dt} X_t - v(X_t, t) \right\|^2\]- 조건: LLM의 히든 스테이트에 조건부로 작동
- 아키텍처: LLM과 트랜스포머 블록을 공유
- MLP 포즈 디코더: 출력 → \(T \in \mathbb{R}^3\) (위치), \(R \in SO(3)\) (회전), \(\theta \in \mathbb{R}^{22}\) (관절 각도)
5-4. 학습
단일 단계 전체 파라미터 파인튜닝을 DexGraspNet 3.0 위에서 수행한다.
6. 손실 함수 & 구현 세부사항
| 항목 | 내용 |
|---|---|
| 학습 데이터 | DexGraspNet 3.0 (170M grasp poses, 174k objects) |
| 3D 인코더 | Uni3D (ViT 기반, 사전학습 고정) |
| LLM | Florence-2 Base / Large |
| 포인트 수 | 10,000 (단일 시점 RGBD) |
| 핸드 | Shadow Hand (22 DoF) |
| 시뮬레이터 | Isaac Gym |
| 카메라 | Intel RealSense D415 (8개 시점 렌더링) |
| 물리 최적화 라이브러리 | cuRobo |
7. 실험 결과
시뮬레이션 벤치마크
세 가지 평가 지표를 사용한다.
- Suc (Simulation Success Rate): 물리 시뮬레이션 파지 성공률
- PTA (Part Touch Accuracy): 목표 부위와의 접촉 정확도
- PGA (Part Grasp Accuracy): 목표 부위를 파지한 정확도
비교 베이스라인: DGN2.0* (재학습한 DexGraspNet 2.0), DGN2.0*+CLIP (CLIP 텍스트 피처 추가)

DexVLG는 모든 벤치마크와 지표에서 베이스라인을 큰 차이로 상회한다.
- LVIS-Seen: Suc 87.7%, PTA 70.7%, PGA 62.1%
- LVIS-Unseen: Suc 79.1%, PTA 68.2%, PGA 36.3%
- SamPart3D: Suc 76.3%, PGA 52.0%
미관측 물체(LVIS-Unseen)와 다른 부위 분할 방법(SamPart3D)에서도 강한 제로샷 일반화 성능을 보인다.



정성적 결과

8. 어블레이션 연구
파지 방식 비교

Wrap 파지가 모든 지표에서 Pinch를 크게 앞선다 (LVIS-Seen Suc: 87.7% vs 71.8%). Pinch는 유연성은 높지만 안정성이 낮다.
디노이징 패러다임 비교

Flow Matching이 DDPM(51.9%), DDIM(57.7%)을 크게 상회하는 75.3% 성공률을 달성한다. 기존 확산 기반 방법에 비해 연속적 포즈 공간 학습에서 유의미한 이점을 보인다.
모델 구성요소 어블레이션

주요 발견:
- 대규모 모델 + 대규모 데이터가 일반화 성능에 결정적 역할
- 컬러 포인트 클라우드 사용이 성능을 유의미하게 향상

9. 실세계 실험
하드웨어 구성:
- Shadow Hand (22 DoF) + UR10e 로봇 팔
- Intel RealSense D415 카메라 (단일 시점)
단순 물체에서 80% 성공률, 75% 부위 정확도를 달성하며 실제 환경에서 부위-정렬 파지를 성공적으로 시연하였다.

한계점:
- 파지 포즈 생성 시 로봇 팔 작업 공간 제약을 고려하지 않아 실세계 배포 시 후처리 필터링이 필요
- VLM 기반 모델에서 계산 비용 문제로 효과적인 샘플 랭킹 방법론 부재
10. 정리
“We present DexVLG, a large vision-language model trained on DexGraspNet 3.0 — 170M dexterous grasp poses across 174k objects — achieving over 76% zero-shot execution success rate in simulation and 80% in real-world scenarios.”
핵심 기여:
- DexGraspNet 3.0: 174k 물체, 170M 부분-정렬 파지 포즈, 의미론적 캡션을 포함한 역대 최대 규모 덱스테러스 파지 데이터셋
- LP 기반 DFC: 선형 계획법으로 접촉력 크기를 최적화해 기존 DFC의 등크기 가정 한계를 극복
- 부분-인식 초기화: 물체 부위를 4가지 기하학적 카테고리로 분류해 OBB 기반 정렬 초기 포즈 생성
- DexVLG: Uni3D + Florence-2 + 플로우 매칭 헤드 결합으로 단일 시점 RGBD에서 언어 조건부 덱스테러스 파지 포즈 예측
- 강력한 제로샷 일반화: 미관측 물체 및 상이한 부위 분할 방법에 걸쳐 높은 성능 유지