[논문리뷰] DexVLG: Dexterous Vision-Language-Grasp Model at Scale (ICCV 2025)

논문: DexVLG: Dexterous Vision-Language-Grasp Model at Scale
학회: ICCV 2025 Spotlight
저자: Jiawei He, Danshi Li, Xinqiang Yu, Zekun Qi, Wenyao Zhang, Jiayi Chen, Zhaoxiang Zhang, Zhizheng Zhang, Li Yi, He Wang
소속: BAAI, Galbot, Tsinghua University, Peking University, CASIA, Shanghai Jiao Tong University, EIT
arXiv: 2507.02747
GitHub: jiaweihe1996/DexVLG


한 줄 요약

170M 규모의 부분-정렬 파지 데이터셋 DexGraspNet 3.0과 플로우 매칭 기반 VLM DexVLG로, 단일 시점 RGBD 입력에서 자연어 명령과 정렬된 덱스테러스 파지 포즈를 생성하며 시뮬레이션 87.7% 성공률, 실세계 80% 성공률 달성.


dexvlg-fig1a

Figure 1a: DexVLG 개요 — 자연어 명령과 단일 시점 RGBD 입력으로부터 특정 물체 부위를 대상으로 하는 덱스테러스 파지 포즈를 생성한다.

dexvlg-fig1b

Figure 1b: DexGraspNet 3.0 데이터셋 다양성 및 DexVLG의 정성적 파지 결과 예시.

1. 배경과 문제 정의

VLA 시스템과 덱스테러스 핸드의 간극

최근 Vision-Language-Action(VLA) 시스템이 로봇 조작 분야에서 급속히 발전하였으나, 대부분의 연구는 단순 병렬 그리퍼(parallel gripper)에 집중되어 있다. 인간 손 구조에 가까운 덱스테러스 핸드(dexterous hand, Shadow Hand 기준 22 DoF)는 훨씬 풍부한 조작 능력을 제공하지만, 다음 세 가지 이유로 대규모 VLA 연구가 부재하다.

  • 데이터 부족: 기존 덱스테러스 파지 데이터셋은 수만~100만 건 수준으로 소규모
  • 의미론적 정렬 부재: 물체 부위(part) 수준의 언어 정렬을 지원하는 데이터셋이 없음
  • 복잡한 구성 공간: 22 DoF 고차원 공간에서 물리적으로 안정된 파지 포즈 자동 생성이 어려움

기존 데이터셋의 한계

방법 규모 의미론적 부위 정렬 언어 조건
DexGraspNet 1.32M
DexGYS 50k
SemGrasp 50k 부분
Multi-GraspLLM 120k
DexGraspNet 3.0 (Ours) 170M

2. 핵심 아이디어

  1. 대규모 부분-정렬 데이터셋 자동 생성: GPT-4o와 SAMesh를 이용해 174k 물체에 대해 170M 파지 포즈를 완전 자동으로 생성하고, 부위 수준 캡션과 함께 쌍으로 구성
  2. 부분-인식 초기 포즈 설정: 물체 부위를 4가지 기하학적 카테고리로 분류하고 OBB(Oriented Bounding Box) 기반으로 기하학에 정렬된 초기 핸드 포즈를 설정
  3. LP 기반 물리 에너지 최적화: 기존 DFC의 등크기 접촉력 가정을 LP(선형 계획법)로 대체해 보다 현실적인 파지 안정성 최적화
  4. 플로우 매칭 VLM: Uni3D 포인트 클라우드 인코더 + Florence-2 LLM + 플로우 매칭 헤드를 결합한 엔드-투-엔드 언어 조건부 파지 모델

3. DexGraspNet 3.0 데이터셋 생성

데이터셋은 5단계 파이프라인으로 생성된다.

dexvlg-fig2

Figure 2: DexGraspNet 3.0 데이터셋 생성 파이프라인. 물체 준비, 부분-인식 파지 생성, 에너지 최적화, 검증 및 캡션, 테이블탑 장면 생성의 5단계로 구성된다.

단계 1: 물체 준비 및 부위 분할

Objaverse에서 800k+ 자산을 5가지 기준으로 GPT-4o로 필터링한 후 처리한다.

  • ManifoldPlus + CoACD: 충돌 메시 생성 및 볼록 분해(threshold=0.4)
  • GPT-4o: 물체 크기 추정 후 대각선 20~50cm 범위로 정규화
  • SAMesh: 제로샷 기하학 기반 의미론적 부위 분할
  • Set-of-Mark + GPT-4o: 다중 시점 렌더링 이미지를 분석해 부위 이름 자동 레이블링

단계 2: 부분-인식 덱스테러스 파지 생성

Shadow Hand(22 DoF)의 초기 손바닥 포즈 \(T \in \mathbb{R}^3, R \in SO(3)\)와 관절 각도 \(\theta \in \mathbb{R}^{22}\)를 OBB 기반으로 설정한다. 물체 부위를 4가지 카테고리로 분류해 초기화 전략을 차별화한다.

카테고리 설명 초기화 전략
Lid-like 물체에 내장된 평면형 부위 손바닥을 부위 주방향에 수직 배치, 24방향 각도 지터 적용
Disk-like 돌출된 원판형 부위 손바닥을 옆으로 회전하여 배치
L-shaped 얇고 긴 상호작용 부위 손바닥을 파지점 기하학에 직접 정렬
Shaft-like 기타 일반 부위(기본값) 손바닥을 부위 주방향에 정렬

파지 방식은 두 가지로 구분된다.

  • Wrap: 손끝 5개 + 손바닥 2곳, 7개 접촉 후보
  • Pinch: 엄지, 검지, 중지, 손바닥, 4개 접촉 후보

단계 3: 경사 기반 에너지 최적화

자세한 내용은 다음 절에서 설명한다.

단계 4: 파지 검증 및 캡션 생성

Isaac Gym에서 물리 기반 검증을 수행한다.

  • 침투 < 3mm, 자기-침투 < 3mm
  • 6방향 중력 대응 테스트
  • 부위 정렬 검증: 접촉 링크가 목표 부위에 가장 가까워야 함

합격한 파지에 대해 다음 템플릿으로 캡션을 자동 생성한다.

“Grasp the {part} of the {object} object, with contacts on {fingers}

단계 5: 테이블탑 장면 생성

물체를 낙하시켜 안정 포즈를 생성하고, RealSense D415 카메라 8개 시점에서 렌더링한다. 테이블 표면과의 충돌 필터링을 적용해 실제 테이블탑 환경을 모사한다.


4. 에너지 기반 최적화

총 에너지 함수는 4개 항의 가중합으로 구성된다.

\[E = \omega_{FC} \cdot E_{FC} + \omega_{bar} \cdot E_{bar} + \omega_{dis} \cdot E_{dis} + \omega_{reg} \cdot E_{reg}\]

4-1. LP 기반 미분 가능 Force Closure (\(E_{FC}\))

기존 Differentiable Force Closure(DFC)는 모든 접촉력의 크기가 동일하다고 가정하지만, 실제 덱스테러스 핸드에서는 손가락마다 다르다. 이 등크기 가정은 기울어진 손가락, 벗어난 접촉점 등의 부작용을 야기한다. LP 기반 DFC는 이를 선형 계획법으로 대체한다.

파지 포즈가 안정(\(P < \tau_{FC}\))할 때:

\[E_{FC} = \|G(f \odot c)\|^2\]

불안정한 초기 상태에서는:

\[E_{FC} = \|Gc\|^2\]
  • \(G\): 접촉력을 net wrench로 변환하는 파지 행렬
  • \(c\): 접촉 법선 벡터
  • \(f\): LP로 최적화된 접촉력 크기 (\(\max_i f_i = 1,\ f_i \geq 0\))

4-2. 부위 접촉 에너지 (\(E_{bar}\))

손끝이 목표 부위 밖으로 침투하는 것을 페널티한다.

\[E_{bar} = \sum_{n=1}^{5} \sum_{p_j \notin s_i} b(d(x_n, p_j),\ d_{thr})\]

truncated barrier 함수:

\[b(d,\ d_{thr}) = \begin{cases} -(d - d_{thr})^2 \ln(d/d_{thr}) & 0 < d < d_{thr} \\ 0 & \text{otherwise} \end{cases}\]
  • \(x_n\): \(n\)번째 손끝 위치
  • \(p_j\): 목표 부위 외부의 물체 표면점
  • \(s_i\): 목표 부위에 속하는 표면점 집합

4-3. 거리 에너지 (\(E_{dis}\))

\[E_{dis} = \sum_{n=1}^{N} d(x_n, O) + \omega_{palm} \left| d(x_{palm}, O) - d_0 \right|\]

손끝과 물체 간 거리를 최소화하고, 손바닥이 목표 거리 \(d_0\)를 유지하도록 유도한다.

4-4. 정규화 에너지 (\(E_{reg}\))

\[E_{reg} = \omega_{limit} \cdot E_{limit} + \omega_{pen} \cdot E_{pen} + \omega_{spen} \cdot E_{spen} + \omega_{dir} \cdot E_{dir}\]
  • \(E_{limit}\): 관절 범위 위반 페널티 (cuRobo 활용)
  • \(E_{pen}\): 핸드-물체 침투 페널티
  • \(E_{spen}\): 핸드 자기-충돌 페널티
  • \(E_{dir}\): 방향 정렬 에너지 \(\displaystyle E_{dir} = \sum_{i=0}^{N} (1 - c_i \cdot N_i)\)

5. DexVLG 모델 아키텍처

dexvlg-fig3

Figure 3: DexVLG 모델 아키텍처. Uni3D 포인트 클라우드 인코더, Florence-2 LLM, 플로우 매칭 파지 생성 헤드로 구성된다.

5-1. 포인트 클라우드 인코더

  • 백본: Uni3D (ViT 기반 사전학습 3D 인코더)
  • 입력: 단일 시점 RGBD에서 다운샘플링한 10,000개 컬러 포인트 클라우드
  • 정렬: MLP projector로 언어 임베딩 공간에 매핑

5-2. 언어 파운데이션 모델

  • LLM: Florence-2 (Base 또는 Large 변형 지원)
  • 포인트 클라우드 피처와 언어 토큰 임베딩을 concatenate하여 처리
  • 학습 중 언어 토크나이저는 동결

5-3. 플로우 매칭 기반 파지 생성 헤드

노이즈 샘플 \(X_0\)에서 목표 파지 포즈 \(X_1\)으로의 속도장 \(v(X_t, t)\)를 학습한다.

\[\min_v \mathbb{E}_{(t, X_0, X_1) \sim \gamma} \left\| \frac{d}{dt} X_t - v(X_t, t) \right\|^2\]
  • 조건: LLM의 히든 스테이트에 조건부로 작동
  • 아키텍처: LLM과 트랜스포머 블록을 공유
  • MLP 포즈 디코더: 출력 → \(T \in \mathbb{R}^3\) (위치), \(R \in SO(3)\) (회전), \(\theta \in \mathbb{R}^{22}\) (관절 각도)

5-4. 학습

단일 단계 전체 파라미터 파인튜닝을 DexGraspNet 3.0 위에서 수행한다.


6. 손실 함수 & 구현 세부사항

항목 내용
학습 데이터 DexGraspNet 3.0 (170M grasp poses, 174k objects)
3D 인코더 Uni3D (ViT 기반, 사전학습 고정)
LLM Florence-2 Base / Large
포인트 수 10,000 (단일 시점 RGBD)
핸드 Shadow Hand (22 DoF)
시뮬레이터 Isaac Gym
카메라 Intel RealSense D415 (8개 시점 렌더링)
물리 최적화 라이브러리 cuRobo

7. 실험 결과

시뮬레이션 벤치마크

세 가지 평가 지표를 사용한다.

  • Suc (Simulation Success Rate): 물리 시뮬레이션 파지 성공률
  • PTA (Part Touch Accuracy): 목표 부위와의 접촉 정확도
  • PGA (Part Grasp Accuracy): 목표 부위를 파지한 정확도

비교 베이스라인: DGN2.0* (재학습한 DexGraspNet 2.0), DGN2.0*+CLIP (CLIP 텍스트 피처 추가)

dexvlg-tab1

Table 1: LVIS-Seen, LVIS-Unseen, SamPart3D 벤치마크에서 시뮬레이션 성능 비교. DexVLG는 모든 지표에서 베이스라인을 크게 앞선다.

DexVLG는 모든 벤치마크와 지표에서 베이스라인을 큰 차이로 상회한다.

  • LVIS-Seen: Suc 87.7%, PTA 70.7%, PGA 62.1%
  • LVIS-Unseen: Suc 79.1%, PTA 68.2%, PGA 36.3%
  • SamPart3D: Suc 76.3%, PGA 52.0%

미관측 물체(LVIS-Unseen)와 다른 부위 분할 방법(SamPart3D)에서도 강한 제로샷 일반화 성능을 보인다.

dexvlg-tab2

Table 2: 추가 시뮬레이션 실험 결과.

dexvlg-tab3

Table 3: DexGraspNet 3.0 데이터셋 통계 — 물체 수, 파지 포즈 수, 캡션 수.

dexvlg-tab4

Table 4: 기존 데이터셋과의 품질 비교 — 침투(mm), 자기-침투(mm), Q1 안정성 지표.

정성적 결과

dexvlg-fig4

Figure 4: 다양한 물체에 대한 DexVLG의 정성적 파지 결과. 자연어 명령에 따라 지정된 부위를 정확히 파지한다.

8. 어블레이션 연구

파지 방식 비교

dexvlg-tab5

Table 5: Wrap vs Pinch 파지 방식 성능 비교.

Wrap 파지가 모든 지표에서 Pinch를 크게 앞선다 (LVIS-Seen Suc: 87.7% vs 71.8%). Pinch는 유연성은 높지만 안정성이 낮다.

디노이징 패러다임 비교

dexvlg-tab6

Table 6: DDPM, DDIM, Flow Matching 디노이징 패러다임 비교.

Flow Matching이 DDPM(51.9%), DDIM(57.7%)을 크게 상회하는 75.3% 성공률을 달성한다. 기존 확산 기반 방법에 비해 연속적 포즈 공간 학습에서 유의미한 이점을 보인다.

모델 구성요소 어블레이션

dexvlg-tab7

Table 7: 모델 크기, 학습 데이터 규모, 컬러 포인트 클라우드 등 구성요소 어블레이션 결과.

주요 발견:

  • 대규모 모델 + 대규모 데이터가 일반화 성능에 결정적 역할
  • 컬러 포인트 클라우드 사용이 성능을 유의미하게 향상

dexvlg-fig5

Figure 5: 어블레이션 연구 분석 시각화.

9. 실세계 실험

하드웨어 구성:

  • Shadow Hand (22 DoF) + UR10e 로봇 팔
  • Intel RealSense D415 카메라 (단일 시점)

단순 물체에서 80% 성공률, 75% 부위 정확도를 달성하며 실제 환경에서 부위-정렬 파지를 성공적으로 시연하였다.

dexvlg-fig6

Figure 6: 실세계 덱스테러스 파지 실험. Shadow Hand + UR10e 구성으로 다양한 물체에 대해 언어 명령에 따른 부위-정렬 파지를 수행한다.

한계점:

  1. 파지 포즈 생성 시 로봇 팔 작업 공간 제약을 고려하지 않아 실세계 배포 시 후처리 필터링이 필요
  2. VLM 기반 모델에서 계산 비용 문제로 효과적인 샘플 랭킹 방법론 부재

10. 정리

“We present DexVLG, a large vision-language model trained on DexGraspNet 3.0 — 170M dexterous grasp poses across 174k objects — achieving over 76% zero-shot execution success rate in simulation and 80% in real-world scenarios.”

핵심 기여:

  1. DexGraspNet 3.0: 174k 물체, 170M 부분-정렬 파지 포즈, 의미론적 캡션을 포함한 역대 최대 규모 덱스테러스 파지 데이터셋
  2. LP 기반 DFC: 선형 계획법으로 접촉력 크기를 최적화해 기존 DFC의 등크기 가정 한계를 극복
  3. 부분-인식 초기화: 물체 부위를 4가지 기하학적 카테고리로 분류해 OBB 기반 정렬 초기 포즈 생성
  4. DexVLG: Uni3D + Florence-2 + 플로우 매칭 헤드 결합으로 단일 시점 RGBD에서 언어 조건부 덱스테러스 파지 포즈 예측
  5. 강력한 제로샷 일반화: 미관측 물체 및 상이한 부위 분할 방법에 걸쳐 높은 성능 유지
* 본 블로그의 포스트들은 클로드 코드의 도움을 받아 작성하기도 하였습니다.