🧐 λ‚˜μ˜ 생각 / λΉ„νŒ (My Thoughts / Critiques)

  • SSL λͺ¨λΈ

    • Sparsh: MAE, DINO, JEPA λ“± β€˜μžμœ¨ 지도 ν•™μŠ΅(SSL)β€˜μ΄ 핡심 기술.

    • ν™œμš© μ „λž΅: 이미지 κ΄€λ ¨ λͺ¨λΈμΈ Masked AEλ₯Ό μ œμ™Έν•˜κ³  DINO, JEPA λ“± 좔상적인 νŠΉμ§•κ³΅κ°„μ—μ„œ μž‘μ—…ν•˜λŠ” λͺ¨λΈμ€ μ°¨μš©ν•˜μ—¬ μ‹€ν—˜ν•  κ°€μΉ˜κ°€ 있음. 기술적 기반이 λ™μΌν•˜λ―€λ‘œ, Sparsh의 평가 ν”„λ ˆμž„μ›Œν¬(TacBench κ°œλ…, Frozen Encoder 방식)λ₯Ό μ°¨μš©ν•˜μ—¬ 연ꡬ 결과의 신뒰도λ₯Ό 확보.

  • λ°μ΄ν„°μ˜ 차별성

    • Sparsh: 촉각 이미지.

    • μ§„ν–‰ν•  연ꡬ: μ‹œκ°, 촉각 ν˜•μš©μ‚¬, 촉각 μ‹œκ³„μ—΄.

    • ν™œμš© μ „λž΅: μƒˆλ‘œμš΄ 데이터 쑰합을 λ‹€λ£¨λŠ” 것이 우리 μ—°κ΅¬μ˜ 핡심 κΈ°μ—¬μž„μ„ λͺ…ν™•νžˆ 함.


각 벀치마크 μ‹€ν—˜ κ²°κ³Ό λͺ¨λΈ ꡬ쑰도

λͺ©ν‘œ (Goal)

  • νŠΉμ • μž‘μ—…(task)κ³Ό μ„Όμ„œμ— μ’…μ†λ˜μ§€ μ•ŠλŠ” λ²”μš©(general-purpose) 촉각 ν‘œν˜„(representation) 개발.

  • λ ˆμ΄λΈ”λ§λœ 데이터 μˆ˜μ§‘μ˜ 어렀움을 κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, 자율 지도 ν•™μŠ΅(Self-Supervised Learning, SSL)을 ν™œμš©ν•˜μ—¬ λŒ€κ·œλͺ¨μ˜ λ ˆμ΄λΈ” μ—†λŠ” λ°μ΄ν„°λ‘œλΆ€ν„° ν•™μŠ΅.

  • ν•™μŠ΅λœ ν‘œν˜„μ˜ μ„±λŠ₯을 ν‘œμ€€ν™”λœ λ°©μ‹μœΌλ‘œ 평가할 수 μžˆλŠ” 벀치마크(TacBench) ꡬ좕.

데이터 (Data)

  • SSL 사전 ν›ˆλ ¨ 데이터:

    • DIGIT, GelSight, GelSight Mini λ“± 3κ°€μ§€ μ’…λ₯˜μ˜ μ„Όμ„œμ—μ„œ μˆ˜μ§‘λœ 46만 개 μ΄μƒμ˜ λ ˆμ΄λΈ” μ—†λŠ” 촉각 이미지 μ‚¬μš©.

    • YCB-Slide, Touch-and-Go, ObjectFolder λ“± κΈ°μ‘΄ 데이터셋과 자체 μ œμž‘ν•œ Touch-Slide 데이터셋을 ν†΅ν•©ν•˜μ—¬ λŒ€κ·œλͺ¨ 데이터 ꡬ좕.

  • 평가 데이터 (TacBench):

    • 힘 μΆ”μ •, λ―Έλ„λŸ¬μ§ 감지, μžμ„Έ μΆ”μ • λ“± 6개의 λ‹€μš΄μŠ€νŠΈλ¦Ό 과제(downstream tasks)λ₯Ό μœ„ν•œ λ³„λ„μ˜ λ ˆμ΄λΈ”λ§λœ 데이터셋을 κ΅¬μΆ•ν•˜μ—¬ μ‚¬μš©.

    • 이 λ°μ΄ν„°λŠ” SSL 사전 ν›ˆλ ¨μ—λŠ” μ‚¬μš©λ˜μ§€ μ•Šμ€, μƒˆλ‘œμš΄ μ„Όμ„œμ™€ 객체둜 κ΅¬μ„±ν•˜μ—¬ λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 평가.

λͺ¨λΈ ꡬ쑰 (Model Architecture)

  • κΈ°λ³Έ 인코더: λͺ¨λ“  SSL λͺ¨λΈμ˜ λ°±λ³Έ(backbone)으둜 Vision Transformer (ViT) μ•„ν‚€ν…μ²˜λ₯Ό μ‚¬μš©.

  • Sparsh λͺ¨λΈ μ œν’ˆκ΅°: μ„Έ κ°€μ§€ κ³„μ—΄μ˜ μ΅œμ‹  SSL 방법둠을 μ‹€ν—˜ν•˜κ³  비ꡐ.

    • Sparsh (MAE): μ΄λ―Έμ§€μ˜ 일뢀λ₯Ό 가리고(masking), 이λ₯Ό ν”½μ…€ λ‹¨μœ„λ‘œ λ³΅μ›ν•˜λ„λ‘ ν•™μŠ΅ν•˜λŠ” 생성 λͺ¨λΈ.

    • Sparsh (DINO): 학생-ꡐ사(student-teacher) ꡬ쑰λ₯Ό 톡해, 학생 λͺ¨λΈμ΄ ꡐ사 λͺ¨λΈμ˜ 잠재 곡간(latent space) ν‘œν˜„μ„ λͺ¨λ°©ν•˜λ„둝 ν•™μŠ΅ν•˜λŠ” 자기 증λ₯˜(self-distillation) λͺ¨λΈ.

    • Sparsh (IJEPA/V-JEPA): μ΄λ―Έμ§€μ˜ 일뢀(context)λ₯Ό 보고 κ°€λ €μ§„ λΆ€λΆ„μ˜ 잠재 곡간 ν‘œν˜„μ„ μ˜ˆμΈ‘ν•˜λ„λ‘ ν•™μŠ΅ν•˜λŠ” 쑰인트 μž„λ² λ”© 예츑(joint-embedding predictive) λͺ¨λΈ.

  • μž…λ ₯ 처리: μ‹œκ°„μ  정보λ₯Ό ν¬μ°©ν•˜κΈ° μœ„ν•΄, μ‹œκ°„ 간격을 λ‘” 두 개의 촉각 이미지λ₯Ό 채널 μ°¨μ›μœΌλ‘œ κ²°ν•©ν•˜μ—¬ λͺ¨λΈμ˜ μž…λ ₯으둜 μ‚¬μš© (Itβ€‹βŠ•Itβˆ’5​).

μ£Όμš” μ„±κ³Ό (Key Achievements)

  • 높은 μ„±λŠ₯ 달성: μ œμ•ˆν•˜λŠ” Sparsh λͺ¨λΈμ΄ 기쑴의 μ—”λ“œ-투-μ—”λ“œ(E2E) 방식보닀 평균 95.1% 더 높은 μ„±λŠ₯을 λ³΄μž„ (특히 λ ˆμ΄λΈ”λ§λœ 데이터가 적을 λ•Œ 격차가 큼).

  • ν‘œμ€€ 벀치마크(TacBench) 개발: 촉각 ν‘œν˜„ μ—°κ΅¬μ˜ λ°œμ „μ„ 촉진할 수 μžˆλŠ” ν‘œμ€€ν™”λœ 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό 졜초둜 μ œμ•ˆ.

  • 잠재 곡간 ν•™μŠ΅μ˜ 효과 μž…μ¦: ν”½μ…€ λ‹¨μœ„ 볡원(MAE)보닀 잠재 κ³΅κ°„μ—μ„œ ν•™μŠ΅(DINO, IJEPA)ν•˜λŠ” 것이 촉각 ν‘œν˜„ ν•™μŠ΅μ— 더 μš°μˆ˜ν•¨μ„ μ‹€ν—˜μ μœΌλ‘œ 증λͺ….

  • ꡐ차 μ„Όμ„œ μΌλ°˜ν™” λŠ₯λ ₯: ν•™μŠ΅λœ ν‘œν˜„μ΄ μƒˆλ‘œμš΄ μ’…λ₯˜μ˜ μ„Όμ„œμ—λ„ 단 λͺ‡ 개의 데이터(few-shot)만으둜 λΉ λ₯΄κ²Œ 적응함을 λ³΄μ—¬μ€Œ.