π§ λμ μκ° / λΉν (My Thoughts / Critiques)
-
SSL λͺ¨λΈ
-
Sparsh: MAE, DINO, JEPA λ± βμμ¨ μ§λ νμ΅(SSL)βμ΄ ν΅μ¬ κΈ°μ .
-
νμ© μ λ΅: μ΄λ―Έμ§ κ΄λ ¨ λͺ¨λΈμΈ Masked AEλ₯Ό μ μΈνκ³ DINO, JEPA λ± μΆμμ μΈ νΉμ§κ³΅κ°μμ μμ νλ λͺ¨λΈμ μ°¨μ©νμ¬ μ€νν κ°μΉκ° μμ. κΈ°μ μ κΈ°λ°μ΄ λμΌνλ―λ‘, Sparshμ νκ° νλ μμν¬(TacBench κ°λ , Frozen Encoder λ°©μ)λ₯Ό μ°¨μ©νμ¬ μ°κ΅¬ κ²°κ³Όμ μ λ’°λλ₯Ό ν보.
-
-
λ°μ΄ν°μ μ°¨λ³μ±
-
Sparsh: μ΄κ° μ΄λ―Έμ§.
-
μ§νν μ°κ΅¬: μκ°, μ΄κ° νμ©μ¬, μ΄κ° μκ³μ΄.
-
νμ© μ λ΅: μλ‘μ΄ λ°μ΄ν° μ‘°ν©μ λ€λ£¨λ κ²μ΄ μ°λ¦¬ μ°κ΅¬μ ν΅μ¬ κΈ°μ¬μμ λͺ νν ν¨.
-
κ° λ²€μΉλ§ν¬ μ€ν κ²°κ³Ό
λͺ¨λΈ ꡬ쑰λ
λͺ©ν (Goal)
-
νΉμ μμ (task)κ³Ό μΌμμ μ’ μλμ§ μλ λ²μ©(general-purpose) μ΄κ° νν(representation) κ°λ°.
-
λ μ΄λΈλ§λ λ°μ΄ν° μμ§μ μ΄λ €μμ 극볡νκΈ° μν΄, μμ¨ μ§λ νμ΅(Self-Supervised Learning, SSL)μ νμ©νμ¬ λκ·λͺ¨μ λ μ΄λΈ μλ λ°μ΄ν°λ‘λΆν° νμ΅.
-
νμ΅λ ννμ μ±λ₯μ νμ€νλ λ°©μμΌλ‘ νκ°ν μ μλ λ²€μΉλ§ν¬(TacBench) ꡬμΆ.
λ°μ΄ν° (Data)
-
SSL μ¬μ νλ ¨ λ°μ΄ν°:
-
DIGIT, GelSight, GelSight Mini λ± 3κ°μ§ μ’ λ₯μ μΌμμμ μμ§λ 46λ§ κ° μ΄μμ λ μ΄λΈ μλ μ΄κ° μ΄λ―Έμ§ μ¬μ©.
-
YCB-Slide, Touch-and-Go, ObjectFolder λ± κΈ°μ‘΄ λ°μ΄ν°μ κ³Ό μ체 μ μν Touch-Slide λ°μ΄ν°μ μ ν΅ν©νμ¬ λκ·λͺ¨ λ°μ΄ν° ꡬμΆ.
-
-
νκ° λ°μ΄ν° (TacBench):
-
ν μΆμ , λ―Έλλ¬μ§ κ°μ§, μμΈ μΆμ λ± 6κ°μ λ€μ΄μ€νΈλ¦Ό κ³Όμ (downstream tasks)λ₯Ό μν λ³λμ λ μ΄λΈλ§λ λ°μ΄ν°μ μ ꡬμΆνμ¬ μ¬μ©.
-
μ΄ λ°μ΄ν°λ SSL μ¬μ νλ ¨μλ μ¬μ©λμ§ μμ, μλ‘μ΄ μΌμμ κ°μ²΄λ‘ ꡬμ±νμ¬ λͺ¨λΈμ μΌλ°ν μ±λ₯μ νκ°.
-
λͺ¨λΈ ꡬ쑰 (Model Architecture)
-
κΈ°λ³Έ μΈμ½λ: λͺ¨λ SSL λͺ¨λΈμ λ°±λ³Έ(backbone)μΌλ‘ Vision Transformer (ViT) μν€ν μ²λ₯Ό μ¬μ©.
-
Sparsh λͺ¨λΈ μ νκ΅°: μΈ κ°μ§ κ³μ΄μ μ΅μ SSL λ°©λ²λ‘ μ μ€ννκ³ λΉκ΅.
-
Sparsh (MAE): μ΄λ―Έμ§μ μΌλΆλ₯Ό κ°λ¦¬κ³ (masking), μ΄λ₯Ό ν½μ λ¨μλ‘ λ³΅μνλλ‘ νμ΅νλ μμ± λͺ¨λΈ.
-
Sparsh (DINO): νμ-κ΅μ¬(student-teacher) ꡬ쑰λ₯Ό ν΅ν΄, νμ λͺ¨λΈμ΄ κ΅μ¬ λͺ¨λΈμ μ μ¬ κ³΅κ°(latent space) ννμ λͺ¨λ°©νλλ‘ νμ΅νλ μκΈ° μ¦λ₯(self-distillation) λͺ¨λΈ.
-
Sparsh (IJEPA/V-JEPA): μ΄λ―Έμ§μ μΌλΆ(context)λ₯Ό λ³΄κ³ κ°λ €μ§ λΆλΆμ μ μ¬ κ³΅κ° ννμ μμΈ‘νλλ‘ νμ΅νλ μ‘°μΈνΈ μλ² λ© μμΈ‘(joint-embedding predictive) λͺ¨λΈ.
-
-
μ λ ₯ μ²λ¦¬: μκ°μ μ 보λ₯Ό ν¬μ°©νκΈ° μν΄, μκ° κ°κ²©μ λ λ κ°μ μ΄κ° μ΄λ―Έμ§λ₯Ό μ±λ μ°¨μμΌλ‘ κ²°ν©νμ¬ λͺ¨λΈμ μ λ ₯μΌλ‘ μ¬μ© (ItββItβ5β).
μ£Όμ μ±κ³Ό (Key Achievements)
-
λμ μ±λ₯ λ¬μ±: μ μνλ Sparsh λͺ¨λΈμ΄ κΈ°μ‘΄μ μλ-ν¬-μλ(E2E) λ°©μλ³΄λ€ νκ· 95.1% λ λμ μ±λ₯μ 보μ (νΉν λ μ΄λΈλ§λ λ°μ΄ν°κ° μ μ λ κ²©μ°¨κ° νΌ).
-
νμ€ λ²€μΉλ§ν¬(TacBench) κ°λ°: μ΄κ° νν μ°κ΅¬μ λ°μ μ μ΄μ§ν μ μλ νμ€νλ νκ° νλ μμν¬λ₯Ό μ΅μ΄λ‘ μ μ.
-
μ μ¬ κ³΅κ° νμ΅μ ν¨κ³Ό μ μ¦: ν½μ λ¨μ 볡μ(MAE)λ³΄λ€ μ μ¬ κ³΅κ°μμ νμ΅(DINO, IJEPA)νλ κ²μ΄ μ΄κ° νν νμ΅μ λ μ°μν¨μ μ€νμ μΌλ‘ μ¦λͺ .
-
κ΅μ°¨ μΌμ μΌλ°ν λ₯λ ₯: νμ΅λ ννμ΄ μλ‘μ΄ μ’ λ₯μ μΌμμλ λ¨ λͺ κ°μ λ°μ΄ν°(few-shot)λ§μΌλ‘ λΉ λ₯΄κ² μ μν¨μ 보μ¬μ€.