π§ λμ μκ° / λΉν (My Thoughts / Critiques)
1. λͺ¨λ¬λ¦¬ν° λ΄(Intra-modality) κ΄κ³ νμ΅μ μ€μμ±
μ΄ λ Όλ¬Έμ μλ‘ λ€λ₯Έ λͺ¨λ¬λ¦¬ν°λ₯Ό ν©μΉκΈ° μ μ, κ° λͺ¨λ¬λ¦¬ν° λ΄λΆμ μλ―Έ ꡬ쑰λΆν° νννκ² λ§λ€μ΄μΌ νλ€κ³ κ°μ‘°ν¨
-
μκ° λ°μ΄ν°: λΉμ·ν μ§κ°μ΄λ ννλ₯Ό κ°μ§ μ΄λ―Έμ§ μλ² λ©μ μλ‘ κ°κΉκ² μμΉ ν΄μΌ νλ€.
-
μ΄κ° νμ©μ¬: βλ§€λλ¬μ΄β, βλΆλλ¬μ΄βκ³Ό κ°μ΄ μλ―Έκ° μ μ¬ν νμ©μ¬ μλ² λ©μ μλ‘ κ°κΉκ² μμΉν΄μΌ νλ€.
-
μ΄κ° μκ³μ΄: μ μ¬ν μλ ₯Β·μ§λ ν¨ν΄μ 보μ΄λ μκ³μ΄ λ°μ΄ν°μ μλ² λ©μ μλ‘ κ°κΉκ² μμΉν΄μΌ νλ€.
CrossCLRμ λͺ¨λ¬λ¦¬ν° λ΄ μ λ ¬(Intra-modality Alignment) μμ€μ μ μ©νλ©΄, λ¨μν μκ°κ³Ό μ΄κ°μ μ°κ²°νλ κ²μ λμ΄ κ° λ°μ΄ν°μ νν κ³΅κ° μ체λ₯Ό λμ± μ κ΅νκ² λ§λ€ μ μλ€.
2. βκ±°μ§ λΆμ (False Negative)β λ¬Έμ ν΄κ²°
μ‘°μΈνΈ μλ² λ© μ λ°μν μ μλ κ³ μ§μ μΈ λ¬Έμ λ₯Ό ν΄κ²°ν λ°©λ²
-
λ¬Έμ μν© μμ:
-
λ°μ΄ν° μ A: (λ무 νμ μ΄λ―Έμ§, βκ±°μΉ λ€β νμ©μ¬, νΉμ μ§κ°μ μκ³μ΄ λ°μ΄ν°)
-
λ°μ΄ν° μ B: (μ¬ν¬ μ΄λ―Έμ§, βκ±°μΉ λ€β νμ©μ¬, Aμ κ±°μ λμΌν μ§κ°μ μκ³μ΄ λ°μ΄ν°)
κΈ°μ‘΄μ μΌλ°μ μΈ λμ‘° νμ΅ λ°©λ²μ Aμ Bκ° μλ‘ λ€λ₯Έ μνμ΄λΌλ μ΄μ λ‘, βλ무 νμβ μ΄λ―Έμ§μ βμ¬ν¬β μ΄λ―Έμ§λ₯Ό μλ² λ© κ³΅κ°μμ μλ‘ λ°μ΄λ΄λλ‘ νμ΅νλ€. νμ§λ§ μ΄κ°μ μΌλ‘λ βκ±°μΉ λ€βλ 곡ν΅μ μ κ°μ§λ―λ‘, μ΄λ μ°λ¦¬κ° μνλ λ°©ν₯μ΄ μλλ©° μ΄κ²μ΄ λ°λ‘ μ΄ λ Όλ¬Έμμ μ§μ νλ **μλ―Έ μΆ©λ(semantic collision)**μ΄λ€.
-
-
CrossCLRμ ν΄κ²°μ± μ μ©: λ Όλ¬Έμμ μ μν βμν₯λ ₯ μλ μν(influential samples)β κ°λ μ νμ©
-
μλ₯Ό λ€μ΄, βκ±°μΉ λ€βλΌλ νμ©μ¬λ νΉμ μκ³μ΄ ν¨ν΄μ 곡μ νλ μνλ€μ μλ‘ κ°ν μ°κ²°μ±μ κ°μ§λ€.
-
CrossCLRμ λ°©μμ²λΌ, νμ΅ κ³Όμ μμ μ΄λ¬ν μνλ€μ **λΆμ μν μ§ν©μμ μ μΈ(pruning)**νλ©΄, λͺ¨λΈμ μκ°μ μΌλ‘λ λ€λ₯΄λλΌλ μ΄κ°μ μΌλ‘ μ μ¬ν μνλ€μ λ μ΄μ λ°μ΄λ΄μ§ μλλ€.
-
μ΄λ₯Ό ν΅ν΄ βμκ° μ 보λ λ€λ₯΄μ§λ§ μ΄κ° μ 보λ λμΌνβ 볡ν©μ μΈ κ΄κ³λ₯Ό μλ² λ© κ³΅κ°μ ν¨κ³Όμ μΌλ‘ ννν μ μκ² λλ€.
-

λͺ©ν (Goal)
-
κΈ°μ‘΄ λ€μ€ λͺ¨λ¬ λμ‘° νμ΅(contrastive learning)μ λ κ°μ§ μ£Όμ λ¬Έμ ν΄κ²°μ λͺ©νλ‘ ν©λλ€.
-
λͺ¨λ¬λ¦¬ν° λ΄(Intra-modality) μ μ¬μ± κ°κ³Ό: μλ‘ λ€λ₯Έ λͺ¨λ¬λ¦¬ν°(μ: λΉλμ€μ ν μ€νΈ)λ₯Ό μ°κ²°νλ λ°λ§ μ§μ€νκ³ , λμΌ λͺ¨λ¬λ¦¬ν° λ΄μμ μλ―Έκ° λΉμ·ν μνλΌλ¦¬ κ°κΉκ² λ§λλ κ³Όμ μ κ³ λ €νμ§ μλ λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€.
-
βκ±°μ§ λΆμ (False Negative)β λ¬Έμ : λ΄μ©μ΄ μ μ¬ν¨μλ λΆκ΅¬νκ³ κΈμ μ(positive pair)μ΄ μλλΌλ μ΄μ λ§μΌλ‘ λΆμ μν(negative sample)λ‘ μ·¨κΈλμ΄, λͺ¨λΈμ΄ μ€νλ € μλ―Έμ μΌλ‘ λΉμ·ν μνλ€μ μλ‘ λ°μ΄λ΄λλ‘ νμ΅νλ λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€.
-
-
κΆκ·Ήμ μΌλ‘, λͺ¨λ¬λ¦¬ν° κ° κ·Έλ¦¬κ³ λͺ¨λ¬λ¦¬ν° λ΄μ μλ―Έ ꡬ쑰λ₯Ό λͺ¨λ μ 보쑴νλ
ν¨μ¨μ μ΄κ³ νλΆν κ²°ν© μλ² λ© κ³΅κ°(joint embedding space)μ νμ΅νλ κ²μ΄ μ΅μ’ λͺ©νμ λλ€.
λ°μ΄ν° (Data)
-
μ£Όλ‘ λ κ°μ κ³΅κ° λΉλμ€-ν μ€νΈ λ°μ΄ν°μ μ μ¬μ©νμ¬ μ€νμ μ§ννμ΅λλ€.
-
YouCook2: 89κ°μ§ μ리λ²μ λν 2,000κ°μ instructional videoμ κ° λΉλμ€ ν΄λ¦½μ λν ν μ€νΈ μ€λͺ μΌλ‘ ꡬμ±λ©λλ€.
-
LSMDC: 202νΈμ μνμμ μΆμΆν 118,081κ°μ μ§§μ λΉλμ€ ν΄λ¦½κ³Ό μ΄μ ν΄λΉνλ μΊ‘μ (λλ³Έ λλ μ€λμ€ μ€λͺ )μΌλ‘ ꡬμ±λ©λλ€.
-
λͺ¨λΈ ꡬ쑰 (Model Architecture)
-
κΈ°μ‘΄μ SOTA λΉλμ€-ν μ€νΈ νμ΅ λͺ¨λΈμΈ COOTμ κ³μΈ΅μ νΈλμ€ν¬λ¨Έ(Hierarchical Transformer) ꡬ쑰λ₯Ό κΈ°λ°μΌλ‘ ν©λλ€.
-
λΉλμ€μ ν μ€νΈ κ°κ°μ μ²λ¦¬νλ **λ κ°μ μ€νΈλ¦Ό(two-stream)**μΌλ‘ ꡬμ±λμ΄ μμ΅λλ€.
-
κ° μ€νΈλ¦Όμ μ§μμ (Local) νΈλμ€ν¬λ¨Έμ μ μμ (Global) νΈλμ€ν¬λ¨Έμ 2λ¨κ³ ꡬ쑰λ₯Ό κ°μ§λλ€.
-
Local Transformer: λΉλμ€ ν΄λ¦½(clip) λλ ν μ€νΈ λ¬Έμ₯(sentence) λ¨μμ μλ² λ©μ μμ±ν©λλ€.
-
Global Transformer: Local μλ² λ©λ€μ μ λ ₯λ°μ μ 체 λΉλμ€(video) λλ λ¨λ½(paragraph) λ¨μμ μ΅μ’ μλ² λ©μ μμ±ν©λλ€.
-
-
μ΄ λ Όλ¬Έμ ν΅μ¬μ μν€ν μ² μ체μ λ μ°½μ±λ³΄λ€λ, μ΄ κ΅¬μ‘° μμμ μλνλ μλ‘μ΄ μμ€ ν¨μ(Loss Function)μΈ CrossCLRμ μ μν κ²μ λλ€.
μ£Όμ μ±κ³Ό (Key Achievements)
-
λΉλμ€-ν μ€νΈ κ²μ(Retrieval) μ±λ₯ SOTA λ¬μ±: YouCook2μ LSMDC λ°μ΄ν°μ λͺ¨λμμ ν μ€νΈ-λΉλμ€ κ²μ μμ μ κΈ°μ‘΄ μ΅κ³ μ±λ₯(SOTA)μ ν° μ°¨μ΄λ‘ κ²½μ νμ΅λλ€.
-
λΉλμ€ μΊ‘μ λ(Captioning) μ±λ₯ ν₯μ: CrossCLRλ‘ νμ΅ν μλ² λ©μ λΉλμ€ μΊ‘μ λ λͺ¨λΈμ μ μ©νμ λ, YouCook2 λ°μ΄ν°μ μμ SOTA μ±λ₯μ λ¬μ±νμ¬ νμ΅λ μλ² λ©μ μ°μμ±μ μ μ¦νμ΅λλ€.
-
μΌλ°μ±(Generality) μ μ¦: μ μλ CrossCLR μμ€ ν¨μκ° λΉλμ€-ν μ€νΈ μλΏλ§ μλλΌ, λ€λ₯Έ μ’ λ₯μ λͺ¨λ¬λ¦¬ν° μ(μ: μΈν-νλ, μ₯λ©΄-κ°μ²΄) μμλ μΌκ΄λκ² μ±λ₯μ ν₯μμν€λ κ²μ 보μ¬μ£Όλ©° λ°©λ²λ‘ μ λμ λ²μ©μ±μ μ¦λͺ νμ΅λλ€.