🧐 λ‚˜μ˜ 생각 / λΉ„νŒ (My Thoughts / Critiques)

1. λͺ¨λ‹¬λ¦¬ν‹° λ‚΄(Intra-modality) 관계 ν•™μŠ΅μ˜ μ€‘μš”μ„±

이 논문은 μ„œλ‘œ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°λ₯Ό ν•©μΉ˜κΈ° 전에, 각 λͺ¨λ‹¬λ¦¬ν‹° λ‚΄λΆ€μ˜ 의미 ꡬ쑰뢀터 νƒ„νƒ„ν•˜κ²Œ λ§Œλ“€μ–΄μ•Ό ν•œλ‹€κ³  강쑰함

  • μ‹œκ° 데이터: λΉ„μŠ·ν•œ μ§ˆκ°μ΄λ‚˜ ν˜•νƒœλ₯Ό κ°€μ§„ 이미지 μž„λ² λ”©μ€ μ„œλ‘œ κ°€κΉκ²Œ μœ„μΉ˜ ν•΄μ•Ό ν•œλ‹€.

  • 촉각 ν˜•μš©μ‚¬: β€œλ§€λ„λŸ¬μš΄β€, β€œλΆ€λ“œλŸ¬μš΄β€κ³Ό 같이 μ˜λ―Έκ°€ μœ μ‚¬ν•œ ν˜•μš©μ‚¬ μž„λ² λ”©μ€ μ„œλ‘œ κ°€κΉκ²Œ μœ„μΉ˜ν•΄μ•Ό ν•œλ‹€.

  • 촉각 μ‹œκ³„μ—΄: μœ μ‚¬ν•œ μ••λ ₯·진동 νŒ¨ν„΄μ„ λ³΄μ΄λŠ” μ‹œκ³„μ—΄ λ°μ΄ν„°μ˜ μž„λ² λ”©μ€ μ„œλ‘œ κ°€κΉκ²Œ μœ„μΉ˜ν•΄μ•Ό ν•œλ‹€.

CrossCLR의 λͺ¨λ‹¬λ¦¬ν‹° λ‚΄ μ •λ ¬(Intra-modality Alignment) 손싀을 μ μš©ν•˜λ©΄, λ‹¨μˆœνžˆ μ‹œκ°κ³Ό 촉각을 μ—°κ²°ν•˜λŠ” 것을 λ„˜μ–΄ 각 λ°μ΄ν„°μ˜ ν‘œν˜„ 곡간 자체λ₯Ό λ”μš± μ •κ΅ν•˜κ²Œ λ§Œλ“€ 수 μžˆλ‹€.

2. β€˜κ±°μ§“ λΆ€μ •(False Negative)’ 문제 ν•΄κ²°

쑰인트 μž„λ² λ”© μ‹œ λ°œμƒν•  수 μžˆλŠ” 고질적인 문제λ₯Ό ν•΄κ²°ν•  방법

  • 문제 상황 μ˜ˆμ‹œ:

    • 데이터 쌍 A: (λ‚˜λ¬΄ νƒμž 이미지, β€œκ±°μΉ λ‹€β€ ν˜•μš©μ‚¬, νŠΉμ • 질감의 μ‹œκ³„μ—΄ 데이터)

    • 데이터 쌍 B: (사포 이미지, β€œκ±°μΉ λ‹€β€ ν˜•μš©μ‚¬, A와 거의 λ™μΌν•œ 질감의 μ‹œκ³„μ—΄ 데이터)

    기쑴의 일반적인 λŒ€μ‘° ν•™μŠ΅ 방법은 A와 Bκ°€ μ„œλ‘œ λ‹€λ₯Έ μƒ˜ν”Œμ΄λΌλŠ” 이유둜, β€˜λ‚˜λ¬΄ νƒμžβ€™ 이미지와 β€˜μ‚¬ν¬β€™ 이미지λ₯Ό μž„λ² λ”© κ³΅κ°„μ—μ„œ μ„œλ‘œ 밀어내도둝 ν•™μŠ΅ν•œλ‹€. ν•˜μ§€λ§Œ μ΄‰κ°μ μœΌλ‘œλŠ” β€œκ±°μΉ λ‹€β€λŠ” 곡톡점을 κ°€μ§€λ―€λ‘œ, μ΄λŠ” μš°λ¦¬κ°€ μ›ν•˜λŠ” λ°©ν–₯이 μ•„λ‹ˆλ©° 이것이 λ°”λ‘œ 이 λ…Όλ¬Έμ—μ„œ μ§€μ ν•˜λŠ” **의미 좩돌(semantic collision)**이닀.

  • CrossCLR의 ν•΄κ²°μ±… 적용: λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•œ β€˜μ˜ν–₯λ ₯ μžˆλŠ” μƒ˜ν”Œ(influential samples)’ κ°œλ…μ„ ν™œμš©

    • 예λ₯Ό λ“€μ–΄, β€œκ±°μΉ λ‹€β€λΌλŠ” ν˜•μš©μ‚¬λ‚˜ νŠΉμ • μ‹œκ³„μ—΄ νŒ¨ν„΄μ„ κ³΅μœ ν•˜λŠ” μƒ˜ν”Œλ“€μ€ μ„œλ‘œ κ°•ν•œ 연결성을 κ°€μ§„λ‹€.

    • CrossCLR의 λ°©μ‹μ²˜λŸΌ, ν•™μŠ΅ κ³Όμ •μ—μ„œ μ΄λŸ¬ν•œ μƒ˜ν”Œλ“€μ„ **λΆ€μ • μƒ˜ν”Œ μ§‘ν•©μ—μ„œ μ œμ™Έ(pruning)**ν•˜λ©΄, λͺ¨λΈμ€ μ‹œκ°μ μœΌλ‘œλŠ” λ‹€λ₯΄λ”라도 μ΄‰κ°μ μœΌλ‘œ μœ μ‚¬ν•œ μƒ˜ν”Œλ“€μ„ 더 이상 λ°€μ–΄λ‚΄μ§€ μ•ŠλŠ”λ‹€.

    • 이λ₯Ό 톡해 β€˜μ‹œκ° μ •λ³΄λŠ” λ‹€λ₯΄μ§€λ§Œ 촉각 μ •λ³΄λŠ” λ™μΌν•œβ€™ 볡합적인 관계λ₯Ό μž„λ² λ”© 곡간에 효과적으둜 ν‘œν˜„ν•  수 있게 λœλ‹€.


λͺ©ν‘œ (Goal)

  • κΈ°μ‘΄ 닀쀑 λͺ¨λ‹¬ λŒ€μ‘° ν•™μŠ΅(contrastive learning)의 두 κ°€μ§€ μ£Όμš” 문제 해결을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.

    • λͺ¨λ‹¬λ¦¬ν‹° λ‚΄(Intra-modality) μœ μ‚¬μ„± κ°„κ³Ό: μ„œλ‘œ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°(예: λΉ„λ””μ˜€μ™€ ν…μŠ€νŠΈ)λ₯Ό μ—°κ²°ν•˜λŠ” 데만 μ§‘μ€‘ν•˜κ³ , 동일 λͺ¨λ‹¬λ¦¬ν‹° λ‚΄μ—μ„œ μ˜λ―Έκ°€ λΉ„μŠ·ν•œ μƒ˜ν”ŒλΌλ¦¬ κ°€κΉκ²Œ λ§Œλ“œλŠ” 과정은 κ³ λ €ν•˜μ§€ μ•ŠλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€.

    • β€˜κ±°μ§“ λΆ€μ •(False Negative)’ 문제: λ‚΄μš©μ΄ μœ μ‚¬ν•¨μ—λ„ λΆˆκ΅¬ν•˜κ³  긍정 쌍(positive pair)이 μ•„λ‹ˆλΌλŠ” 이유만으둜 λΆ€μ • μƒ˜ν”Œ(negative sample)둜 μ·¨κΈ‰λ˜μ–΄, λͺ¨λΈμ΄ 였히렀 의미적으둜 λΉ„μŠ·ν•œ μƒ˜ν”Œλ“€μ„ μ„œλ‘œ 밀어내도둝 ν•™μŠ΅ν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€.

  • ꢁ극적으둜, λͺ¨λ‹¬λ¦¬ν‹° κ°„ 그리고 λͺ¨λ‹¬λ¦¬ν‹° λ‚΄μ˜ 의미 ꡬ쑰λ₯Ό λͺ¨λ‘ 잘 λ³΄μ‘΄ν•˜λŠ”

    효율적이고 ν’λΆ€ν•œ κ²°ν•© μž„λ² λ”© 곡간(joint embedding space)을 ν•™μŠ΅ν•˜λŠ” 것이 μ΅œμ’… λͺ©ν‘œμž…λ‹ˆλ‹€.

데이터 (Data)

  • 주둜 두 개의 곡개 λΉ„λ””μ˜€-ν…μŠ€νŠΈ 데이터셋을 μ‚¬μš©ν•˜μ—¬ μ‹€ν—˜μ„ μ§„ν–‰ν–ˆμŠ΅λ‹ˆλ‹€.

    • YouCook2: 89κ°€μ§€ μš”λ¦¬λ²•μ— λŒ€ν•œ 2,000개의 instructional video와 각 λΉ„λ””μ˜€ 클립에 λŒ€ν•œ ν…μŠ€νŠΈ μ„€λͺ…μœΌλ‘œ κ΅¬μ„±λ©λ‹ˆλ‹€.

    • LSMDC: 202편의 μ˜ν™”μ—μ„œ μΆ”μΆœν•œ 118,081개의 짧은 λΉ„λ””μ˜€ 클립과 이에 ν•΄λ‹Ήν•˜λŠ” μΊ‘μ…˜(λŒ€λ³Έ λ˜λŠ” μ˜€λ””μ˜€ μ„€λͺ…)으둜 κ΅¬μ„±λ©λ‹ˆλ‹€.

λͺ¨λΈ ꡬ쑰 (Model Architecture)

  • 기쑴의 SOTA λΉ„λ””μ˜€-ν…μŠ€νŠΈ ν•™μŠ΅ λͺ¨λΈμΈ COOT의 계측적 트랜슀포머(Hierarchical Transformer) ꡬ쑰λ₯Ό 기반으둜 ν•©λ‹ˆλ‹€.

  • λΉ„λ””μ˜€μ™€ ν…μŠ€νŠΈ 각각을 μ²˜λ¦¬ν•˜λŠ” **두 개의 슀트림(two-stream)**으둜 κ΅¬μ„±λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

  • 각 μŠ€νŠΈλ¦Όμ€ 지역적(Local) νŠΈλžœμŠ€ν¬λ¨Έμ™€ 전역적(Global) 트랜슀포머의 2단계 ꡬ쑰λ₯Ό κ°€μ§‘λ‹ˆλ‹€.

    • Local Transformer: λΉ„λ””μ˜€ 클립(clip) λ˜λŠ” ν…μŠ€νŠΈ λ¬Έμž₯(sentence) λ‹¨μœ„μ˜ μž„λ² λ”©μ„ μƒμ„±ν•©λ‹ˆλ‹€.

    • Global Transformer: Local μž„λ² λ”©λ“€μ„ μž…λ ₯λ°›μ•„ 전체 λΉ„λ””μ˜€(video) λ˜λŠ” 단락(paragraph) λ‹¨μœ„μ˜ μ΅œμ’… μž„λ² λ”©μ„ μƒμ„±ν•©λ‹ˆλ‹€.

  • 이 λ…Όλ¬Έμ˜ 핡심은 μ•„ν‚€ν…μ²˜ 자체의 λ…μ°½μ„±λ³΄λ‹€λŠ”, 이 ꡬ쑰 μœ„μ—μ„œ μž‘λ™ν•˜λŠ” μƒˆλ‘œμš΄ 손싀 ν•¨μˆ˜(Loss Function)인 CrossCLR을 μ œμ•ˆν•œ κ²ƒμž…λ‹ˆλ‹€.

μ£Όμš” μ„±κ³Ό (Key Achievements)

  • λΉ„λ””μ˜€-ν…μŠ€νŠΈ 검색(Retrieval) μ„±λŠ₯ SOTA 달성: YouCook2와 LSMDC 데이터셋 λͺ¨λ‘μ—μ„œ ν…μŠ€νŠΈ-λΉ„λ””μ˜€ 검색 μž‘μ—…μ˜ κΈ°μ‘΄ 졜고 μ„±λŠ₯(SOTA)을 큰 차이둜 κ²½μ‹ ν–ˆμŠ΅λ‹ˆλ‹€.

  • λΉ„λ””μ˜€ 캑셔닝(Captioning) μ„±λŠ₯ ν–₯상: CrossCLR둜 ν•™μŠ΅ν•œ μž„λ² λ”©μ„ λΉ„λ””μ˜€ 캑셔닝 λͺ¨λΈμ— μ μš©ν–ˆμ„ λ•Œ, YouCook2 λ°μ΄ν„°μ…‹μ—μ„œ SOTA μ„±λŠ₯을 λ‹¬μ„±ν•˜μ—¬ ν•™μŠ΅λœ μž„λ² λ”©μ˜ μš°μˆ˜μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

  • μΌλ°˜μ„±(Generality) μž…μ¦: μ œμ•ˆλœ CrossCLR 손싀 ν•¨μˆ˜κ°€ λΉ„λ””μ˜€-ν…μŠ€νŠΈ 쌍뿐만 μ•„λ‹ˆλΌ, λ‹€λ₯Έ μ’…λ₯˜μ˜ λͺ¨λ‹¬λ¦¬ν‹° 쌍(예: μ™Έν˜•-행동, μž₯λ©΄-객체) μ—μ„œλ„ μΌκ΄€λ˜κ²Œ μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 것을 보여주며 λ°©λ²•λ‘ μ˜ 높은 λ²”μš©μ„±μ„ 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.