๐Ÿง ๋‚˜์˜ ์ƒ๊ฐ / ๋น„ํŒ (My Thoughts / Critiques)

  • ์ด‰๊ฐ-์‹œ๊ฐ-์–ธ์–ด ์ž„๋ฒ ๋”ฉ๊ณผ ๊ทธ์— ๋”ฐ๋ฅธ ๋Œ€ํ‘œ์ ์ธ ํ•˜์œ„ ์ŠคํŠธ๋ฆผ์„ ๋ถ™์ธ ๋…ผ๋ฌธ
  • ์•„ํ‚คํ…์ณ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ผํ•˜๊ธฐ ์•„์ฃผ ๋ชจ๋ฒ”์ ์ž„

๊ฐ„๋žตํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ ์ž์„ธํ•œ ๋ชจ๋ธ ๊ตฌ์กฐ

1. ๋ชฉํ‘œ (Goal)

  • ์ธ๊ฐ„์˜ ํ•ต์‹ฌ ๊ฐ๊ฐ์ธ ์ด‰๊ฐ(Touch)์„ ์‹œ๊ฐ(Vision), ์–ธ์–ด(Language)์™€ ํ†ตํ•ฉํ•˜์—ฌ, ๋‹ค์ค‘๋ชจ๋“œ(multimodal) ์–ธ์–ด ๋ชจ๋ธ์ด ์ด‰๊ฐ์„ ์ดํ•ดํ•˜๊ณ  ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•จ.

  • ์ด‰๊ฐ ๋ฐ์ดํ„ฐ์™€ ์ด๋ฅผ ์„ค๋ช…ํ•˜๋Š” ์–ธ์–ด ๋ผ๋ฒจ์˜ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•จ.

  • ์ž…๋ ฅ์œผ๋กœ ์ด‰๊ฐ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์™€, ์‹œ๊ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด๊ฐ€ ๋ชจ๋ธ์€ ํ•ด๋‹น ์ž…๋ ฅ๊ฐ’์— ์ ์ ˆํ•œ ์ด‰๊ฐ ํ˜•์šฉ์‚ฌ๋ฅผ ์ถœ๋ ฅํ•ด์คŒ.


2. ๋ฐ์ดํ„ฐ (Data)

  • ๋ฐ์ดํ„ฐ์…‹๋ช…: TVL (Touch-Vision-Language) Dataset.

  • ๊ทœ๋ชจ: ์ด 44,000๊ฐœ์˜ ์ด‰๊ฐ-์‹œ๊ฐ ๋ฐ์ดํ„ฐ ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋จ.

  • ๊ตฌ์„ฑ ์š”์†Œ:

    • Tactile: DIGIT ์„ผ์„œ๋ฅผ ํ†ตํ•ด ์–ป์€ RGB ์ด๋ฏธ์ง€ ํ˜•ํƒœ์˜ ์ด‰๊ฐ ์ •๋ณด.

    • Vision: ์›น์บ ์œผ๋กœ ์ดฌ์˜ํ•œ ๊ฐ์ฒด์˜ ์‹œ๊ฐ ์ด๋ฏธ์ง€.

    • Language: ์ด‰๊ฐ์„ ๋ฌ˜์‚ฌํ•˜๋Š” ์ž์—ฐ์–ด ํ˜•์šฉ์‚ฌ.

  • ๋ผ๋ฒจ๋ง ๋ฐฉ์‹:

    • 10% (์•ฝ 4.6K): ์‚ฌ๋žŒ์ด ์ง์ ‘ ์ด‰๊ฐ ๋ฌ˜์‚ฌ ๋ผ๋ฒจ์„ ์ž‘์„ฑ.

    • 90% (์•ฝ 39K): GPT-4V๋ฅผ ์ด์šฉํ•ด ์‹œ๊ฐ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ์ด‰๊ฐ ๋ฌ˜์‚ฌ ๋ผ๋ฒจ์„ ์ž๋™ ์ƒ์„ฑ (์œ ์‚ฌ ๋ผ๋ฒจ๋ง, Pseudo-Labeling).


3. ๋ชจ๋ธ ๊ตฌ์กฐ (Model Architecture)

  • ๊ธฐ๋ฐ˜ ๋ชจ๋ธ: LLaMA 2 ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ.

  • ์ธ์ฝ”๋” (Encoders):

    • ์ด‰๊ฐ ์ธ์ฝ”๋”: **Vision Transformer (ViT)**๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด‰๊ฐ ์ด๋ฏธ์ง€๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜.

    • ์‹œ๊ฐ/์–ธ์–ด ์ธ์ฝ”๋”: OpenCLIP์˜ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์ธ์ฝ”๋”๋ฅผ ํ™œ์šฉ.

  • ํ•™์Šต ๋ฐฉ์‹ (์ •๋ ฌ ๊ธฐ๋ฒ•):

    • ์„ธ ๊ฐ€์ง€ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ(์ด‰๊ฐ, ์‹œ๊ฐ, ์–ธ์–ด)๋ฅผ ํ•˜๋‚˜์˜ ์˜๋ฏธ ๊ณต๊ฐ„์— ์ •๋ ฌํ•˜๊ธฐ ์œ„ํ•ด **์Œ๋ณ„ ๋Œ€์กฐ ํ•™์Šต (Pairwise Contrastive Learning)**์„ ์‚ฌ์šฉํ•จ.

    • ์ด‰๊ฐ-์‹œ๊ฐ, ์ด‰๊ฐ-์–ธ์–ด, ์‹œ๊ฐ-์–ธ์–ด ๋“ฑ ๋ชจ๋“  ์Œ์— ๋Œ€ํ•ด ์ง์ ‘์ ์ธ ๊ด€๊ณ„๋ฅผ ํ•™์Šต์‹œ์ผœ, ํŠนํžˆ ์ด‰๊ฐ๊ณผ ์–ธ์–ด์˜ ์˜๋ฏธ์  ์—ฐ๊ฒฐ์„ ๊ฐ•ํ™”ํ•จ.


4. ์ฃผ์š” ์„ฑ๊ณผ (Key Achievements)

  • ์„ธ๊ณ„ ์ตœ์ดˆ๋กœ ์ด‰๊ฐ, ์‹œ๊ฐ, ๊ฐœ๋ฐฉํ˜• ์–ดํœ˜ ์–ธ์–ด๋ฅผ ํ†ตํ•ฉํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ TVL์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๊ณต๊ฐœํ•จ.

  • ์†Œ๋Ÿ‰์˜ ์ธ๊ฐ„ ๋ผ๋ฒจ๊ณผ ๋Œ€๋Ÿ‰์˜ AI ์ƒ์„ฑ ๋ผ๋ฒจ์„ ํ˜ผํ•ฉํ•˜์—ฌ ํ•™์Šตํ•œ ๋ชจ๋ธ(TVL-LLaMA)์ด, ๋ผ๋ฒจ ์ƒ์„ฑ์— ์‚ฌ์šฉ๋œ ์›๋ณธ AI(GPT-4V)๋ณด๋‹ค 12% ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž„์„ ์ž…์ฆํ•จ.

  • ์ด‰๊ฐ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•œ TVL-LLaMA ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด TVL ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด์˜ ๋‹ค๋ฅธ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ๋“ค๋ณด๋‹ค

    ์ตœ์†Œ 12% ์ด์ƒ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ.

  • ์ด‰๊ฐ-์–ธ์–ด ๊ฐ„์˜ ์ง์ ‘์ ์ธ ๋Œ€์กฐ ํ•™์Šต์ด ๋ชจ๋ธ ์„ฑ๋Šฅ์— ๊ฒฐ์ •์ ์ด๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ด‰๊ฐ-์–ธ์–ด ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋ฅผ

    29% ํ–ฅ์ƒ์‹œํ‚ด.


5. ํ–ฅํ›„ ๋ฐฉํ–ฅ

  • ์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์žฅ ํฐ ํŠน์ง•์ด์ž ํ•œ๊ณ„๋Š” ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ **์ •์  ์ด๋ฏธ์ง€(static image)**๋กœ ๋‹ค๋ฃจ์—ˆ๋‹ค๋Š” ์ .

  • ์šฐ๋ฆฌ์˜ ์—ฐ๊ตฌ๋Š” ์‹œ๊ณ„์—ด(time-series) ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, ์—ฌ๊ธฐ์„œ ๋…์ฐฝ์„ฑ์„ ์ฃผ์žฅ ํ•  ์ˆ˜ ์žˆ์Œ.

  • ๋…ผ๋ฌธ/ํŠนํ—ˆ ์ „๋žต: โ€œ์„ ํ–‰ ์—ฐ๊ตฌ(์ด ๋…ผ๋ฌธ)๋Š” ์ •์  ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ด ์ด‰๊ฐ-์‹œ๊ฐ-์–ธ์–ด ์ž„๋ฒ ๋”ฉ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์ง€๋งŒ, ์‹œ๊ฐ„์  ์—ฐ์†์„ฑ๊ณผ ๋™์  ์ •๋ณด๋ฅผ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์—ฌ๊ธฐ์„œ ๋” ๋‚˜์•„๊ฐ€ ์‹œ๊ณ„์—ด ์ด‰๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ธ์ฝ”๋”๋ฅผ ๋„์ž…ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋™์  ์งˆ๊ฐ, ์••๋ ฅ ๋ณ€ํ™” ๋“ฑ ๋” ํ’๋ถ€ํ•œ ์ด‰๊ฐ ์ •๋ณด๋ฅผ ์–ธ์–ด ๋ฐ ์‹œ๊ฐ๊ณผ ์„ฑ๊ณต์ ์œผ๋กœ ์ •๋ ฌํ–ˆ๋‹ค.โ€ ์™€ ๊ฐ™์ด ์—ฐ๊ตฌ์˜ ์ฐจ๋ณ„์ ์„ ๋ช…ํ™•ํžˆ ํ•  ์ˆ˜ ์žˆ์Œ.