๐Ÿง ๋‚˜์˜ ์ƒ๊ฐ / ๋น„ํŒ (My Thoughts / Critiques)

  • ์—ญ์‹œ ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค๊ณ  ๋งคํ•‘์‹œํ‚ค๋Š”๊ฒŒ ๊ฐ€์žฅ ํšจ์œจ์ ์ด๊ตฌ๋‚˜
  • ์•ฝ 830,000๊ฐœ๋ฅผ ์ฐ์–ด์„œ text ๋งคํ•‘ํ•  ์ƒ๊ฐ์„ ํ•˜๋‹ค๋‹ˆ ๋Œ€๋‹จ..

์š”์•ฝ

  • ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ์‹ ์ œ์•ˆ: ๋กœ๋ด‡์˜ ์žฅ๊ธฐ ์ถ”๋ก (Long-Horizon Reasoning) ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด, ๊ธฐ์กด๋ณด๋‹ค 2.2๋ฐฐ ํšจ์œจ์ ์ธ ์ƒํ–ฅ์‹(bottom-up) ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•๋ก  ์ œ์‹œ.

  • ๋Œ€๊ทœ๋ชจ ๋กœ๋ณดํ‹ฑ์Šค ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ์ œ์•ˆ๋œ ๋ฐฉ์‹์œผ๋กœ 3๊ฐœ์˜ ์‹ค์ œ ์˜คํ”ผ์Šค ํ™˜๊ฒฝ์—์„œ 83๋งŒ ์Œ ๊ทœ๋ชจ์˜ (๋น„๋””์˜ค, ํ…์ŠคํŠธ) ๋ฐ์ดํ„ฐ์…‹ โ€˜RoboVQAโ€™๋ฅผ ๊ตฌ์ถ• ๋ฐ ๊ณต๊ฐœ.

  • ๊ต์ฐจ ํ•™์Šต ๋ฐ SOTA ์„ฑ๋Šฅ ์ž…์ฆ: ์‚ฌ๋žŒ์˜ ์‹œ์—ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ํ•™์Šต ์‹œ ๋กœ๋ด‡ ์ „์šฉ ํ…Œ์ŠคํŠธ์—์„œ๋„ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ์„ ์ฆ๋ช…ํ–ˆ์œผ๋ฉฐ, SOTA ๋ชจ๋ธ ๋Œ€๋น„ ์ธ์ง€์  ๊ฐœ์ž…๋ฅ ์„ 46% ๊ฐ์†Œ์‹œํ‚ด.


๋ชฉํ‘œ (Goal)

๋กœ๋ด‡์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ โ€œ์ปคํ”ผ ํ•œ ์ž” ๋งŒ๋“ค์–ด ์ค˜โ€์™€ ๊ฐ™์€ ์žฅ๊ธฐ์ ์ด๊ณ  ๋ณต์žกํ•œ ๋ชฉํ‘œ๋ฅผ ์Šค์Šค๋กœ ์ดํ•ดํ•˜๊ณ  ๊ณ„ํšํ•˜๋„๋ก ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ์ตœ์ข… ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด, ๊ธฐ์กด ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ์‹์˜ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ œ์‹œ: ๋งค๋ฒˆ ํ™˜๊ฒฝ์„ ๋ฆฌ์…‹ํ•ด์•ผ ํ•˜๋Š” ๋น„ํšจ์œจ์ ์ธ โ€˜๋‹จ๊ณ„๋ณ„(step-by-step)โ€™ ๋ฐฉ์‹์—์„œ ๋ฒ—์–ด๋‚˜, ํ•˜๋‚˜์˜ ๊ธด ๋ชฉํ‘œ๋ฅผ ์—ฐ์†์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” โ€˜์žฅ๊ธฐ ์ถ”๋ก (Long-Horizon)โ€™ ๋ฐฉ์‹์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํšจ์œจ์„ ๊ทน๋Œ€ํ™”(2.2๋ฐฐ ํ–ฅ์ƒ) ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

  • ํ˜„์‹ค ์„ธ๊ณ„ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์˜ ํ•„์š”์„ฑ ์ฆ๋ช…: ์›น์—์„œ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ์ตœ์ฒจ๋‹จ VLM(Visual Language Model)๋“ค์ด ์‹ค์ œ ๋กœ๋ด‡ ํ™˜๊ฒฝ์—์„œ๋Š” ์ œ๋กœ์ƒท(zero-shot) ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง„๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์ด๊ณ , ํ˜„์‹ค ์„ธ๊ณ„์— ๊ธฐ๋ฐ˜์„ ๋‘”(grounded) ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์˜ ํ•„์š”์„ฑ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ฆ๋ช…ํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

  • ๋น„์šฉ ํšจ์œจ์ ์ธ ํ•™์Šต ์ „๋žต ๊ฒ€์ฆ: ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์ด ํ›จ์”ฌ ์ €๋ ดํ•œ โ€˜์‚ฌ๋žŒโ€™์˜ ์‹œ์—ฐ ๋น„๋””์˜ค(human embodiment)๋ฅผ ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ์™€ ํ•จ๊ป˜ ํ•™์Šต์‹œ์ผฐ์„ ๋•Œ, ๋กœ๋ด‡ ์ „์šฉ ๋ฐ์ดํ„ฐ๋กœ๋งŒ ํ•™์Šตํ•œ ๋ชจ๋ธ๋ณด๋‹ค ์˜คํžˆ๋ ค ๋กœ๋ด‡ ์ œ์–ด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š”์ง€๋ฅผ ๊ฒ€์ฆํ•˜์—ฌ, ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.


๋ฐ์ดํ„ฐ (Data)

์ด๋Ÿฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด RoboVQA๋ผ๋Š” ์ƒˆ๋กœ์šด ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ์ง์ ‘ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ทœ๋ชจ ๋ฐ ๊ตฌ์„ฑ: ์ด 238์‹œ๊ฐ„ ๋ถ„๋Ÿ‰์˜ ๋น„๋””์˜ค์™€ 829,502๊ฐœ์˜ (๋น„๋””์˜ค, ํ…์ŠคํŠธ) ์งˆ์˜์‘๋‹ต ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

  • ์ˆ˜์ง‘ ํ™˜๊ฒฝ: ํ†ต์ œ๋œ ์‹คํ—˜์‹ค์ด ์•„๋‹Œ, ์‹ค์ œ ์˜คํ”ผ์Šค ๋นŒ๋”ฉ 3๊ณณ ์ „์ฒด๋ฅผ ๋ฌด๋Œ€๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ํ˜„์‹ค์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋‹ค์–‘์„ฑ ํ™•๋ณด (Bottom-up ๋ฐฉ์‹): ์—ฐ๊ตฌ์ž๊ฐ€ ๋ฏธ๋ฆฌ ๊ณผ์ œ๋ฅผ ์ •ํ•˜๋Š” ํ•˜ํ–ฅ์‹(top-down)์ด ์•„๋‹Œ, ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ์„ ํ†ตํ•ด ์‹ค์ œ ์‚ฌ์šฉ์ž๋“ค์ด ์›ํ•˜๋Š” 29,520๊ฐœ์˜ ๊ณ ์œ ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์žฅ๊ธฐ/์ค‘๊ธฐ ๋ชฉํ‘œ๋ฅผ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํŽธํ–ฅ์„ ์ตœ์†Œํ™”ํ•˜๊ณ  ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ต์ฐจ ์ฃผ์ฒด (Cross-Embodiment) ๋ฐ์ดํ„ฐ: ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํšจ์œจ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด, ์‹ค์ œ ๋กœ๋ด‡ ํŒ”๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‚ฌ๋žŒ์˜ ํŒ”, ๊ทธ๋ฆฌ๊ณ  ์‚ฌ๋žŒ์ด ๋„๊ตฌ๋ฅผ ์ฅ” ํŒ”์˜ ์‹œ์ ์—์„œ ์ดฌ์˜๋œ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์ˆ˜์ง‘ํ–ˆ์Šต๋‹ˆ๋‹ค.


๋ชจ๋ธ ๊ตฌ์กฐ (Model Architecture)

๋ณธ ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ์€ ์ƒˆ๋กœ์šด ๋ชจ๋ธ ๊ตฌ์กฐ๋ณด๋‹ค๋Š”, ์šฐ๋ฆฌ๊ฐ€ ๊ตฌ์ถ•ํ•œ RoboVQA ๋ฐ์ดํ„ฐ์…‹์˜ ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ•˜๋Š” ๋ฐ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๊ธฐ์กด SOTA ๋น„๋””์˜ค-์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜๊ณ  ํŒŒ์ธํŠœ๋‹ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๊ธฐ๋ฐ˜ ๋ชจ๋ธ: CoCa๋ฅผ ๋น„๋””์˜ค ์˜์—ญ์œผ๋กœ ํ™•์žฅํ•œ VideoCoCa ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

  • ํ•ต์‹ฌ ๊ตฌ์กฐ: ๋น„๋””์˜ค์™€ ํ…์ŠคํŠธ๋ฅผ ๊ฐ๊ฐ ์ธ์ฝ”๋”ฉํ•œ ๋’ค, ๋Œ€์กฐ ํ•™์Šต(contrastive learning)๊ณผ ์ƒ์„ฑ ํ•™์Šต(generative pretraining) ์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋ฅผ ์ •๋ ฌํ•˜๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

  • ์ฃผ์š” ํŠน์ง• (Video-Conditioned): ๋‹จ์ผ ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹Œ ์—ฌ๋Ÿฌ ํ”„๋ ˆ์ž„(16 ํ”„๋ ˆ์ž„)์˜ ๋น„๋””์˜ค ํด๋ฆฝ์„ ์ง์ ‘ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„, ์‹œ๊ฐ„์˜ ํ๋ฆ„ ์†์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋™์ ์ธ ๋ณ€ํ™”์™€ ๋งฅ๋ฝ์„ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋น„๋””์˜ค ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด ๋กœ๋ด‡์˜ ํ–‰๋™ ์ดํ•ด์— ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

  • ์ตœ์ข… ๋ชจ๋ธ: VideoCoCa๋ฅผ RoboVQA ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•œ ์ตœ์ข… ๋ชจ๋ธ์„ RoboVQA-VideoCoCa๋กœ ๋ช…๋ช…ํ•ฉ๋‹ˆ๋‹ค.


์ฃผ์š” ์„ฑ๊ณผ (Key Achievements)

  • ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•๋ก  ํ™•๋ฆฝ: ์ „ํ†ต์ ์ธ ๋‹จ๊ณ„๋ณ„ ์ˆ˜์ง‘ ๋ฐฉ์‹ ๋Œ€๋น„ 2.2๋ฐฐ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋ณด์ด๋Š”, ํšจ์œจ์ ์ด๊ณ  ๋‹ค์–‘ํ•œ ์ƒํ–ฅ์‹(bottom-up) ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์‹œํ•˜๊ณ  ๊ทธ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ๋กœ๋ณดํ‹ฑ์Šค VQA ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ: ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ง‘๋œ 83๋งŒ ์Œ ๊ทœ๋ชจ์˜ RoboVQA ๋ฐ์ดํ„ฐ์…‹์„ ๊ณต๊ฐœํ•˜์—ฌ ๋กœ๋ณดํ‹ฑ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๋ฐœ์ „์— ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํ˜„์‹ค ์„ธ๊ณ„์—์„œ์˜ SOTA ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: RoboVQA-VideoCoCa ๋ชจ๋ธ์€ ๊ธฐ์กด SOTA ์ œ๋กœ์ƒท VLM ๋Œ€๋น„ ์ธ์ง€์  ๊ฐœ์ž…๋ฅ (์‚ฌ๋žŒ์˜ ๋„์›€์ด ํ•„์š”ํ•œ ๋น„์œจ)์„ 46%๋‚˜ ๋‚ฎ์ถ”๋ฉฐ, ์‹ค์ œ ๋กœ๋ด‡์„ ์žฅ๊ธฐ ๋ชฉํ‘œ์— ๋”ฐ๋ผ ์„ฑ๊ณต์ ์œผ๋กœ ๊ฐ€์ด๋“œํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • ๊ต์ฐจ ์ฃผ์ฒด ํ•™์Šต์˜ ์œ ํšจ์„ฑ ์ฆ๋ช…: ๋กœ๋ด‡ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ๋ณด๋‹ค, ์ €๋ ดํ•œ ์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋ฅผ ์„ž์–ด ํ•™์Šตํ•œ ๋ชจ๋ธ์ด ๋กœ๋ด‡ ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„์„ ์ฆ๋ช…ํ•˜์—ฌ, ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ํ™•์žฅ์˜ ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

  • ๋น„๋””์˜ค ์ •๋ณด์˜ ์ค‘์š”์„ฑ ์ •๋Ÿ‰ํ™”: ๋‹จ์ผ ์ด๋ฏธ์ง€๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋ณด๋‹ค 16ํ”„๋ ˆ์ž„ ๋น„๋””์˜ค๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ์ „์ฒด ๊ณผ์ œ์—์„œ ์—๋Ÿฌ์œจ์ด ํ‰๊ท  19% ๊ฐ์†Œํ•จ์„ ๋ณด์—ฌ, ๋กœ๋ด‡์˜ ์‹œ๊ณต๊ฐ„ ์ถ”๋ก ์— ๋น„๋””์˜ค๊ฐ€ ํ•„์ˆ˜์ ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค