๐ง ๋์ ์๊ฐ / ๋นํ (My Thoughts / Critiques)
- ์ญ์ ์ฌ๋์ด ์ง์ ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ณ ๋งคํ์ํค๋๊ฒ ๊ฐ์ฅ ํจ์จ์ ์ด๊ตฌ๋
- ์ฝ 830,000๊ฐ๋ฅผ ์ฐ์ด์ text ๋งคํํ ์๊ฐ์ ํ๋ค๋ ๋๋จ..

์์ฝ
-
ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง ๋ฐฉ์ ์ ์: ๋ก๋ด์ ์ฅ๊ธฐ ์ถ๋ก (Long-Horizon Reasoning) ๋ฅ๋ ฅ ํฅ์์ ์ํด, ๊ธฐ์กด๋ณด๋ค 2.2๋ฐฐ ํจ์จ์ ์ธ ์ํฅ์(bottom-up) ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ๋ก ์ ์.
-
๋๊ท๋ชจ ๋ก๋ณดํฑ์ค ๋ฐ์ดํฐ์ ๊ตฌ์ถ: ์ ์๋ ๋ฐฉ์์ผ๋ก 3๊ฐ์ ์ค์ ์คํผ์ค ํ๊ฒฝ์์ 83๋ง ์ ๊ท๋ชจ์ (๋น๋์ค, ํ ์คํธ) ๋ฐ์ดํฐ์ โRoboVQAโ๋ฅผ ๊ตฌ์ถ ๋ฐ ๊ณต๊ฐ.
-
๊ต์ฐจ ํ์ต ๋ฐ SOTA ์ฑ๋ฅ ์ ์ฆ: ์ฌ๋์ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ต ์ ๋ก๋ด ์ ์ฉ ํ ์คํธ์์๋ ์ฑ๋ฅ์ด ํฅ์๋จ์ ์ฆ๋ช ํ์ผ๋ฉฐ, SOTA ๋ชจ๋ธ ๋๋น ์ธ์ง์ ๊ฐ์ ๋ฅ ์ 46% ๊ฐ์์ํด.
๋ชฉํ (Goal)
๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ โ์ปคํผ ํ ์ ๋ง๋ค์ด ์คโ์ ๊ฐ์ ์ฅ๊ธฐ์ ์ด๊ณ ๋ณต์กํ ๋ชฉํ๋ฅผ ์ค์ค๋ก ์ดํดํ๊ณ ๊ณํํ๋๋ก ๋ง๋๋ ๊ฒ์ ์ต์ข ๋ชฉํ๋ก ํฉ๋๋ค. ์ด๋ฅผ ์ํด, ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ ์์ง ๋ฐฉ์์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ณ ์ ํ์ต๋๋ค.
-
ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง ํจ๋ฌ๋ค์ ์ ์: ๋งค๋ฒ ํ๊ฒฝ์ ๋ฆฌ์ ํด์ผ ํ๋ ๋นํจ์จ์ ์ธ โ๋จ๊ณ๋ณ(step-by-step)โ ๋ฐฉ์์์ ๋ฒ์ด๋, ํ๋์ ๊ธด ๋ชฉํ๋ฅผ ์ฐ์์ ์ผ๋ก ์ํํ๋ โ์ฅ๊ธฐ ์ถ๋ก (Long-Horizon)โ ๋ฐฉ์์ ํตํด ๋ฐ์ดํฐ ์์ง ํจ์จ์ ๊ทน๋ํ(2.2๋ฐฐ ํฅ์) ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
-
ํ์ค ์ธ๊ณ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ํ์์ฑ ์ฆ๋ช : ์น์์ ์์ง๋ ๋ฐ์ดํฐ๋ก ํ์ต๋ ์ต์ฒจ๋จ VLM(Visual Language Model)๋ค์ด ์ค์ ๋ก๋ด ํ๊ฒฝ์์๋ ์ ๋ก์ท(zero-shot) ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค๋ ๊ฒ์ ๋ณด์ด๊ณ , ํ์ค ์ธ๊ณ์ ๊ธฐ๋ฐ์ ๋(grounded) ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํ์์ฑ์ ์ ๋์ ์ผ๋ก ์ฆ๋ช ํ๊ณ ์ ํฉ๋๋ค.
-
๋น์ฉ ํจ์จ์ ์ธ ํ์ต ์ ๋ต ๊ฒ์ฆ: ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด ํจ์ฌ ์ ๋ ดํ โ์ฌ๋โ์ ์์ฐ ๋น๋์ค(human embodiment)๋ฅผ ๋ก๋ด ๋ฐ์ดํฐ์ ํจ๊ป ํ์ต์์ผฐ์ ๋, ๋ก๋ด ์ ์ฉ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ์คํ๋ ค ๋ก๋ด ์ ์ด ์ฑ๋ฅ์ด ํฅ์๋๋์ง๋ฅผ ๊ฒ์ฆํ์ฌ, ๋น์ฉ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํฉ๋๋ค.
๋ฐ์ดํฐ (Data)
์ด๋ฌํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด RoboVQA๋ผ๋ ์๋ก์ด ๋๊ท๋ชจ ๋น๋์ค-ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์ง์ ๊ตฌ์ถํ์ต๋๋ค.
-
๊ท๋ชจ ๋ฐ ๊ตฌ์ฑ: ์ด 238์๊ฐ ๋ถ๋์ ๋น๋์ค์ 829,502๊ฐ์ (๋น๋์ค, ํ ์คํธ) ์ง์์๋ต ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
-
์์ง ํ๊ฒฝ: ํต์ ๋ ์คํ์ค์ด ์๋, ์ค์ ์คํผ์ค ๋น๋ฉ 3๊ณณ ์ ์ฒด๋ฅผ ๋ฌด๋๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ํ์ค์ฑ์ ๊ทน๋ํํ์ต๋๋ค.
-
๋ค์์ฑ ํ๋ณด (Bottom-up ๋ฐฉ์): ์ฐ๊ตฌ์๊ฐ ๋ฏธ๋ฆฌ ๊ณผ์ ๋ฅผ ์ ํ๋ ํํฅ์(top-down)์ด ์๋, ํฌ๋ผ์ฐ๋์์ฑ์ ํตํด ์ค์ ์ฌ์ฉ์๋ค์ด ์ํ๋ 29,520๊ฐ์ ๊ณ ์ ํ๊ณ ๋ค์ํ ์ฅ๊ธฐ/์ค๊ธฐ ๋ชฉํ๋ฅผ ์ํํ๋๋ก ํ์ฌ ๋ฐ์ดํฐ์ ํธํฅ์ ์ต์ํํ๊ณ ๋ค์์ฑ์ ํ๋ณดํ์ต๋๋ค.
-
๊ต์ฐจ ์ฃผ์ฒด (Cross-Embodiment) ๋ฐ์ดํฐ: ๋ฐ์ดํฐ ์์ง ํจ์จ์ ๋์ด๊ธฐ ์ํด, ์ค์ ๋ก๋ด ํ๋ฟ๋ง ์๋๋ผ ์ฌ๋์ ํ, ๊ทธ๋ฆฌ๊ณ ์ฌ๋์ด ๋๊ตฌ๋ฅผ ์ฅ ํ์ ์์ ์์ ์ดฌ์๋ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ์์งํ์ต๋๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ (Model Architecture)
๋ณธ ์ฐ๊ตฌ์ ํต์ฌ์ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ณด๋ค๋, ์ฐ๋ฆฌ๊ฐ ๊ตฌ์ถํ RoboVQA ๋ฐ์ดํฐ์ ์ ๊ฐ์น๋ฅผ ์ ์ฆํ๋ ๋ฐ ์์ต๋๋ค. ์ด๋ฅผ ์ํด ๊ธฐ์กด SOTA ๋น๋์ค-์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ๊ณ ํ์ธํ๋ํ์ต๋๋ค.
-
๊ธฐ๋ฐ ๋ชจ๋ธ: CoCa๋ฅผ ๋น๋์ค ์์ญ์ผ๋ก ํ์ฅํ VideoCoCa ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
-
ํต์ฌ ๊ตฌ์กฐ: ๋น๋์ค์ ํ ์คํธ๋ฅผ ๊ฐ๊ฐ ์ธ์ฝ๋ฉํ ๋ค, ๋์กฐ ํ์ต(contrastive learning)๊ณผ ์์ฑ ํ์ต(generative pretraining) ์ ํจ๊ป ์ฌ์ฉํ์ฌ ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ ๋ ฌํ๋ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ค.
-
์ฃผ์ ํน์ง (Video-Conditioned): ๋จ์ผ ์ด๋ฏธ์ง๊ฐ ์๋ ์ฌ๋ฌ ํ๋ ์(16 ํ๋ ์)์ ๋น๋์ค ํด๋ฆฝ์ ์ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ์, ์๊ฐ์ ํ๋ฆ ์์์ ๋ฐ์ํ๋ ๋์ ์ธ ๋ณํ์ ๋งฅ๋ฝ์ ์ดํดํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ฉ๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด ๋น๋์ค ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ๋ก๋ด์ ํ๋ ์ดํด์ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ์ ์ฆํฉ๋๋ค.
-
์ต์ข ๋ชจ๋ธ: VideoCoCa๋ฅผ RoboVQA ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ธํ๋ํ ์ต์ข ๋ชจ๋ธ์ RoboVQA-VideoCoCa๋ก ๋ช ๋ช ํฉ๋๋ค.
์ฃผ์ ์ฑ๊ณผ (Key Achievements)
-
ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ๋ก ํ๋ฆฝ: ์ ํต์ ์ธ ๋จ๊ณ๋ณ ์์ง ๋ฐฉ์ ๋๋น 2.2๋ฐฐ ๋์ ์ฒ๋ฆฌ๋์ ๋ณด์ด๋, ํจ์จ์ ์ด๊ณ ๋ค์ํ ์ํฅ์(bottom-up) ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ์ ์ ์ํ๊ณ ๊ทธ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค.
-
๋๊ท๋ชจ ๋ก๋ณดํฑ์ค VQA ๋ฐ์ดํฐ์ ๊ณต๊ฐ: ์ค์ ํ๊ฒฝ์์ ์์ง๋ 83๋ง ์ ๊ท๋ชจ์ RoboVQA ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ์ฌ ๋ก๋ณดํฑ์ค ์ปค๋ฎค๋ํฐ์ ๋ฐ์ ์ ๊ธฐ์ฌํ์ต๋๋ค.
-
ํ์ค ์ธ๊ณ์์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ: RoboVQA-VideoCoCa ๋ชจ๋ธ์ ๊ธฐ์กด SOTA ์ ๋ก์ท VLM ๋๋น ์ธ์ง์ ๊ฐ์ ๋ฅ (์ฌ๋์ ๋์์ด ํ์ํ ๋น์จ)์ 46%๋ ๋ฎ์ถ๋ฉฐ, ์ค์ ๋ก๋ด์ ์ฅ๊ธฐ ๋ชฉํ์ ๋ฐ๋ผ ์ฑ๊ณต์ ์ผ๋ก ๊ฐ์ด๋ํ ์ ์์์ ๋ณด์์ต๋๋ค.
-
๊ต์ฐจ ์ฃผ์ฒด ํ์ต์ ์ ํจ์ฑ ์ฆ๋ช : ๋ก๋ด ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๋ชจ๋ธ๋ณด๋ค, ์ ๋ ดํ ์ฌ๋ ๋ฐ์ดํฐ๋ฅผ ์์ด ํ์ตํ ๋ชจ๋ธ์ด ๋ก๋ด ํ ์คํธ ํ๊ฒฝ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ ์ฆ๋ช ํ์ฌ, ๋น์ฉ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ํ์ฅ์ ๊ธธ์ ์ด์์ต๋๋ค.
-
๋น๋์ค ์ ๋ณด์ ์ค์์ฑ ์ ๋ํ: ๋จ์ผ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ ๋๋ณด๋ค 16ํ๋ ์ ๋น๋์ค๋ฅผ ์ฌ์ฉํ์ ๋ ์ ์ฒด ๊ณผ์ ์์ ์๋ฌ์จ์ด ํ๊ท 19% ๊ฐ์ํจ์ ๋ณด์ฌ, ๋ก๋ด์ ์๊ณต๊ฐ ์ถ๋ก ์ ๋น๋์ค๊ฐ ํ์์ ์์ ์ ์ฆํ์ต๋๋ค