๐ง ๋์ ์๊ฐ / ๋นํ (My Thoughts / Critiques)
- ์ด๊ฐ-์๊ฐ-์ธ์ด ์๋ฒ ๋ฉ๊ณผ ๊ทธ์ ๋ฐ๋ฅธ ๋ํ์ ์ธ ํ์ ์คํธ๋ฆผ์ ๋ถ์ธ ๋ ผ๋ฌธ
- ์ํคํ ์ณ ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ผํ๊ธฐ ์์ฃผ ๋ชจ๋ฒ์ ์
๊ฐ๋ตํ ๋ชจ๋ธ ๊ตฌ์กฐ
์์ธํ ๋ชจ๋ธ ๊ตฌ์กฐ
1. ๋ชฉํ (Goal)
-
์ธ๊ฐ์ ํต์ฌ ๊ฐ๊ฐ์ธ ์ด๊ฐ(Touch)์ ์๊ฐ(Vision), ์ธ์ด(Language)์ ํตํฉํ์ฌ, ๋ค์ค๋ชจ๋(multimodal) ์ธ์ด ๋ชจ๋ธ์ด ์ด๊ฐ์ ์ดํดํ๊ณ ์ค๋ช ํ ์ ์๋๋ก ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ.
-
์ด๊ฐ ๋ฐ์ดํฐ์ ์ด๋ฅผ ์ค๋ช ํ๋ ์ธ์ด ๋ผ๋ฒจ์ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ๋ธ์ ๊ฐ๋ฐํจ.
-
์ ๋ ฅ์ผ๋ก ์ด๊ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์, ์๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ค์ด๊ฐ ๋ชจ๋ธ์ ํด๋น ์ ๋ ฅ๊ฐ์ ์ ์ ํ ์ด๊ฐ ํ์ฉ์ฌ๋ฅผ ์ถ๋ ฅํด์ค.
2. ๋ฐ์ดํฐ (Data)
-
๋ฐ์ดํฐ์ ๋ช : TVL (Touch-Vision-Language) Dataset.
-
๊ท๋ชจ: ์ด 44,000๊ฐ์ ์ด๊ฐ-์๊ฐ ๋ฐ์ดํฐ ์์ผ๋ก ๊ตฌ์ฑ๋จ.
-
๊ตฌ์ฑ ์์:
-
Tactile: DIGIT ์ผ์๋ฅผ ํตํด ์ป์ RGB ์ด๋ฏธ์ง ํํ์ ์ด๊ฐ ์ ๋ณด.
-
Vision: ์น์บ ์ผ๋ก ์ดฌ์ํ ๊ฐ์ฒด์ ์๊ฐ ์ด๋ฏธ์ง.
-
Language: ์ด๊ฐ์ ๋ฌ์ฌํ๋ ์์ฐ์ด ํ์ฉ์ฌ.
-
-
๋ผ๋ฒจ๋ง ๋ฐฉ์:
-
10% (์ฝ 4.6K): ์ฌ๋์ด ์ง์ ์ด๊ฐ ๋ฌ์ฌ ๋ผ๋ฒจ์ ์์ฑ.
-
90% (์ฝ 39K): GPT-4V๋ฅผ ์ด์ฉํด ์๊ฐ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ด๊ฐ ๋ฌ์ฌ ๋ผ๋ฒจ์ ์๋ ์์ฑ (์ ์ฌ ๋ผ๋ฒจ๋ง, Pseudo-Labeling).
-
3. ๋ชจ๋ธ ๊ตฌ์กฐ (Model Architecture)
-
๊ธฐ๋ฐ ๋ชจ๋ธ: LLaMA 2 ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํจ.
-
์ธ์ฝ๋ (Encoders):
-
์ด๊ฐ ์ธ์ฝ๋: **Vision Transformer (ViT)**๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ฒกํฐ๋ก ๋ณํ.
-
์๊ฐ/์ธ์ด ์ธ์ฝ๋: OpenCLIP์ ์ฌ์ ํ๋ จ๋ ์ธ์ฝ๋๋ฅผ ํ์ฉ.
-
-
ํ์ต ๋ฐฉ์ (์ ๋ ฌ ๊ธฐ๋ฒ):
-
์ธ ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ(์ด๊ฐ, ์๊ฐ, ์ธ์ด)๋ฅผ ํ๋์ ์๋ฏธ ๊ณต๊ฐ์ ์ ๋ ฌํ๊ธฐ ์ํด **์๋ณ ๋์กฐ ํ์ต (Pairwise Contrastive Learning)**์ ์ฌ์ฉํจ.
-
์ด๊ฐ-์๊ฐ,์ด๊ฐ-์ธ์ด,์๊ฐ-์ธ์ด๋ฑ ๋ชจ๋ ์์ ๋ํด ์ง์ ์ ์ธ ๊ด๊ณ๋ฅผ ํ์ต์์ผ, ํนํ ์ด๊ฐ๊ณผ ์ธ์ด์ ์๋ฏธ์ ์ฐ๊ฒฐ์ ๊ฐํํจ.
-
4. ์ฃผ์ ์ฑ๊ณผ (Key Achievements)
-
์ธ๊ณ ์ต์ด๋ก ์ด๊ฐ, ์๊ฐ, ๊ฐ๋ฐฉํ ์ดํ ์ธ์ด๋ฅผ ํตํฉํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ TVL์ ๊ตฌ์ถํ๊ณ ๊ณต๊ฐํจ.
-
์๋์ ์ธ๊ฐ ๋ผ๋ฒจ๊ณผ ๋๋์ AI ์์ฑ ๋ผ๋ฒจ์ ํผํฉํ์ฌ ํ์ตํ ๋ชจ๋ธ(TVL-LLaMA)์ด, ๋ผ๋ฒจ ์์ฑ์ ์ฌ์ฉ๋ ์๋ณธ AI(GPT-4V)๋ณด๋ค 12% ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ฆํจ.
-
์ด๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ TVL-LLaMA ๋ชจ๋ธ์ด ์๋ก์ด TVL ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด์ ๋ค๋ฅธ ์๊ฐ-์ธ์ด ๋ชจ๋ธ๋ค๋ณด๋ค
์ต์ 12% ์ด์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํจ.
-
์ด๊ฐ-์ธ์ด ๊ฐ์ ์ง์ ์ ์ธ ๋์กฐ ํ์ต์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฒฐ์ ์ ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ์ด๊ฐ-์ธ์ด ๋ถ๋ฅ ์ ํ๋๋ฅผ
29% ํฅ์์ํด.
5. ํฅํ ๋ฐฉํฅ
-
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ํน์ง์ด์ ํ๊ณ๋ ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ **์ ์ ์ด๋ฏธ์ง(static image)**๋ก ๋ค๋ฃจ์๋ค๋ ์ .
-
์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ์๊ณ์ด(time-series) ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, ์ฌ๊ธฐ์ ๋ ์ฐฝ์ฑ์ ์ฃผ์ฅ ํ ์ ์์.
-
๋ ผ๋ฌธ/ํนํ ์ ๋ต: โ์ ํ ์ฐ๊ตฌ(์ด ๋ ผ๋ฌธ)๋ ์ ์ ์ด๋ฏธ์ง๋ฅผ ํตํด ์ด๊ฐ-์๊ฐ-์ธ์ด ์๋ฒ ๋ฉ์ ๊ฐ๋ฅ์ฑ์ ์ด์์ง๋ง, ์๊ฐ์ ์ฐ์์ฑ๊ณผ ๋์ ์ ๋ณด๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ฌ๊ธฐ์ ๋ ๋์๊ฐ ์๊ณ์ด ์ด๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ์๋ก์ด ์ธ์ฝ๋๋ฅผ ๋์ ํ๊ณ , ์ด๋ฅผ ํตํด ๋์ ์ง๊ฐ, ์๋ ฅ ๋ณํ ๋ฑ ๋ ํ๋ถํ ์ด๊ฐ ์ ๋ณด๋ฅผ ์ธ์ด ๋ฐ ์๊ฐ๊ณผ ์ฑ๊ณต์ ์ผ๋ก ์ ๋ ฌํ๋ค.โ ์ ๊ฐ์ด ์ฐ๊ตฌ์ ์ฐจ๋ณ์ ์ ๋ช ํํ ํ ์ ์์.