๐Ÿง ๋‚˜์˜ ์ƒ๊ฐ / ๋น„ํŒ (My Thoughts / Critiques)

  • ์ง„๋™๋ฐ์ดํ„ฐ๋ผ๋Š” ์ƒ์†Œํ•œ ๋ถ„์•ผ๋ฅผ ์ž˜ ํŒŒ๊ณ ๋“ค์–ด ์ข‹์€ ๋ชจ๋ธ๊ณผ ๋…ผ๋ฌธ์„ ๋‚ธ ๊ฒƒ ๊ฐ™๋‹ค.

๋ชฉํ‘œ (Goal)

  • ์ „๋ฌธ ๊ธฐ์ˆ ๊ณผ ๋งŽ์€ ์‹œ๊ฐ„์ด ์†Œ์š”๋˜๋Š” ๊ธฐ์กด ํ–…ํ‹ฑ ๋””์ž์ธ ํ”„๋กœ์„ธ์Šค์˜ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๋ถ€์žฌ๋ผ๋Š” ํ–…ํ‹ฑ ๋ถ„์•ผ์˜ ๊ณ ์งˆ์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์—ฌ, ํ…์ŠคํŠธ ์„ค๋ช…๋งŒ์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ์ง„๋™(vibrotactile) ํ–…ํ‹ฑ ์‹ ํ˜ธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ตœ์ดˆ์˜ ์ƒ์„ฑํ˜• AI ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

  • ์ด๋ฅผ ํ†ตํ•ด ํ–…ํ‹ฑ ์ฝ˜ํ…์ธ  ์ œ์ž‘ ๊ณผ์ •์„ ๊ฐ„์†Œํ™”ํ•˜๊ณ  , ๋””์ž์ด๋„ˆ์˜ ์•„์ด๋””์–ด ๊ตฌ์ƒ(ideation)์„ ๊ฐ€์†ํ•˜๋ฉฐ , ํ–…ํ‹ฑ ๋””์ž์ธ์˜ ์ง„์ž… ์žฅ๋ฒฝ์„ ๋‚ฎ์ถ”๋Š” ๊ฒƒ์„ ์ง€ํ–ฅํ•ฉ๋‹ˆ๋‹ค.


๋ฐ์ดํ„ฐ (Data)

  • ์ดˆ๊ธฐ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ๋Œ€๊ทœ๋ชจ ํ–…ํ‹ฑ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์•ฝ 40๋งŒ ๊ฐœ์˜ ์˜ค๋””์˜ค-ํ…์ŠคํŠธ ์Œ์œผ๋กœ ์ด๋ฃจ์–ด์ง„ WavCaps ์˜ค๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ์ „์ฒ˜๋ฆฌ: ํ–…ํ‹ฑ๊ณผ ๊ด€๋ จ ์—†๋Š” โ€˜์Œ์„ฑ(speech)โ€™ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•˜์—ฌ ์•ฝ 33๋งŒ 5์ฒœ ๊ฐœ์˜ ์ƒ˜ํ”Œ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•: LLM(Llama-3-8B)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์กด ํ…์ŠคํŠธ ์บก์…˜์„ โ€˜์ด‰๊ฐ ์ค‘์‹ฌ์˜ ํ‘œํ˜„โ€™์œผ๋กœ ๋ณ€ํ™˜ ๋ฐ ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ์˜ค๋””์˜ค-ํ–…ํ‹ฑ ๋ณ€ํ™˜: ์ „์ฒ˜๋ฆฌ๋œ ์˜ค๋””์˜ค ์‹ ํ˜ธ๋ฅผ ์ง„๋™ ์‹ ํ˜ธ(8kHz, 8-bit)๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ดˆ๊ธฐ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์ธ๊ฐ„ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘: ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž๊ฒŒ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ์…‹์„ ์ง์ ‘ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹: 15๋ช…์˜ ํ–…ํ‹ฑ ์ „๋ฌธ๊ฐ€๊ฐ€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฉฐ ์ƒ์„ฑํ•˜๊ณ  ํ‰๊ฐ€ํ•œ 1,297๊ฐœ์˜ (ํ”„๋กฌํ”„ํŠธ, ์ง„๋™, ํ‰๊ฐ€) ์Œ ๋ฐ์ดํ„ฐ. ์ด ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ **๋ฏธ์„ธ ์กฐ์ •(Fine-tuning)**์— ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์‚ฌ์šฉ์ž ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹: ์ตœ์ข… A/B ํ…Œ์ŠคํŠธ์—์„œ 32๋ช…์˜ ์ฐธ๊ฐ€์ž๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘ํ•œ 3,229๊ฐœ์˜ ๋ฐ์ดํ„ฐ. ํ–ฅํ›„ ๋ชจ๋ธ ๊ฐœ์„ ์„ ์œ„ํ•ด ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


๋ชจ๋ธ ๊ตฌ์กฐ (Model Architecture)

  • ๊ธฐ๋ณธ ๊ตฌ์กฐ: MusicGen ๋ฐ AudioGen v2 ์—์„œ ์ œ์•ˆ๋œ ์ž๋™ํšŒ๊ท€ ํŠธ๋žœ์Šคํฌ๋จธ(Autoregressive Transformer) ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

  • ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ:

    • ํ…์ŠคํŠธ ์ธ์ฝ”๋”: ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด T5-large ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

    • ์‹ ํ˜ธ ํ† ํฌ๋‚˜์ด์ €: ํ–…ํ‹ฑ ์‹ ํ˜ธ๋ฅผ ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด EnCodec ๋ชจ๋ธ์„ 8kHz ํ–…ํ‹ฑ ์‹ ํ˜ธ์— ๋งž๊ฒŒ ์žฌํ›ˆ๋ จํ•˜์—ฌ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

    • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ: ์•ฝ 15์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ํŠธ๋žœ์Šคํฌ๋จธ ์–ธ์–ด ๋ชจ๋ธ(LM)์ด ํ…์ŠคํŠธ ์กฐ๊ฑด์— ๋งž๋Š” ํ–…ํ‹ฑ ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  • ๋ฏธ์„ธ ์กฐ์ •: ์ดˆ๊ธฐ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด, โ€˜์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹โ€™์„ ํ™œ์šฉํ•œ DPO(Direct Preference Optimization) ๊ธฐ๋ฒ•์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋” ๋ถ€ํ•ฉํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.


๐Ÿ† ์ฃผ์š” ์„ฑ๊ณผ (Key Achievements)

  • ์„ธ๊ณ„ ์ตœ์ดˆ์˜ ํ…์ŠคํŠธ-ํ–…ํ‹ฑ ์ƒ์„ฑ ๋ชจ๋ธ: ํ…์ŠคํŠธ ์ž…๋ ฅ๋งŒ์œผ๋กœ ๋‹ค์–‘ํ•˜๊ณ  ๋ฏธ๋ฌ˜ํ•œ ์ง„๋™ ํ–…ํ‹ฑ ์‹ ํ˜ธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ตœ์ดˆ์˜ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ํ–…ํ‹ฑ ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ: ํ˜„์žฌ๊นŒ์ง€ ๊ณต๊ฐœ๋œ ๊ฒƒ ์ค‘ ๊ฐ€์žฅ ํฐ ๊ทœ๋ชจ์˜ ํ…์ŠคํŠธ ๋ ˆ์ด๋ธ”๋ง๋œ ํ–…ํ‹ฑ ๋ฐ์ดํ„ฐ์…‹ 2์ข…(์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€, ์‚ฌ์šฉ์ž ํ‰๊ฐ€)์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์ž…์ฆ: ๊ธฐ์กด ์˜ค๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ ๋น„๊ตํ•œ A/B ํ…Œ์ŠคํŠธ์—์„œ ํ˜„์‹ค๊ฐ(Realism), ์ž‘์—… ๋ถ€ํ•˜(Workload), ๋ฏธ๋ž˜ ์‚ฌ์šฉ ์˜ํ–ฅ(Future Use) ๋“ฑ ๋‹ค์ˆ˜ ์ง€ํ‘œ์—์„œ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•˜๊ฒŒ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • ์‹ค์šฉ์„ฑ ๋ฐ ํ™•์žฅ์„ฑ ์ œ์‹œ: ํ–…ํ‹ฑ ๋””์ž์ธ์˜ ์•„์ด๋””์–ด ๊ตฌ์ƒ ๊ณผ์ •์„ ํšจ์œจํ™”ํ•˜๊ณ  , ๋Œ€๊ทœ๋ชจ ํ–…ํ‹ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.