๐Ÿง ๋‚˜์˜ ์ƒ๊ฐ / ๋น„ํŒ (My Thoughts / Critiques)

  • ํ…์ŠคํŠธ ํ† ํฐ์ด ๋„ˆ๋ฌด ๋งŽ์œผ๋‹ˆ๊นŒ LLM์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š๊ณ  ์ด๋ฏธ์ง€๋กœ 1์ฐจ ์ฒ˜๋ฆฌ ํ›„ ์žฌ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ์ •ํ™•๋„๋งŒ ๋†’์œผ๋ฉด ์‚ฌ์‹ค ์ด๊ฑธ ์“ฐ๋Š”๊ฒŒ ๋งž๊ธดํ•˜๋‹ค.
  • ๋‹จ์ˆœ LLM๋ณด๋‹ค VLM ์ด ๋” ํšจ๊ณผ์ ์ผ ์ˆ˜ ์žˆ๋Š” ๋ถ„์•ผ

  • ํ•ต์‹ฌ์ œ์•ˆ : ๊ธด ํ…์ŠคํŠธ ์ปจํ…์ŠคํŠธ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ โ€˜๊ด‘ํ•™ ์••์ถ•(optical compression)โ€™ ๋ฐฉ๋ฒ•๋ก  ๋ฐ DeepSeek-OCR ๋ชจ๋ธ ์ œ์•ˆ.

  • ์ฃผ์š”์„ฑ๊ณผ : 10๋ฐฐ ๋ฏธ๋งŒ ์••์ถ•๋ฅ ์—์„œ 97%์˜ OCR ์ •๋ฐ€๋„ ๋‹ฌ์„ฑ, 20๋ฐฐ ์••์ถ•๋ฅ ์—์„œ๋„ ์•ฝ 60% ์ •ํ™•๋„ ์œ ์ง€.

  • ์˜์˜ : LLM์˜ ๊ธด ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ๋ง๊ฐ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์—ฐ๊ตฌ์— ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์„ฑ ์ œ์‹œ.

1. ๋ชฉํ‘œ (Goal)

  • LLM์ด ๊ธด ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ ์‹œ ์ง๋ฉดํ•˜๋Š” ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ฅธ ์ด์ฐจ์  ์—ฐ์‚ฐ๋Ÿ‰ ์ฆ๊ฐ€ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ชฉํ‘œ.

  • ๊ธด ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์ธ ์‹œ๊ฐ์  ๋งค์ฒด(optical 2D mapping)๋กœ ์••์ถ•ํ•˜๋Š” ๊ฐ€๋Šฅ์„ฑ ํƒ๊ตฌ.

  • ์‹œ๊ฐ-ํ…์ŠคํŠธ ์••์ถ• ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ํ…Œ์ŠคํŠธ๋ฒ ๋“œ๋กœ์„œ OCR ์ž‘์—… ํ™œ์šฉ.

2. ๋ฐ์ดํ„ฐ (Data)

  • OCR 1.0 (๋ฌธ์„œ/์žฅ๋ฉด): 3,000๋งŒ ํŽ˜์ด์ง€์˜ PDF (์•ฝ 100๊ฐœ ์–ธ์–ด), 300๋งŒ ๊ฐœ์˜ Word ๋ฐ์ดํ„ฐ, 2,000๋งŒ ๊ฐœ์˜ ์ž์—ฐ ์žฅ๋ฉด OCR ๋ฐ์ดํ„ฐ (LAION, Wukong) ํ™œ์šฉ.

  • OCR 2.0 (๋ณต์žกํ•œ ๊ตฌ์กฐ): ์ฐจํŠธ(1,000๋งŒ ๊ฐœ), ํ™”ํ•™ ๊ณต์‹(500๋งŒ ๊ฐœ), ํ‰๋ฉด ๊ธฐํ•˜ํ•™(100๋งŒ ๊ฐœ) ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ํ™œ์šฉ.

  • ๊ธฐํƒ€ ๋ฐ์ดํ„ฐ: ์ผ๋ฐ˜ ๋น„์ „ ๋ฐ์ดํ„ฐ (20%), ํ…์ŠคํŠธ ์ „์šฉ ๋ฐ์ดํ„ฐ (10%)๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ฒ”์šฉ์„ฑ ๋ฐ ์–ธ์–ด ๋Šฅ๋ ฅ ์œ ์ง€.

3. ๋ชจ๋ธ ๊ตฌ์กฐ (Model Architecture)

  • DeepSeek-OCR: ์ธ์ฝ”๋”-๋””์ฝ”๋” VLM ์•„ํ‚คํ…์ฒ˜ ์‚ฌ์šฉ.

  • ์ธ์ฝ”๋” (DeepEncoder):

    • SAM-base (80M): ๋กœ์ปฌ ์œˆ๋„์šฐ ์–ดํ…์…˜(window attention) ๊ธฐ๋ฐ˜ ์‹œ๊ฐ ์ธ์‹ ๋‹ด๋‹น.

    • 16x Conv Compressor: ๋น„์ „ ํ† ํฐ์„ 16๋ฐฐ ๋‹ค์šด์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์••์ถ•.

    • CLIP-large (300M): ๊ธ€๋กœ๋ฒŒ ์–ดํ…์…˜(global attention) ๊ธฐ๋ฐ˜ ์‹œ๊ฐ ์ง€์‹ ์ถ”์ถœ.

  • ๋””์ฝ”๋” (Decoder):

    • DeepSeek-3B-MoE: 3B ํŒŒ๋ผ๋ฏธํ„ฐ MoE ๋ชจ๋ธ (์ถ”๋ก  ์‹œ 570M ํŒŒ๋ผ๋ฏธํ„ฐ ํ™œ์„ฑํ™”).

4. ์ฃผ์š” ์„ฑ๊ณผ (Key Achievements)

  • ๋†’์€ ์••์ถ•๋ฅ  ๋ฐ ์ •๋ฐ€๋„ (Fox ๋ฒค์น˜๋งˆํฌ):

    • 10๋ฐฐ ๋ฏธ๋งŒ ์••์ถ• ์‹œ: OCR ์ •๋ฐ€๋„ 97% ๋‹ฌ์„ฑ.

    • 20๋ฐฐ ์••์ถ• ์‹œ: OCR ์ •๋ฐ€๋„ ์•ฝ 60% ์œ ์ง€.

  • ์‹ค์šฉ์  OCR ์„ฑ๋Šฅ (OmniDocBench):

    • 100 ๋น„์ „ ํ† ํฐ ์‚ฌ์šฉ (Small ๋ชจ๋“œ)์œผ๋กœ GOT-OCR2.0 (256 ํ† ํฐ ์‚ฌ์šฉ) ์„ฑ๋Šฅ ๋Šฅ๊ฐ€.

    • 800๊ฐœ ๋ฏธ๋งŒ ๋น„์ „ ํ† ํฐ ์‚ฌ์šฉ (Gundam ๋ชจ๋“œ)์œผ๋กœ MinerU2.0 (์•ฝ 7,000 ํ† ํฐ ์‚ฌ์šฉ) ์„ฑ๋Šฅ ์ดˆ๊ณผ.

  • ๋†’์€ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ํšจ์œจ: ๋‹จ์ผ A100 GPU๋กœ ํ•˜๋ฃจ 20๋งŒ ํŽ˜์ด์ง€ ์ด์ƒ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ฐ€๋Šฅ.

5. ๋…ผ๋ฌธ์˜ ๊ฒฐ๋ก  (Conclusion)

  • โ€˜๊ด‘ํ•™ ์••์ถ•โ€™์˜ ์‹คํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ์„ฑ๊ณต์ ์œผ๋กœ ๊ฒ€์ฆ.

  • DeepSeek-OCR์ด ๋น„์ „ ํ† ํฐ ์ˆ˜๋Ÿ‰์˜ 10๋ฐฐ๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ํ…์ŠคํŠธ ํ† ํฐ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋””์ฝ”๋”ฉํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆ.

  • VLM ๋ฐ LLM์˜ ๋ฐœ์ „, ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์‚ฐ์— ์‹ค์งˆ์  ๊ธฐ์—ฌ ๊ฐ€๋Šฅ.

  • ํ–ฅํ›„ ๋””์ง€ํ„ธ-๊ด‘ํ•™ ํ…์ŠคํŠธ ํ˜ผํ•ฉ ์‚ฌ์ „ ํ›ˆ๋ จ, โ€˜Needle-in-a-haystackโ€™ ํ…Œ์ŠคํŠธ ๋“ฑ ์ถ”๊ฐ€ ๊ฒ€์ฆ ๊ณ„ํš.