🧐 λ‚˜μ˜ 생각 / λΉ„νŒ (My Thoughts / Critiques)

  • LTI μ‹œμŠ€ν…œμ— λŒ€ν•΄ 이해가 μžˆμ–΄μ•Ό λͺ¨λΈ νŒŒμ•…μ΄ 쉽닀.
  • RNN 처럼 순차적으둜 κ³„μ‚°ν•˜λŠ”κ±°λž‘, Transformer처럼 ν•œλ²ˆμ— κ³„μ‚°ν•˜λŠ” 방식이 μˆ˜ν•™μ μœΌλ‘œ λ™μΌν•˜λ‹€.(LTI λ•Œλ¬Έμ—)
  • ν•™μŠ΅ν• λ• Transformer, 좔둠할땐 RNN ← 각각 λΉ λ₯΄κ²Œ κ°€λŠ₯

μš”μ•½

  • 핡심 μ œμ•ˆ: State-Space Model(SSM)κ³Ό μ–΄ν…μ…˜μ΄ β€˜μƒνƒœ 곡간 이쀑성(SSD)’ μ΄λΌλŠ” 단일 ν”„λ ˆμž„μ›Œν¬λ‘œ 톡합될 수 μžˆμŒμ„ 이둠적으둜 증λͺ…ν•˜κ³ , 이 이쀑성을 ν™œμš©ν•΄ SSM의 μ„ ν˜•μ  νš¨μœ¨μ„±κ³Ό μ–΄ν…μ…˜μ˜ 병렬 처리 λŠ₯λ ₯을 κ²°ν•©ν•œ ν•˜λ“œμ›¨μ–΄ μΉœν™”μ μΈ β€˜SSD μ•Œκ³ λ¦¬μ¦˜β€™κ³Ό Mamba-2 μ•„ν‚€ν…μ²˜λ₯Ό μ œμ•ˆν•¨.

  • μ£Όμš” μ„±κ³Ό: μ–Έμ–΄ λͺ¨λΈλ§μ—μ„œ κ°•λ ₯ν•œ Transformer 베이슀라인과 λŒ€λ“±ν•˜κ±°λ‚˜ 더 μš°μˆ˜ν•œ μ„±λŠ₯(νŒŒλ ˆν†  졜적)을 λ‹¬μ„±ν–ˆμœΌλ©°, 핡심 연산은 κΈ°μ‘΄ Mamba λŒ€λΉ„ 2~8λ°° 더 빠름. λ˜ν•œ, μ—°κ΄€ 리콜(MQAR) κ³Όμ œμ—μ„œ Mamba-1κ³Ό μ–΄ν…μ…˜μ„ μ••λ„ν•˜λ©° ν–₯μƒλœ μƒνƒœ μš©λŸ‰κ³Ό μ„±λŠ₯을 μž…μ¦ν•¨.

  • 의의: SSMκ³Ό Transformer μ‚¬μ΄μ˜ κ°œλ…μ  간극을 ν—ˆλ¬Όμ–΄, μ–‘μͺ½ μ§„μ˜μ˜ μ΅œμ ν™” κΈ°μˆ μ„ μƒν˜Έ 이전할 수 μžˆλŠ” 이둠적 ν† λŒ€λ₯Ό λ§ˆλ ¨ν•¨. 이λ₯Ό 톡해 Transformer의 2μ°¨ λ³΅μž‘λ„ 문제λ₯Ό ν•΄κ²°ν•˜λ©΄μ„œλ„ ν™•μž₯μ„±(e.g., ν…μ„œ 병렬화)을 ν™•λ³΄ν•˜μ—¬, κΈ΄ μ‹œν€€μŠ€ 처리λ₯Ό μœ„ν•œ μ°¨μ„ΈλŒ€ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ˜ κ°•λ ₯ν•œ λ°±λ³Έ(backbone) μ•„ν‚€ν…μ²˜λ‘œμ„œμ˜ κ°€λŠ₯성을 μ—΄μ—ˆμŒ.


1. λͺ©ν‘œ (Goal)

이 μ—°κ΅¬μ˜ 주된 λͺ©ν‘œλŠ” State-Space Models(SSM)κ³Ό Transformer(특히 μ–΄ν…μ…˜ λ³€ν˜•)λΌλŠ” 두 개의 λ…λ¦½μ μœΌλ‘œ λ°œμ „ν•΄ 온 λͺ¨λΈ 계열이 μ‹€μ œλ‘œλŠ” 깊이 μ—°κ²°λ˜μ–΄ μžˆμŒμ„ 증λͺ…ν•˜λŠ” 톡합적인 이둠적 ν”„λ ˆμž„μ›Œν¬λ₯Ό κ΅¬μΆ•ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 이 β€˜μƒνƒœ 곡간 이쀑성(State Space Duality, SSD)’ ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해, μ΅œμ ν™”κ°€ 잘 된 Transformer의 섀계 아이디어와 μ‹œμŠ€ν…œ κΈ°μˆ μ„ SSM에 μ ‘λͺ©ν•˜κ³ , λ°˜λŒ€λ‘œ SSM의 νš¨μœ¨μ„±μ„ Transformer κ°œλ…μ— ν†΅ν•©ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ΅œμ’…μ μœΌλ‘œλŠ” 이 λ‘˜μ˜ μž₯점을 κ²°ν•©ν•˜μ—¬ κΈ°μ‘΄ Transformer보닀 νš¨μœ¨μ μ΄λ©΄μ„œλ„ κ°•λ ₯ν•œ μ°¨μ„ΈλŒ€ μ‹œν€€μŠ€ λͺ¨λΈ(Mamba-2)을 κ°œλ°œν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€.


2. 데이터 (Data)

Mamba-2의 μ„±λŠ₯을 κ²€μ¦ν•˜κΈ° μœ„ν•΄ λ‹€μŒκ³Ό 같은 μ’…λ₯˜μ˜ 데이터λ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€.

  • ν•©μ„± 데이터 (Synthetic Data):

    • 닀쀑 쿼리 μ—°κ΄€ 리콜 (Multi-Query Associative Recall, MQAR): λͺ¨λΈμ΄ λ¬Έλ§₯ μ†μ—μ„œ μ—¬λŸ¬ ν‚€-κ°’ μŒμ„ μ–Όλ§ˆλ‚˜ 잘 κΈ°μ–΅ν•˜κ³  μ‘°νšŒν•˜λŠ”μ§€ ν…ŒμŠ€νŠΈν•˜κΈ° μœ„ν•œ ν•©μ„± λ°μ΄ν„°μ…‹μž…λ‹ˆλ‹€. μ΄λŠ” SSMκ³Ό 같은 μˆœν™˜ λͺ¨λΈμ—κ²Œ 특히 μ–΄λ €μš΄ 과제둜 μ•Œλ €μ Έ 있으며, Mamba-2의 ν–₯μƒλœ μƒνƒœ(κΈ°μ–΅) μš©λŸ‰μ„ κ²€μ¦ν•˜λŠ” 데 μ‚¬μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
  • μžμ—°μ–΄ 데이터 (Natural Language Data):

    • The Pile: μ•½ 800GB 크기의 λ‹€μ–‘ν•˜κ³  λ°©λŒ€ν•œ μ˜μ–΄ ν…μŠ€νŠΈ λ°μ΄ν„°μ…‹μœΌλ‘œ, μ–Έμ–΄ λͺ¨λΈμ˜ 사전 ν•™μŠ΅(pre-training) 및 μŠ€μΌ€μΌλ§ 법칙(scaling law)을 λΆ„μ„ν•˜λŠ” 데 μ‚¬μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

    • LM Evaluation Harness 벀치마크: 사전 ν•™μŠ΅λœ λͺ¨λΈμ˜ μ œλ‘œμƒ·(zero-shot) μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ ν‘œμ€€ 벀치마크 λͺ¨μŒμž…λ‹ˆλ‹€. LAMBADA, HellaSwag, PIQA, ARC, WinoGrande λ“± 널리 μ‚¬μš©λ˜λŠ” μ—¬λŸ¬ νƒœμŠ€ν¬λ₯Ό ν¬ν•¨ν•©λ‹ˆλ‹€.


3. λͺ¨λΈ ꡬ쑰 (Model Architecture)

이 논문은 이둠적 ν”„λ ˆμž„μ›Œν¬λ₯Ό λ°”νƒ•μœΌλ‘œ ν•œ μƒˆλ‘œμš΄ λͺ¨λΈ μ•„ν‚€ν…μ²˜ Mamba-2λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Mamba-2λŠ” κΈ°μ‘΄ Mamba의 ꡬ쑰λ₯Ό κ³„μŠΉν•˜λ©΄μ„œ λ‹€μŒκ³Ό 같은 핡심적인 κ°œμ„  사항을 ν¬ν•¨ν•©λ‹ˆλ‹€.

  • 핡심 λ ˆμ΄μ–΄: SSD (State Space Duality) Layer:

    • Mamba-1의 선택적 SSM(S6) λ ˆμ΄μ–΄λ₯Ό λŒ€μ²΄ν•˜λŠ” μƒˆλ‘œμš΄ 핡심 λ ˆμ΄μ–΄μž…λ‹ˆλ‹€.

    • 이둠적 이쀑성에 κΈ°λ°˜ν•œ μƒˆλ‘œμš΄ SSD μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜μ—¬ κ³„μ‚°λ©λ‹ˆλ‹€. 이 μ•Œκ³ λ¦¬μ¦˜μ€ μ‹œν€€μŠ€λ₯Ό μž‘μ€ β€˜μ²­ν¬(chunk)β€˜λ‘œ λ‚˜λˆ„μ–΄, 청크 λ‚΄λΆ€λŠ” GPU에 μ΅œμ ν™”λœ 병렬적인 ν–‰λ ¬ μ—°μ‚°(μ–΄ν…μ…˜ 방식)으둜, 청크 κ°„ 정보 전달은 효율적인 순차 μ—°μ‚°(SSM 방식)으둜 μ²˜λ¦¬ν•˜μ—¬ 속도와 ν•˜λ“œμ›¨μ–΄ νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€.

  • 블둝 ꡬ쑰 κ°œμ„ :

    • 병렬 νŒŒλΌλ―Έν„° 투영 (Parallel Projections): κΈ°μ‘΄ Mamba와 달리, Transformerκ°€ Q, K, Vλ₯Ό ν•œ λ²ˆμ— μƒμ„±ν•˜λ“― SSM의 핡심 νŒŒλΌλ―Έν„°(A, B, C)와 μž…λ ₯(X)을 λ³‘λ ¬μ μœΌλ‘œ μƒμ„±ν•©λ‹ˆλ‹€ . μ΄λŠ” λŒ€κ·œλͺ¨ λͺ¨λΈ ν•™μŠ΅μ— ν•„μˆ˜μ μΈ ν…μ„œ 병렬화(Tensor Parallelism) νš¨μœ¨μ„ 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

    • μΆ”κ°€ μ •κ·œν™” (Extra Normalization): λΈ”λ‘μ˜ λ§ˆμ§€λ§‰ 뢀뢄에 μ •κ·œν™” λ ˆμ΄μ–΄λ₯Ό μΆ”κ°€ν•˜μ—¬ λŒ€κ·œλͺ¨ λͺ¨λΈμ—μ„œμ˜ ν•™μŠ΅ μ•ˆμ •μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.

  • ν—€λ“œ ꡬ쑰 (Head Structure):

    • μ—¬λŸ¬ 개의 μž…λ ₯ ν—€λ“œ(X)κ°€ μ†Œμˆ˜μ˜ νŒŒλΌλ―Έν„° ν—€λ“œ(B, C)λ₯Ό κ³΅μœ ν•˜λŠ” 닀쀑 μž…λ ₯ SSM (Multi-Input SSM, MIS) ꡬ쑰λ₯Ό μ±„νƒν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ–΄ν…μ…˜μ˜ 닀쀑 κ°’ μ–΄ν…μ…˜(Multi-Value Attention, MVA)κ³Ό μœ μ‚¬ν•œ κ°œλ…μœΌλ‘œ, μ‹€ν—˜ κ²°κ³Ό λ‹€λ₯Έ ν—€λ“œ ꡬ쑰보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

4. μ£Όμš” μ„±κ³Ό (Key Achievements)

  • μ„±κ³Ό 1: SSMκ³Ό μ–΄ν…μ…˜μ˜ 이둠적 톡합: β€˜μƒνƒœ 곡간 이쀑성(SSD)β€˜μ΄λΌλŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해, SSM이 β€˜μ€€λΆ„λ¦¬ ν–‰λ ¬(Semiseparable Matrix)β€˜μ΄λΌλŠ” νŠΉμ • ꡬ쑰의 ν–‰λ ¬ λ³€ν™˜μž„μ„ 증λͺ…ν•˜κ³ , 이λ₯Ό 톡해 μ–΄ν…μ…˜μ˜ ν•œ ν˜•νƒœμ™€ μˆ˜ν•™μ μœΌλ‘œ 동일함을 λ°ν˜”μŠ΅λ‹ˆλ‹€. μ΄λŠ” 두 λͺ¨λΈ 계열 μ‚¬μ΄μ˜ κ°œλ…μ  간극을 λ©”μš΄ μ€‘μš”ν•œ 이둠적 μ„±κ³Όμž…λ‹ˆλ‹€.

  • μ„±κ³Ό 2: ν•˜λ“œμ›¨μ–΄ 효율적인 κ³ μ„±λŠ₯ μ•Œκ³ λ¦¬μ¦˜ 개발: 이둠적 이쀑성에 κΈ°λ°˜ν•œ μƒˆλ‘œμš΄ SSD μ•Œκ³ λ¦¬μ¦˜μ„ κ°œλ°œν–ˆμŠ΅λ‹ˆλ‹€. 이 μ•Œκ³ λ¦¬μ¦˜μ€ κΈ°μ‘΄ Mamba의 핡심 μ—°μ‚°(scan)보닀 2~8λ°° λΉ λ₯΄λ©°, μ‹œν€€μŠ€ 길이가 2K 이상일 경우 κ³ λ„λ‘œ μ΅œμ ν™”λœ FlashAttention-2보닀도 λΉ λ₯Έ 처리 속도λ₯Ό λ³΄μž…λ‹ˆλ‹€.

  • μ„±κ³Ό 3: Mamba-2 μ•„ν‚€ν…μ²˜μ˜ μš°μˆ˜μ„± μž…μ¦:

    • Mamba-2λŠ” μ–΄λ €μš΄ ν•©μ„± 과제(MQAR)μ—μ„œ κΈ°μ‘΄ Mamba-1 및 순수 μ–΄ν…μ…˜ λͺ¨λΈμ„ λŠ₯κ°€ν•˜λŠ” μ„±λŠ₯을 보여, ν–₯μƒλœ μƒνƒœ(κΈ°μ–΅) μš©λŸ‰κ³Ό 처리 λŠ₯λ ₯을 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.

    • μ–Έμ–΄ λͺ¨λΈλ§ μ„±λŠ₯ ν‰κ°€μ—μ„œ Mamba-2λŠ” λ™μΌν•œ μ—°μ‚°λŸ‰ λŒ€λΉ„ Mamba 및 κ°•λ ₯ν•œ Transformer++ λ² μ΄μŠ€λΌμΈλ³΄λ‹€ μš°μˆ˜ν•œ μ„±λŠ₯을 보여 νŒŒλ ˆν†  졜적(Pareto-dominant) 관계에 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€