π§ λμ μκ° / λΉν (My Thoughts / Critiques)
- LTI μμ€ν μ λν΄ μ΄ν΄κ° μμ΄μΌ λͺ¨λΈ νμ μ΄ μ½λ€.
- RNN μ²λΌ μμ°¨μ μΌλ‘ κ³μ°νλκ±°λ, Transformerμ²λΌ νλ²μ κ³μ°νλ λ°©μμ΄ μνμ μΌλ‘ λμΌνλ€.(LTI λλ¬Έμ)
- νμ΅ν λ Transformer, μΆλ‘ ν λ RNN β κ°κ° λΉ λ₯΄κ² κ°λ₯

μμ½
-
ν΅μ¬ μ μ: State-Space Model(SSM)κ³Ό μ΄ν μ μ΄ βμν κ³΅κ° μ΄μ€μ±(SSD)β μ΄λΌλ λ¨μΌ νλ μμν¬λ‘ ν΅ν©λ μ μμμ μ΄λ‘ μ μΌλ‘ μ¦λͺ νκ³ , μ΄ μ΄μ€μ±μ νμ©ν΄ SSMμ μ νμ ν¨μ¨μ±κ³Ό μ΄ν μ μ λ³λ ¬ μ²λ¦¬ λ₯λ ₯μ κ²°ν©ν νλμ¨μ΄ μΉνμ μΈ βSSD μκ³ λ¦¬μ¦βκ³Ό Mamba-2 μν€ν μ²λ₯Ό μ μν¨.
-
μ£Όμ μ±κ³Ό: μΈμ΄ λͺ¨λΈλ§μμ κ°λ ₯ν Transformer λ² μ΄μ€λΌμΈκ³Ό λλ±νκ±°λ λ μ°μν μ±λ₯(νλ ν μ΅μ )μ λ¬μ±νμΌλ©°, ν΅μ¬ μ°μ°μ κΈ°μ‘΄ Mamba λλΉ 2~8λ°° λ λΉ λ¦. λν, μ°κ΄ 리μ½(MQAR) κ³Όμ μμ Mamba-1κ³Ό μ΄ν μ μ μλνλ©° ν₯μλ μν μ©λκ³Ό μ±λ₯μ μ μ¦ν¨.
-
μμ: SSMκ³Ό Transformer μ¬μ΄μ κ°λ μ κ°κ·Ήμ νλ¬Όμ΄, μμͺ½ μ§μμ μ΅μ ν κΈ°μ μ μνΈ μ΄μ ν μ μλ μ΄λ‘ μ ν λλ₯Ό λ§λ ¨ν¨. μ΄λ₯Ό ν΅ν΄ Transformerμ 2μ°¨ 볡μ‘λ λ¬Έμ λ₯Ό ν΄κ²°νλ©΄μλ νμ₯μ±(e.g., ν μ λ³λ ¬ν)μ ν보νμ¬, κΈ΄ μνμ€ μ²λ¦¬λ₯Ό μν μ°¨μΈλ νμ΄λ°μ΄μ λͺ¨λΈμ κ°λ ₯ν λ°±λ³Έ(backbone) μν€ν μ²λ‘μμ κ°λ₯μ±μ μ΄μμ.
1. λͺ©ν (Goal)
μ΄ μ°κ΅¬μ μ£Όλ λͺ©νλ State-Space Models(SSM)κ³Ό Transformer(νΉν μ΄ν μ λ³ν)λΌλ λ κ°μ λ 립μ μΌλ‘ λ°μ ν΄ μ¨ λͺ¨λΈ κ³μ΄μ΄ μ€μ λ‘λ κΉμ΄ μ°κ²°λμ΄ μμμ μ¦λͺ νλ ν΅ν©μ μΈ μ΄λ‘ μ νλ μμν¬λ₯Ό ꡬμΆνλ κ²μ λλ€. μ΄ βμν κ³΅κ° μ΄μ€μ±(State Space Duality, SSD)β νλ μμν¬λ₯Ό ν΅ν΄, μ΅μ νκ° μ λ Transformerμ μ€κ³ μμ΄λμ΄μ μμ€ν κΈ°μ μ SSMμ μ λͺ©νκ³ , λ°λλ‘ SSMμ ν¨μ¨μ±μ Transformer κ°λ μ ν΅ν©νκ³ μ ν©λλ€. μ΅μ’ μ μΌλ‘λ μ΄ λμ μ₯μ μ κ²°ν©νμ¬ κΈ°μ‘΄ Transformerλ³΄λ€ ν¨μ¨μ μ΄λ©΄μλ κ°λ ₯ν μ°¨μΈλ μνμ€ λͺ¨λΈ(Mamba-2)μ κ°λ°νλ κ²μ λͺ©νλ‘ ν©λλ€.
2. λ°μ΄ν° (Data)
Mamba-2μ μ±λ₯μ κ²μ¦νκΈ° μν΄ λ€μκ³Ό κ°μ μ’ λ₯μ λ°μ΄ν°λ₯Ό μ¬μ©νμ΅λλ€.
-
ν©μ± λ°μ΄ν° (Synthetic Data):
- λ€μ€ 쿼리 μ°κ΄ λ¦¬μ½ (Multi-Query Associative Recall, MQAR): λͺ¨λΈμ΄ λ¬Έλ§₯ μμμ μ¬λ¬ ν€-κ° μμ μΌλ§λ μ κΈ°μ΅νκ³ μ‘°ννλμ§ ν μ€νΈνκΈ° μν ν©μ± λ°μ΄ν°μ μ λλ€. μ΄λ SSMκ³Ό κ°μ μν λͺ¨λΈμκ² νΉν μ΄λ €μ΄ κ³Όμ λ‘ μλ €μ Έ μμΌλ©°, Mamba-2μ ν₯μλ μν(κΈ°μ΅) μ©λμ κ²μ¦νλ λ° μ¬μ©λμμ΅λλ€.
-
μμ°μ΄ λ°μ΄ν° (Natural Language Data):
-
The Pile: μ½ 800GB ν¬κΈ°μ λ€μνκ³ λ°©λν μμ΄ ν μ€νΈ λ°μ΄ν°μ μΌλ‘, μΈμ΄ λͺ¨λΈμ μ¬μ νμ΅(pre-training) λ° μ€μΌμΌλ§ λ²μΉ(scaling law)μ λΆμνλ λ° μ¬μ©λμμ΅λλ€.
-
LM Evaluation Harness λ²€μΉλ§ν¬: μ¬μ νμ΅λ λͺ¨λΈμ μ λ‘μ·(zero-shot) μ±λ₯μ νκ°νκΈ° μν νμ€ λ²€μΉλ§ν¬ λͺ¨μμ λλ€. LAMBADA, HellaSwag, PIQA, ARC, WinoGrande λ± λ리 μ¬μ©λλ μ¬λ¬ νμ€ν¬λ₯Ό ν¬ν¨ν©λλ€.
-
3. λͺ¨λΈ ꡬ쑰 (Model Architecture)
μ΄ λ Όλ¬Έμ μ΄λ‘ μ νλ μμν¬λ₯Ό λ°νμΌλ‘ ν μλ‘μ΄ λͺ¨λΈ μν€ν μ² Mamba-2λ₯Ό μ μν©λλ€. Mamba-2λ κΈ°μ‘΄ Mambaμ ꡬ쑰λ₯Ό κ³μΉνλ©΄μ λ€μκ³Ό κ°μ ν΅μ¬μ μΈ κ°μ μ¬νμ ν¬ν¨ν©λλ€.
-
ν΅μ¬ λ μ΄μ΄: SSD (State Space Duality) Layer:
-
Mamba-1μ μ νμ SSM(S6) λ μ΄μ΄λ₯Ό λ체νλ μλ‘μ΄ ν΅μ¬ λ μ΄μ΄μ λλ€.
-
μ΄λ‘ μ μ΄μ€μ±μ κΈ°λ°ν μλ‘μ΄ SSD μκ³ λ¦¬μ¦μ μ¬μ©νμ¬ κ³μ°λ©λλ€. μ΄ μκ³ λ¦¬μ¦μ μνμ€λ₯Ό μμ βμ²ν¬(chunk)βλ‘ λλμ΄, μ²ν¬ λ΄λΆλ GPUμ μ΅μ νλ λ³λ ¬μ μΈ νλ ¬ μ°μ°(μ΄ν μ λ°©μ)μΌλ‘, μ²ν¬ κ° μ 보 μ λ¬μ ν¨μ¨μ μΈ μμ°¨ μ°μ°(SSM λ°©μ)μΌλ‘ μ²λ¦¬νμ¬ μλμ νλμ¨μ΄ ν¨μ¨μ κ·Ήλνν©λλ€.
-
-
λΈλ‘ ꡬ쑰 κ°μ :
-
λ³λ ¬ νλΌλ―Έν° ν¬μ (Parallel Projections): κΈ°μ‘΄ Mambaμ λ¬λ¦¬, Transformerκ° Q, K, Vλ₯Ό ν λ²μ μμ±νλ― SSMμ ν΅μ¬ νλΌλ―Έν°(A, B, C)μ μ λ ₯(X)μ λ³λ ¬μ μΌλ‘ μμ±ν©λλ€ . μ΄λ λκ·λͺ¨ λͺ¨λΈ νμ΅μ νμμ μΈ ν μ λ³λ ¬ν(Tensor Parallelism) ν¨μ¨μ ν¬κ² ν₯μμν΅λλ€.
-
μΆκ° μ κ·ν (Extra Normalization): λΈλ‘μ λ§μ§λ§ λΆλΆμ μ κ·ν λ μ΄μ΄λ₯Ό μΆκ°νμ¬ λκ·λͺ¨ λͺ¨λΈμμμ νμ΅ μμ μ±μ λμμ΅λλ€.
-
-
ν€λ ꡬ쑰 (Head Structure):
- μ¬λ¬ κ°μ μ λ ₯ ν€λ(X)κ° μμμ νλΌλ―Έν° ν€λ(B, C)λ₯Ό 곡μ νλ λ€μ€ μ λ ₯ SSM (Multi-Input SSM, MIS) ꡬ쑰λ₯Ό μ±ννμ΅λλ€. μ΄λ μ΄ν μ μ λ€μ€ κ° μ΄ν μ (Multi-Value Attention, MVA)κ³Ό μ μ¬ν κ°λ μΌλ‘, μ€ν κ²°κ³Ό λ€λ₯Έ ν€λ κ΅¬μ‘°λ³΄λ€ μ°μν μ±λ₯μ 보μμ΅λλ€.
4. μ£Όμ μ±κ³Ό (Key Achievements)
-
μ±κ³Ό 1: SSMκ³Ό μ΄ν μ μ μ΄λ‘ μ ν΅ν©: βμν κ³΅κ° μ΄μ€μ±(SSD)βμ΄λΌλ νλ μμν¬λ₯Ό ν΅ν΄, SSMμ΄ βμ€λΆλ¦¬ νλ ¬(Semiseparable Matrix)βμ΄λΌλ νΉμ ꡬ쑰μ νλ ¬ λ³νμμ μ¦λͺ νκ³ , μ΄λ₯Ό ν΅ν΄ μ΄ν μ μ ν ννμ μνμ μΌλ‘ λμΌν¨μ λ°νμ΅λλ€. μ΄λ λ λͺ¨λΈ κ³μ΄ μ¬μ΄μ κ°λ μ κ°κ·Ήμ λ©μ΄ μ€μν μ΄λ‘ μ μ±κ³Όμ λλ€.
-
μ±κ³Ό 2: νλμ¨μ΄ ν¨μ¨μ μΈ κ³ μ±λ₯ μκ³ λ¦¬μ¦ κ°λ°: μ΄λ‘ μ μ΄μ€μ±μ κΈ°λ°ν μλ‘μ΄ SSD μκ³ λ¦¬μ¦μ κ°λ°νμ΅λλ€. μ΄ μκ³ λ¦¬μ¦μ κΈ°μ‘΄ Mambaμ ν΅μ¬ μ°μ°(scan)λ³΄λ€ 2~8λ°° λΉ λ₯΄λ©°, μνμ€ κΈΈμ΄κ° 2K μ΄μμΌ κ²½μ° κ³ λλ‘ μ΅μ νλ FlashAttention-2보λ€λ λΉ λ₯Έ μ²λ¦¬ μλλ₯Ό 보μ λλ€.
-
μ±κ³Ό 3: Mamba-2 μν€ν μ²μ μ°μμ± μ μ¦:
-
Mamba-2λ μ΄λ €μ΄ ν©μ± κ³Όμ (MQAR)μμ κΈ°μ‘΄ Mamba-1 λ° μμ μ΄ν μ λͺ¨λΈμ λ₯κ°νλ μ±λ₯μ 보μ¬, ν₯μλ μν(κΈ°μ΅) μ©λκ³Ό μ²λ¦¬ λ₯λ ₯μ μ¦λͺ νμ΅λλ€.
-
μΈμ΄ λͺ¨λΈλ§ μ±λ₯ νκ°μμ Mamba-2λ λμΌν μ°μ°λ λλΉ Mamba λ° κ°λ ₯ν Transformer++ λ² μ΄μ€λΌμΈλ³΄λ€ μ°μν μ±λ₯μ λ³΄μ¬ νλ ν μ΅μ (Pareto-dominant) κ΄κ³μ μμμ μ μ¦νμ΅λλ€
-