Kimi Linear An Expressive, Efficient Attention Architecture
Kimi Team et al., 2025 (arXiv:2510.26692)
ํธ๋์คํฌ๋จธ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋ฐ์ด๋ ์ฑ๋ฅ์ผ๋ก ๋ ์ ๋๊ฐ ๋์์ต๋๋ค. ๊ทธ๋ฐ ์ดํ ์ ๋ฉ์ปค๋์ฆ์๋ ์ฝ์ ์ด ๋ง์ด ์์ต๋๋ค. ํนํ ๊ธธ์ด๊ฐ ๊ธด ๋ฌธ๋งฅ์ ๋ค๋ฃฐ ๋ ์ ๊ณฑ ์๊ฐ๋ณต์ก๋๋ผ๋ ๊ฒ์ ์น๋ช ์ ์ธ ์ฝ์ ์ ๋๋ค. ์๊ฐ์ด ํ๋ฅด๊ณ LLM์ด ๋ฐฑ๋ง ํ ํฐ ๊ท๋ชจ์ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ฒ ๋๋ฉด์ ์ด ๋จ์ ์ด ์์ํ ๋๋ฌ๋ฌ์ต๋๋ค. ๊ฐํํ์ต(RL) ๊ธฐ๋ฐ์ ์ถ๋ก ์ค์ผ์ผ๋ง์ด ์ค์ํด์ง๋ฉด์ ์ด ๋ฌธ์ ๋ ๋์ฑ ์ฌ๊ฐํด์ก์ฃ .
์ ํ ์ดํ ์ ์ ์ฐ์ํ ํด๊ฒฐ์ฑ ์ผ๋ก ๋ณด์์ง๋ง ํํ๋ ฅ์ด ๋ถ์กฑํฉ๋๋ค. ์ผ๋ฐ ์ดํ ์ ์ ๋ฐ๋ผ์ก๊ธฐ ์ด๋ ต์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ '๊ณผ์ฐ ์ ํ ์ดํ ์ ์ผ๋ก ์ถฉ๋ถํ๊ฐ?'๋ผ๋ ์ค๋๋ ์ง๋ฌธ์ ์๋ก์ด ๋ต์ ์ ์ํฉ๋๋ค. Kimi Linear๋ ์ธ๋ฐํ ๊ฒ์ดํ ๋ฉ์ปค๋์ฆ๊ณผ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ๋ฅผ ํตํด, ์ฒ์์ผ๋ก ์ผ๋ฐ ์ดํ ์ ์ ๋ชจ๋ ์๋๋ฆฌ์ค์์ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
์์ฝ
ํต์ฌ ์์ด๋์ด: Kimi Delta Attention(KDA)์ด๋ผ๋ ํฅ์๋ ์ ํ ์ดํ ์ ๋ชจ๋์ ์ ์ํ๊ณ , ์ด๋ฅผ ๊ธฐ์กด MLA(Multi-Head Latent Attention)์ 3:1 ๋น์จ๋ก ํ์ด๋ธ๋ฆฌ๋ํ ๊ตฌ์กฐ์ ๋๋ค.
๊ธฐ์ ์คํ:
- ๋ชจ๋ธ ๊ท๋ชจ: 3B ํ์ฑํ ํ๋ผ๋ฏธํฐ / 48B ์ด ํ๋ผ๋ฏธํฐ (MoE ๊ตฌ์กฐ)
- ํ๋ จ ๋ฐ์ดํฐ: 1.4T ํ ํฐ (๋ณธ ํ๊ฐ์ฉ), 5.7T ํ ํฐ (์ต์ข ์ฒดํฌํฌ์ธํธ)
- ํ๋ จ ๋ฐฐ์น: 3,200๋ง ํ ํฐ, 4,096 ํ ํฐ ์ปจํ ์คํธ ์๋์ฐ
- ํ๊ฐ ๋งคํธ๋ฆญ: MMLU, RULER, GSM8K, MATH500, AIME 2025 ๋ฑ ๋ค์ํ ๋ฒค์น๋งํฌ
- ํต์ฌ ๊ฐ์ : KV ์บ์ 75% ๊ฐ์, 1M ์ปจํ ์คํธ์์ 6๋ฐฐ ๋์ฝ๋ฉ ๊ฐ์
๋ ผ๋ฌธ ์์ธ
1. ๋ฌธ์ ์์: ์ ํ ์ดํ ์ ์ ๋๋ ๋ง
ํ์ค ์ดํ ์ ์ ์ฟผ๋ฆฌ์ ๋ชจ๋ ํค-๊ฐ ์์ ๋น๊ตํ๋ฏ๋ก O(Tยฒ) ๋ณต์ก๋๋ฅผ ๊ฐ์ง๋๋ค. ์ผ๋ฐ ์ดํ ์ ์ผ๋ก 100๋ง ํ ํฐ์ ์ฒ๋ฆฌํ๋ ค๋ฉด ์์ฒญ๋ ์ฐ์ฐ ๋น์ฉ์ด ํ์ํ์ฃ . ๋ฐ๋ฉด ์ ํ ์ดํ ์ ์ O(T) ๋ณต์ก๋๋ฅผ ์ ๊ณตํ์ง๋ง, ํํ๋ ฅ์ด ๋ถ์กฑํด์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฐ๋ผ์ก์ง ๋ชปํ์ต๋๋ค.
ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ(์ผ๋ถ ๋ ์ด์ด๋ ์ผ๋ฐ ์ดํ ์ , ์ผ๋ถ๋ ์ ํ)์ด ์ ์๋์์ง๋ง, ๋๋ถ๋ถ ์ ํ๋ ๊ท๋ชจ์์๋ง ํ๊ฐ๋์๊ฑฐ๋ ๊ณต์ ํ ๋น๊ต๊ฐ ๋ถ์กฑํ์ต๋๋ค. ์ ์๋ค์ ์ด ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ๋ก ๊ฒฐ์ฌํ์ต๋๋ค.
2. Kimi Delta Attention (KDA): ์ธ๋ฐํ ๋ฉ๋ชจ๋ฆฌ ์ ์ด
2.1 ๋ธํ ๊ท์น์ ์งํ
์ ํ ์ดํ ์ ์ ๊ธฐ๋ณธ์ ํ๋ ฌ ์ํ \(S_t \in \mathbb{R}^{d_k \times d_v}\)๋ฅผ ๋์ ํ๋ ๊ฒ์ ๋๋ค:
\[S_t = S_{t-1} + k_t v_t^\top\]
์ด๋ ์จ๋ผ์ธ ํ์ต์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ํ์ง๋ง ์ด ๋ฐฉ์์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ๋ฌดํ์ ์ปค์ ธ์ ์ค๋๋ ์ ๋ณด๊ฐ ๊ฐ์ญ์ ์ผ์ผํต๋๋ค.
DeltaNet์ ์ด๋ฅผ ๊ฐ์ ํ์ต๋๋ค. ์ฌ๊ตฌ์ฑ ์์ค์ ๋ํด ๊ฒฝ์ฌ๋ ํ๊ฐ์ ์ํํจ์ผ๋ก์จ:
\[S_t = (I - \beta_t k_t k_t^\top) S_{t-1} + \beta_t k_t v_t^\top\]
์ด๊ฒ์ ๊ณ ์ ์ ์ธ ๋ธํ ๊ท์น์ด๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ํ์ ์ผ๋ก ์์ ํฉ๋๋ค.
**Gated DeltaNet (GDN)**์ ์ค์นผ๋ผ ๋ง๊ฐ ๊ฒ์ดํธ \(\alpha_t \in [0, 1]\)์ ์ถ๊ฐํ์ต๋๋ค:
\[S_t = \alpha_t (I - \beta_t k_t k_t^\top) S_{t-1} + \beta_t k_t v_t^\top\]
2.2 KDA์ ํ์ : ์ฑ๋๋ณ ์ธ๋ฐํ ๊ฒ์ดํ
KDA๋ ์ค์นผ๋ผ ๊ฒ์ดํธ๋ฅผ ์ฑ๋๋ณ ๋ฒกํฐ ๊ฒ์ดํธ๋ก ํ์ฅํฉ๋๋ค:
\[S_t = \left(I - \beta_t k_t k_t^\top\right) \text{Diag}(\alpha_t) S_{t-1} + \beta_t k_t v_t^\top\]
์ฌ๊ธฐ์ \(\text{Diag}(\alpha_t) \in \mathbb{R}^{d_k \times d_k}\)๋ ๊ฐ ํน์ฑ ์ฐจ์์ด ๋ ๋ฆฝ์ ์ธ ๋ง๊ฐ๋ฅ ์ ๊ฐ์ง๋๋ค. ์ด๋ RoPE์ ์ฐจ์๋ณ ๋ค๋ฅธ ํ์ ์ฃผํ์์ฒ๋ผ, ๊ฐ ์ฐจ์์ ๋ค๋ฅธ ์์น ์ธ์ฝ๋ฉ์ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ฌํฉ๋๋ค.
์ค์ ๊ณ์ฐ์์ ์ด๋ ๋ค์์ ์๋ฏธํฉ๋๋ค:
\[q_t^\top \left(\prod_{j=i+1}^{t} (I - \beta_j k_j k_j^\top) \text{Diag}(\alpha_j)\right) k_i\]
๊ฐ ์ฐจ์ \(d\)์์ ๋์ ๊ฐ์ :
\[\gamma_i^\text{(d)} = \prod_{j=1}^{i} \alpha_j^{(d)}\]
์ด๋ ๊ฒ ์ธ๋ฐํ ์ ์ด๋ฅผ ํตํด, KDA๋ ์ค์ํ ์ ๋ณด๋ ์ค๋ ๋ณด์กดํ๊ณ ๋ถํ์ํ ์ ๋ณด๋ ๋นจ๋ฆฌ ์์ ์ ์์ต๋๋ค.
2.3 ํ๋์จ์ด ํจ์จ์ฑ: DPLR์ ์ต์ ํ
์ ํ ์ดํ ์ ์ ์ผ๋ฐํ๋ Diagonal-Plus-Low-Rank(DPLR) ๊ตฌ์กฐ์ ๋๋ค:
\[S_t = (D - a_t b_t^\top) S_{t-1} + k_t v_t^\top\]
ํ์ง๋ง ์ผ๋ฐ DPLR์ ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ ์์น์ ์ผ๋ก ๋ถ์์ ํฉ๋๋ค (์ญ์ ๊ณ์ฐ ๋๋ฌธ).
KDA์ ํต์ฌ ํต์ฐฐ: \(a_t = \beta_t k_t\), \(b_t = k_t \odot \alpha_t\)๋ก ์ ํํ๋ฉด, ์ด๋ค์ ์ธ์๋ถํดํ ์ ์์ต๋๋ค:
\[S_t = \left(\text{Diag}(\alpha_t) - \beta_t k_t k_t^\top\right) S_{t-1} + k_t v_t^\top\]
์ด ์ ์ฝ์ผ๋ก ์ธํด ์ด์ฐจ ์ฒญํน์ด 4๊ฐ์์ 2๊ฐ๋ก ์ค๊ณ , 3๊ฐ์ ํ๋ ฌ ๊ณฑ์ ์ ์ ๊ฑฐํ ์ ์์ด, DPLR ๋๋น ์ฝ 2๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํฉ๋๋ค.
3. ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ ์ค๊ณ
KDA ํผ์์๋ ์ ํ ์ดํ ์ ์ ๊ทผ๋ณธ์ ํ๊ณ๊ฐ ์์ต๋๋ค: ๊ธด ๋ฌธ๋งฅ์์ ์ ํํ ์ ๋ณด ๊ฒ์์ด ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์ ์ ์๋ค์ KDA์ ๊ธฐ์กด MLA(Multi-Head Latent Attention)๋ฅผ 3:1 ๋น์จ๋ก ๊ต๋๋ก ๋ฐฐ์นํ์ต๋๋ค.
[KDA] โ [KDA] โ [KDA] โ [MLA] โ [KDA] โ ...
์ 3:1์ธ๊ฐ? ๋ ผ๋ฌธ์ ์ ์ ์ฐ๊ตฌ(Ablation Study)์ ๋ฐ๋ฅด๋ฉด:
- 0:1 (์์ MLA): ๊ธฐ์ค์
- 1:1 (๋์ผ ๋น์จ): ๊ฒ์ฆ ์์ค ์ฆ๊ฐ
- 3:1 (์ต์ ): ์ต์ ์์ค, ์ต๊ณ ํจ์จ
- 7:1 (๋ ๋ง์ ์ ํ): ํ๋ จ ์์ค์ ๋น์ทํ์ง๋ง ๊ฒ์ฆ ์์ค ์ ํ
MLA ๋ ์ด์ด์ No Position Encoding (NoPE): ํฅ๋ฏธ๋ก์ด ์ค๊ณ ์ ํ์ MLA์ ์์น ์ธ์ฝ๋ฉ์ ์ ์ฉํ์ง ์๋ ๊ฒ์ ๋๋ค. ๋ชจ๋ ์์น ์ ๋ณด ๋ถํธํ๋ฅผ KDA์ ์์ํจ์ผ๋ก์จ:
- ์ฅ๋ฌธ๋งฅ์์ RoPE ๊ธฐ์ ์ฃผํ์ ํ๋ ๋ถํ์
- ์ปจํ ์คํธ ์๋์ฐ ํ์ฅ ์ ๊ฐํธ
- ๋ ์์ ์ ์ธ ์์น ํธํฅ ๋ถํฌ
4. ์คํ ๊ฒฐ๊ณผ: ๋ชจ๋ ์ฒ๋์์์ ์ฐ์์ฑ
4.1 ํฉ์ฑ ์์ : ๊ธฐ๋ณธ ๋ฅ๋ ฅ ๊ฒ์ฆ
๋ณต์กํ ๋ฒค์น๋งํฌ ์ ์, ์ธ ๊ฐ์ง ํฉ์ฑ ์์ ์ผ๋ก ๊ธฐ์ด๋ฅผ ํ์ธํ์ต๋๋ค:
ํ๋ฌธ(Palindrome): ํ ํฐ ์์ด์ ์ญ์์ผ๋ก ์ฌํ. ์ ํ ์ดํ ์ ์ ์ฝ์ ์ธ ์ ํํ ๋ณต์ฌ ๋ฅ๋ ฅ์ ํ ์คํธํฉ๋๋ค.
๋ค์ค ์ฟผ๋ฆฌ ์ฐ๊ด ๊ฒ์(MQAR): ์ฌ๋ฌ ์ฟผ๋ฆฌ์ ๋ํด ๋ฌธ๋งฅ ๋ด ๋ค์ํ ์์น์์ ๊ด๋ จ ๊ฐ ๊ฒ์. ์ธ์ด ๋ชจ๋ธ ์ฑ๋ฅ๊ณผ ์๊ด๊ด๊ณ๊ฐ ๋์ต๋๋ค.
์คํ ์ํ ์ถ์ : 64๊ฐ์ ๋ ๋ฆฝ LIFO ์คํ์ ๊ด๋ฆฌํ๋ฉฐ PUSH/POP ์ฐ์ฐ ์ถ์ .
๊ฒฐ๊ณผ: KDA๋ ๋ชจ๋ ์์ ์์ Gated DeltaNet(GDN)์ ์ํํ๊ณ , ์์ด ๊ธธ์ด ์ฆ๊ฐ(256โ2,048)์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ ํ๊ฐ ๊ฐ์ฅ ์๋งํ์ต๋๋ค.
4.2 ์ฌ์ ํ๋ จ ์ฑ๋ฅ: ๋จ๋ฌธ๋งฅ๊ณผ ๋ค์์ฑ
1.4T ํ ํฐ์ผ๋ก ํ๋ จํ ๊ฒฐ๊ณผ:
๋ฒค์น๋งํฌ |
MLA |
GDN-H |
Kimi Linear |
|---|---|---|---|
MMLU |
71.6 |
72.2 |
73.8 |
MMLU-Pro |
47.2 |
47.9 |
51.0 |
BBH |
71.6 |
70.6 |
72.9 |
GSM8K |
83.7 |
81.7 |
83.9 |
CEval (์ค๊ตญ์ด) |
79.3 |
79.1 |
79.5 |
4.3 ์ฅ๋ฌธ๋งฅ ์ฑ๋ฅ: ๊ฒฐ์ ์ ์ฐ์
์ด๊ฒ์ด ๋ฐ๋ก ํ์ด๋ธ๋ฆฌ๋ ๊ตฌ์กฐ์ ๊ฐ์น๋ฅผ ๋ณด์ฌ์ฃผ๋ ์๊ฐ์ ๋๋ค. 128k ํ ํฐ ์ปจํ ์คํธ:
๋ฒค์น๋งํฌ |
MLA |
GDN-H |
Kimi Linear (RoPE) |
Kimi Linear |
|---|---|---|---|---|
RULER |
81.3 |
80.5 |
78.8 |
84.3 |
MRCR |
22.6 |
23.9 |
22.0 |
29.6 |
RepoQA |
63.0 |
63.0 |
66.5 |
68.5 |
ํ๊ท |
52.2 |
51.2 |
51.8 |
54.5 |
NoPE์ ํจ๊ณผ: Kimi Linear (RoPE)๋ Kimi Linear๋ณด๋ค ์ฅ๋ฌธ๋งฅ์์ ์ฑ๋ฅ์ด ๋จ์ด์ง๋๋ค. ์ด๋ ์์น ํธํฅ์ด KDA๋ฅผ ํตํด ๋ถ์ฐ๋๋ฉด ๋ ์ ์ฐํ๊ณ ํ์ฅ์ฑ ์๋ค๋ ๊ฒ์ ์์ฌํฉ๋๋ค.
4.4 ๊ฐํํ์ต: ์ถ๋ก ํ์ฅ์ฑ
ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ RL ํธ๋ ์ด๋ ์ค์ ๋๋ค. AIME 2025์ MATH500 ํ ์คํธ์์:
Kimi Linear๋ MLA๋ณด๋ค ๋ ๋น ๋ฅธ ์๋ ด๊ณผ ๋ ๋์ ์ต์ข ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ํนํ ์ฅํ ์์ฑ์ด ํ์ํ ์ถ๋ก ์์ ์์ ์ ํ ์ดํ ์ ์ ํจ์จ์ฑ์ด ๋์์ด ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
4.5 ํจ์จ์ฑ: ์ค์ ๋ฐฐํฌ์ ๊ฒ์ ์ฒด์ธ์
๋์ฝ๋ฉ ์๋ (๋ฐฐ์น ํฌ๊ธฐ 1):
- 4K ํ ํฐ: Kimi Linear์ GDN-H ๋น์ท (MLA 2.2๋ฐฐ ๋น ๋ฆ)
- 128K ํ ํฐ: Kimi Linear 3.98๋ฐฐ ๋น ๋ฆ
- 1M ํ ํฐ: Kimi Linear 6.3๋ฐฐ ๋น ๋ฆ (์๊ฐ๋น ํ ํฐ 11.48ms โ 1.84ms)
๋ฉ๋ชจ๋ฆฌ: KV ์บ์ 75% ๊ฐ์๋ก, ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ ์ง์ ๊ฐ๋ฅ. ์ค์ ๋ก 1M ์ปจํ ์คํธ์์ ๋ฐฐ์น ์ฒ๋ฆฌ๋์ด 6๋ฐฐ ํฅ์๋ฉ๋๋ค.
5. ๊ธฐ์ ์ ์ฌํ: ์์น ์ธ์ฝ๋ฉ์ผ๋ก์์ ์ ํ ์ดํ ์
๋ ผ๋ฌธ์ ํฅ๋ฏธ๋ก์ด ์ด๋ก ์ ๊ธฐ์ฌ ์ค ํ๋์ ๋๋ค. RoPE๋ ํ์ ํ๋ ฌ์ ๋์ ๊ณฑ์ ํตํด ์๋์ ์์น๋ฅผ ์ธ์ฝ๋ฉํฉ๋๋ค:
\[\text{RoPE: } q_t^\top \left(\prod_{j=i+1}^{t} R_j\right) k_i\]
์ฌ๊ธฐ์ \(R_j\)๋ ๋ธ๋ก ๋๊ฐ ํ์ ํ๋ ฌ์ ๋๋ค.
GDN/KDA๋ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง์ง๋ง, ํ์ ํ๋ ฌ ๋์ ๋ฐ์ดํฐ ์์กด์ ์ด๊ณ ํ์ต ๊ฐ๋ฅํ ์ ํ ํ๋ ฌ์ ์ฌ์ฉํฉ๋๋ค:
\[\text{GDN: } q_t^\top \left(\prod_{j=i+1}^{t} (I - \beta_j k_j k_j^\top) \alpha_j\right) k_i\]
์ด๋ RoPE์ ์ง๊ต์ฑ ์ ์ฝ์ ์ํํ๋ฉด์, ์ปจํ ์คํธ ๊ธธ์ด ์ธ์ฝ ๋ฌธ์ ๋ฅผ ์ ์ฌ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์ต๋๋ค. RoPE๋ ๊ณ ์ ๋ ์ฃผํ์๋ฅผ ๊ฐ์ ธ์ ํ๋ จ ๊ธธ์ด์ ๊ณผ์ ํฉ๋๊ธฐ ์ฝ์ง๋ง, KDA๋ ๋์ ์ผ๋ก ์กฐ์ ํ ์ ์์ฃ .
6. ํ๊ณ์ ํฅํ ๋ฐฉํฅ
ํ์ฌ ํ๊ณ:
- ์์ ์ ํ ์ดํ ์ ๋ ์ฌ์ ํ ๊ธด ๋ฌธ๋งฅ ์ ๋ณด ๊ฒ์์์ ์๋ฒฝํ์ง ์์ (ํ์ด๋ธ๋ฆฌ๋ ํ์)
- 3:1 ๋น์จ์ ๊ฒฝํ์ ์ต์ ๊ฐ์ผ ๋ฟ, ๋ณดํธ์ ์ต์ ๋น์จ์ ์๋
- ์คํ์ค ์ดํ ์ (Sparse Attention)๊ณผ์ ๋น๊ต ๋ถ์กฑ
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ์ ํ ์ดํ ์ ์ํ ํ์ฅ ๊ธฐ๋ฒ๊ณผ์ ๊ฒฐํฉ
- ์คํ์ค + ์ ํ ์ดํ ์ ์ ํ์ด๋ธ๋ฆฌ๋
- ๋ ํฐ ๊ท๋ชจ(100B+)์์์ ํ์ฅ์ฑ ๊ฒ์ฆ
๊ฒฐ๋ก
Kimi Linear๋ ์ ํ ์ดํ ์ ์ ์ค๋๋ ๋ฌธ์ ๋ฅผ ์๋ก์ด ๊ด์ ์์ ํด๊ฒฐํฉ๋๋ค. ์ธ๋ฐํ ์ฑ๋๋ณ ๊ฒ์ดํ ๊ณผ ์ต์ ํ๋ ํ๋์จ์ด ๊ตฌํ, ๊ทธ๋ฆฌ๊ณ ์ ์ ๋ ํ์ด๋ธ๋ฆฌ๋ ์ค๊ณ๋ฅผ ํตํด ๋ชจ๋ ํ๊ฐ ์๋๋ฆฌ์ค์์ ๊ธฐ์กด ์ดํ ์ ์ ๋ฅ๊ฐํ์ต๋๋ค.
- ์ผ๊ด๋ ์ฐ์์ฑ: ๋จ๋ฌธ๋งฅ, ์ฅ๋ฌธ๋งฅ, RL ๋ชจ๋ ์์ญ์์ ์ต๊ณ ์ฑ๋ฅ
- ์ค์ฉ์ ํจ์จ์ฑ: 1M ํ ํฐ์์ 6๋ฐฐ ๋์ฝ๋ฉ ๊ฐ์, ๋ฉ๋ชจ๋ฆฌ 75% ๊ฐ์
- ๊ณต์ ํ ํ๊ฐ: ๋์ผํ ํ๋ จ ์กฐ๊ฑด์์ ์ฒด๊ณ์ ์ธ ๋น๊ต
- ์คํ์์ค: KDA ์ปค๋๊ณผ vLLM ํตํฉ, ์ฌ์ ํ๋ จ ์ฒดํฌํฌ์ธํธ ๊ณต๊ฐ
์ฐธ๊ณ ์๋ฃ:
- GitHub: https://github.com/MoonshotAI/Kimi-Linear
- ๋ชจ๋ธ ๋ค์ด๋ก๋: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
- ArXiv ๋ ผ๋ฌธ: http://arxiv.org/abs/2510.26692