The Free Transformer
F. Fleuret, "The Free Transformer", arXiv preprint arXiv:2510.17558, 2025.
์์ฝ
์ํคํ ์ฒ: ํ์ค ๋์ฝ๋ ํธ๋์คํฌ๋จธ๋ฅผ ์กฐ๊ฑด๋ถ ๋ณ๋ถ ์คํ ์ธ์ฝ๋(VAE)๋ก ํ์ฅํ์ต๋๋ค. ์ค๊ฐ ๋ ์ด์ด์ ๋๋ค ์ ์ฌ ๋ณ์ \(Z\)๋ฅผ ์ฃผ์ ํ๊ณ , ์ธ์ฝ๋๋ ์ฒซ ๋ฒ์งธ ์ ๋ฐ์ ๋ ์ด์ด์ ๋น์ธ๊ณผ์ ํธ๋์คํฌ๋จธ ๋ธ๋ก ํ๋๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ: 1.5B ๋ชจ๋ธ(28๋ ์ด์ด)๊ณผ 8B ๋ชจ๋ธ(32๋ ์ด์ด, Llama-3 ๊ตฌ์กฐ)์ ๊ฐ๊ฐ 47B, 200B, 1T ํ ํฐ์ผ๋ก ํ๋ จํ์ต๋๋ค. ์ธ์ฝ๋๋ก ์ธํ ์ค๋ฒํค๋๋ 1.5B์์ 3.6%, 8B์์ 3.1%์ ๋ถ๊ณผํฉ๋๋ค.
ํต์ฌ ๋ฉ์ปค๋์ฆ:
- ์ถ๋ก ์: \(Z \sim \text{Uniform}({0,1}^{2^{16}})\)๋ก ์ํ๋ง
- ํ๋ จ ์: ์ธ์ฝ๋๊ฐ \(Q(Z|S)\)๋ก ์ํ๋ง, KL ๋ฐ์ฐ์ free bits ๋ฐฉ๋ฒ์ผ๋ก ์ ์ด
- Binary Mapper: 16๊ฐ ๋นํธ ๋ก์ง์ \(2^{16}\) ์ฐจ์ ์-ํซ ๋ฒกํฐ๋ก ๋ณํ
ํ๋ จ ์์ค: ํ์ค ๊ต์ฐจ ์ํธ๋กํผ + ์ ์ด๋ KL ๋ฐ์ฐ \[\mathcal{L} = \text{CE} + \frac{1}{T}\sum_{t=1}^T \max\left(0, D_{KL}(Q(Z_t|S) | P(Z_t)) - \kappa\right)\]
์ฑ๋ฅ ํฅ์ (8B, 1T ํ ํฐ):
- HumanEval+: 26.8% โ 29.9% (+11.4%)
- MBPP: 42.8% โ 44.0% (+2.8%)
- GSM8K: 32.1% โ 33.1% (+2.8%)
- MMLU: 59.2% โ 62.3% (+5.2%)
- CSQA: 70.7% โ 74.8% (+5.8%)
ํ๊ฐ ๋ฒค์น๋งํฌ: ์ฝ๋/์ํ ์์ฑ(HumanEval+, MBPP, GSM8K), ๋ค์ง์ ๋ค ์์ ์ถ๋ก (MMLU, CSQA, HellaSwag), ๋ ํด(RACE, BoolQ), ์ง์ ๊ฒ์(NQ, TriviaQA) ๋ฑ 15๊ฐ ํ์คํฌ์์ ํ๊ฐํ์ต๋๋ค.
๋ ผ๋ฌธ ์์ธ
1. Introduction
ํธ๋์คํฌ๋จธ์ ๋ฐ๋ช ์ดํ ๊ฑฐ์ 10๋ ์ด ์ง๋ฌ์ง๋ง, ์๊ธฐํ๊ท ๋ชจ๋ธ๋ง์ ๋ณธ์ง์ ์ผ๋ก ๋์ ๋ฐ์ง ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด ํต์ฌ ์ค๊ณ ์ธก๋ฉด์ ์ฌ๊ฒํ ํ์ฌ ๋ ํ๋ถํ๊ณ ์์ฐ์ค๋ฌ์ด ๋ฐ๋ ๋ชจ๋ธ์ด ๋ํ๋ ์ ์๋๋ก ํฉ๋๋ค.
๋์ฝ๋ ํธ๋์คํฌ๋จธ๋ ์๊ธฐํ๊ท ์ด์ฐ ๋ฐ๋ ๊ทผ์ฌ๊ธฐ์ ๋๋ค. ํ ํฐ ์ํ์ค \(S_1, \ldots, S_T\)๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ๊ฐ ํ ํฐ์ด ์ด์ ํ ํฐ๋ค์ด ์ฃผ์ด์ก์ ๋์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ์ถ์ ํฉ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ด ๊ตฌํํ๋ ์ ์ผํ ๋ฐ๋ ๋ชจ๋ธ๋ง๊ณผ ์ํ๋ง์ ์์ฑ๋ ํ ํฐ์ ๊ฒ์ ๋๋ค. ํนํ ๋์ฝ๋ ํธ๋์คํฌ๋จธ๋ ์์ฑํ ํ ํฐ ์คํธ๋ฆผ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ ์ฌ ๊ฒฐ์ ์ ๋ด๋ฆฌ์ง ์์ต๋๋ค.
๊ฐ๋จํ ์๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. \(Z \sim B(0.5)\)๋ฅผ ์ ์ฌ "๋์ ๋์ง๊ธฐ"๋ผ๊ณ ํ๊ณ , \(X_1, \ldots, X_T\)๋ ํ๋ฅ \(\epsilon\)์ ๋ ๋ฆฝ์ ์ธ ํ๋ฆฝ์ผ๋ก \(Z\)์ ๊ฐ๋ค๊ณ ํ๊ฒ ์ต๋๋ค. \(X_t\)๋ค์ \(Z\)๊ฐ ์ฃผ์ด์ก์ ๋ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ด๋ฉฐ:
\[P(X_{t+1} = 1 | Z = z) = \epsilon z + (1-\epsilon)(1-z)\]
ํ์ง๋ง \(Z\) ์์ด ์๊ธฐํ๊ท ๋ชจ๋ธ๋ก ํํํ๋ฉด:
\[P(X_{t+1} = 1 | X_1 = x_1, \ldots, X_t = x_t) = \frac{\left(\frac{\epsilon}{1-\epsilon}\right)^{\sum_{s=1}^t x_s}(1-\epsilon)^{t+1} + \left(\frac{1-\epsilon}{\epsilon}\right)^{\sum_{s=1}^t x_s}\epsilon^{t+1}}{\left(\frac{\epsilon}{1-\epsilon}\right)^{\sum_{s=1}^t x_s}(1-\epsilon)^t + \left(\frac{1-\epsilon}{\epsilon}\right)^{\sum_{s=1}^t x_s}\epsilon^t}\]
์์ํ ์๊ธฐํ๊ท ๋ฐ๋ ๋ชจ๋ธ์ ์ ์ฌ์ ์ผ๋ก ์ฌ๋ฌ ๋จ์ ์ ๊ฒช์ต๋๋ค:
- ์๋ฌต์ ์ผ๋ก ์ฌํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ฑฐ๋ ์์ฑ๋ ํ ํฐ์์ ์ ์ฌ ์์ ์ถ๋ก ํ๊ธฐ ์ํด ๋ถํ์ํ๊ฒ ๋ณต์กํ ๊ณ์ฐ๊ณผ ๋ ํฐ ์ฉ๋์ด ํ์ํฉ๋๋ค
- ๋ช ๊ฐ์ ํ ํฐ์ด ์๋ชป ์์ฑ๋๊ฑฐ๋ ์ด์ ์ ์์ฑ๋ ํ ํฐ๊ณผ ๋ชจํธํ๊ฑฐ๋ ๋ชจ์๋๋ ๊ฒฝ์ฐ ํ๋ก์ธ์ค๊ฐ ๊ถค๋์์ ๋ฒ์ด๋ ์ ์์ต๋๋ค
- ํต์ฌ ๊ฐ๋ ์ด ๋ถํฌ์ "์์ฐ์ค๋ฌ์ด" ์ธ์๋ถํด๋ก ์ธํด ์๋ฐ์ ์ผ๋ก ๋ํ๋์ง ์๊ณ , ํ๋ จ ์ํ์ ๋ ์ ๋ง์ถ๊ธฐ ์ํด ํ์์ ๋ฐ๋ผ ์ฌํ์ ๊ตฌ์ถ๋ฉ๋๋ค
2. Motivation
์ฒด์ธ ๋ฃฐ๋ก ์ธํด ๋ชจ๋ ๋ฐ๋๋ ์๊ธฐํ๊ท๋ก ๋ชจ๋ธ๋ง๋ ์ ์์ต๋๋ค. ํ์ง๋ง ํนํ "์์ฐ์ค๋ฌ์ด" ๊ตฌ์กฐ๊ฐ ์ ์ฌ ๋ณ์์ ๋ํ ์กฐ๊ฑด๋ถ๋ฅผ ํฌํจํ ๋, ์ ํธ์ ์๊ธฐํ๊ท ๋ชจ๋ธ์ ์ ์ฌ ๋ณ์๋ฅผ ํฌํจํ ์ ์ฒด ๊ฒฐํฉ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ ๋ณต์กํ ์ ์์ต๋๋ค.
์ด ์ฐ๊ตฌ์ ์ฃผ์ ๋ชฉํ๋ ํ๋ จ ์์ ์ ์ํด ๋ถ๊ณผ๋์ง ์๋ ์ ์ฌ ๋๋ค ์์ ์๊ธฐํ๊ท ํ๋ก์ธ์ค๋ฅผ ์กฐ๊ฑดํํ ์์ ๋ฅผ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋๋ค.
3. Method
์กฐ๊ฑด๋ถ ๋ณ๋ถ ์คํ ์ธ์ฝ๋: ๋๋ค ๋ณ์ \(Z\)์ ์์กดํ๋ ๋ชจ๋ธ๋ก ์ฒ์๋ถํฐ ์ ์ฒด ์ํ์ค๋ฅผ ์์ฑํ๋ ๊ฒ์ ๊ฐ๋จํฉ๋๋ค. \(Z \sim P(Z)\)๋ฅผ ์ํ๋งํ ๋ค์ ํ์ค ์๊ธฐํ๊ท ํ๋ก์ธ์ค๋ฅผ ์คํํ๋ฉด ๋ฉ๋๋ค.
๊ทธ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จํ๋ ๊ฒ์ ํจ์ฌ ๋ ๋ณต์กํฉ๋๋ค. ํ๋ จ ์ํ \(S\)๊ฐ ์ฃผ์ด์ง๋ฉด ๋ชฉํ๋ ๋ค์์ ์ต๋ํํ๋ ๊ฒ์ ๋๋ค:
\[P(S) = \int_z P(S | Z=z)P(Z=z)dz\]
VAE์ ์ธ์ฝ๋ ์ญํ ์ "์ข์" ๋ถํฌ \(Q(Z|S)\)์์ ์ํ๋งํ์ฌ ์ํ๋ง๋ \(Z\)๊ฐ ๋์ฝ๋๋ฅผ ๋ณ์กฐํ์ฌ \(S\)๋ฅผ ์์ฑํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ: Free Transformer๋ ์ค๊ฐ ๋ ์ด์ด์ ๋ ธ์ด์ฆ \(Z\)๊ฐ ์ฃผ์ ๋ ํ์ค ๋์ฝ๋์ ๋๋ค. ์ด๋ฅผ ํตํด ํธ๋์คํฌ๋จธ ๋ธ๋ก์ ์ ๋ฐ์ ์ธ์ฝ๋์ ๊ณต์ ํ์ฌ ์ธ์ฝ๋์ ํน์ ํ๊ฒ ๊ณ์ฐํด์ผ ํ๋ ๋จ์ผ ํธ๋์คํฌ๋จธ ๋ธ๋ก๋ง ์์ผ๋ฉด ๋๋ฏ๋ก ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ๋ํญ ์ค์ ๋๋ค.
\(1024 \times 1024\) ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํ๋ค๊ณ ๊ฐ์ ํ๋ฉด DeepEncoder๋ ์ด๋ฅผ \(1024/16 \times 1024/16 = 4096\) ํจ์น ํ ํฐ์ผ๋ก ๋ถํ ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ์ ๋ฐ์ ์ธ์ฝ๋๊ฐ ์๋์ฐ ์ดํ ์ ์ด ์ง๋ฐฐ์ ์ด๊ณ 80M๋ง ์ฌ์ฉํ๋ฏ๋ก ํ์ฑํ๊ฐ ํ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ๊ธ๋ก๋ฒ ์ดํ ์ ์ ๋ค์ด๊ฐ๊ธฐ ์ ์ 4096๊ฐ์ ํ ํฐ์ด ์์ถ ๋ชจ๋์ ๊ฑฐ์ณ \(4096/16 = 256\)๊ฐ๊ฐ ๋๋ฏ๋ก ์ ์ฒด ํ์ฑํ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ ์ด ๊ฐ๋ฅํฉ๋๋ค.
ํ์ค ๋์ฝ๋ ํธ๋์คํฌ๋จธ๋ก์ Free Transformer๋ ์๋ฒ ๋ฉ ํ ์ด๋ธ๋ก ํ ํฐ ์ํ์ค๋ฅผ ์ธ์ฝ๋ฉํ์ฌ \(T \times D\) ํํ์ ํ ์ \(X_0\)๋ฅผ ์์ฑํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ฒซ ๋ฒ์งธ \(L/2\) ํธ๋์คํฌ๋จธ ๋ธ๋ก์ ์์ฐจ์ ์ผ๋ก ํ๊ฐํ์ฌ ๋์ผํ ํํ์ \(X_{L/2}\)๋ฅผ ์ป์ต๋๋ค.
์ด ์์ ์์ ์-ํซ ๋ฒกํฐ์ ์ํ์ค \(Z = (Z_1, \ldots, Z_t) \in {0,1}^{T \times C}\)๋ฅผ ์ํ๋งํฉ๋๋ค. ์์ฑ ์ค์๋ ๊ฐ \(Z_t\)์ ๋ํด ์ธ๋ฑ์ค \(c\)๋ฅผ \({0, \ldots, C-1}\)์์ ๊ท ์ผํ๊ฒ ์ํ๋งํ ๋ค์ ์ฐจ์ \(C\)์ ์-ํซ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค.
์ธ์ฝ๋์ ์์ค: ํ๋ จ ๋๋ KV ์บ์ ์ฌ์ ์ฑ์ฐ๊ธฐ ์ค์ ํ ์ \(Z\)๋ ์ธ์ฝ๋๋ก ์ํ๋ง๋ฉ๋๋ค. Free Transformer๋ ๋น์ธ๊ณผ์ ์ธ ์ธ์ฝ๋ ์ ์ฉ ํธ๋์คํฌ๋จธ ๋ธ๋ก ํ๋๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๋ ๋์ฝ๋์ ์กฐ๊ฑดํ๊ฐ ์ฅ๊ฑฐ๋ฆฌ ํจ๊ณผ๋ฅผ ๊ฐ์ง ์ ์์ด ์ ์ ํ ์ ์ฌ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ์ป๊ธฐ ์ํด ์ ์ฒด ์ํ์ค๋ฅผ ๊ณ ๋ คํด์ผ ํ๊ธฐ ๋๋ฌธ์ ํ์ํฉ๋๋ค.
์ ํ ํ๋ ์ ์ธ์ฝ๋ ๋ธ๋ก์ ์ถ๋ ฅ์์ ๋ชจ๋ ํ ํฐ์ ๋ํด \(H=16\) ์ฐจ์์ ๋ฒกํฐ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด๋ฌํ ๊ตฌ์ฑ ์์๋ ๊ฐ๋ณ ๋นํธ์ ๋ก์ง์ผ๋ก ํด์๋์ด \({0, \ldots, 2^H - 1}\)์์ ๊ฐ์ ์ํ๋งํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
KL ๋ฐ์ฐ์ ๊ฐ๋ณ \(Z_t\)์ KL ๋ฐ์ฐ์ ์๊ณ๊ฐ \(\kappa\) ์ด์์ธ ๊ฒ๋ง ํฉ์ฐํ๊ณ ๋๋จธ์ง๋ ๋ฌด์ํ๋ ํ ํฐ๋ณ free bits ๋ฐฉ๋ฒ์ผ๋ก ์ ์ด๋ฉ๋๋ค:
\[\frac{1}{T}\sum_{t=1}^T \max\left(0, D_{KL}(Q(Z_t|S_1, \ldots, S_T) | P(Z_t)) - \kappa\right)\]
Binary Mapper: ์ธ์ฝ๋์ ๋ง์ง๋ง ์ ํ ๋ ์ด์ด๋ ์ฒ๋ฆฌ ์ค์ธ ์ํ์ค์ ๋ชจ๋ ์ธ๋ฑ์ค \(t\)์ ๋ํด ๋ฒกํฐ \(L_t = (L_{t,1}, \ldots, L_{t,H}) \in \mathbb{R}^H\)๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์ด ๊ตฌ์ฑ ์์๋ ์ด์ง ์ธ์ฝ๋ฉ์ ๊ฐ๋ณ ๋นํธ์ ๋ก์ง์ผ๋ก ํด์๋ฉ๋๋ค.
Binary Mapper๋ ๋ค์๊ณผ ๊ฐ์ด ๋ ๋ฆฝ์ ์ผ๋ก ๋นํธ \(B_{t,1}, \ldots, B_{t,H}\)๋ฅผ ์ํ๋งํฉ๋๋ค:
\[P(B_{t,h} = 1) = \frac{1}{1 + e^{-L_{t,h}}}\]
๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ณผ ๊ฐ์ ํด๋นํ๋ \(2^H\) ์ฐจ์์ ์-ํซ ๋ฒกํฐ \(Y_t\)๋ฅผ ์ถ๋ ฅํฉ๋๋ค.
4. Experiments
ํฉ์ฑ ๋ฐ์ดํฐ์ : Free Transformer๊ฐ ์ค์ ๋ก \(Z\)๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ ํ๋ก์ธ์ค๋ฅผ ์กฐ๊ฑดํํ๋์ง ํ์ธํ๊ธฐ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์ค๊ณํ์ต๋๋ค. ๊ฐ ์ํ์ค๋ 64๊ฐ์ ๋ฐ์ค๋ก ์์ํ๊ณ , ๋๋ฌธ์์ ์ํ์ค์ ์์น๋ฅผ ๋ฌด์์๋ก ์ ํํ์ฌ ์ ํํ ๋ฌธ์๊ฐ 8๋ฒ ๋ฐ๋ณต๋๋ "ํ๊ฒ"์ผ๋ก ๋ฐ์ค์ ๊ต์ฒดํฉ๋๋ค.
๋งค์ฐ ๋ฎ์ KL ๋ฐ์ฐ ๊ฐ์ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ๋ฐ๋๋ผ ๋ชจ๋ธ์ฒ๋ผ ๋์ํ๋ฉฐ, ๊ฐ์ด ์ฆ๊ฐํ๋ฉด ๋ชจ๋ธ์ ์ฒ์์ ์ ์ฌ ์ํ์ ํ๊ฒ์ ์์น๋ง ์ธ์ฝ๋ฉํ๊ณ , ๊ทธ ๋ค์ ํ๊ฒ ์์น์ ๋ ธ์ด์ฆ๋ฅผ ๋ชจ๋ ์ธ์ฝ๋ฉํ๊ณ , ๋ง์ง๋ง์ผ๋ก ์ ์ฒด ์ํ์ค๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ๋ถ์ ํํ ์์ฑ์ ์ด๋ํฉ๋๋ค.
ํ์์ ๊ฒฐ๊ณผ: 1.5B ๋ชจ๋ธ(47B ํ ํฐ)๊ณผ 8B ๋ชจ๋ธ(200B ํ ํฐ)์ ๋ค์ํ KL ๋ฐ์ฐ ์๊ณ๊ฐ์ผ๋ก ํ๋ จํ์ฌ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค.
์ถ๋ก ์ ํ์๋ก ํ๋ ๋ฒค์น๋งํฌ์ธ HumanEval+, MBPP, GSM8K์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ด์ฐฐํ์ต๋๋ค. 8B ๋ชจ๋ธ์ ๊ฒฝ์ฐ 1/2 ๋นํธ KL ๋ฐ์ฐ์ผ๋ก ๋ค์ง์ ๋ค ์ง๋ฌธ์ธ MMLU์ CSQA์์๋ ๋ช ํํ ๊ฐ์ ์ด ์์์ต๋๋ค.
1T ํ ํฐ ํ๋ จ ๊ฒฐ๊ณผ: ๋ ํ์ค์ ์ธ ์ค์ ์์ ๊ฐ์ ์ ์ธก์ ํ๊ธฐ ์ํด 8B ๋ชจ๋ธ์ 1T ํ ํฐ์ผ๋ก ํ๋ จํ์ต๋๋ค. 200B ํ ํฐ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ คํ์ฌ ํ ํฐ๋น ์ต๋ ์ ๋ฐ ๋นํธ์ ์ ๋ณด์ ํด๋นํ๋ ๊ฐ \(\kappa = \log(2)/2\)๋ฅผ ์ ํํ์ต๋๋ค.
ํต์ฌ ๊ฒฐ๊ณผ๋ HumanEval+, MBPP, GSM8K, MMLU, CSQA์์์ ์ฑ๋ฅ ํฅ์์ด๋ฉฐ, ์ด๋ ๋ ์์ ์ค์ ์์ ๊ด์ฐฐํ ๊ฒ์ ํ์ธํ๊ณ ๋ค๋ฅธ ์์ ์์ ๋ ํฐ ์์ ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
5. Previous work
VAE์ ๋์ฝ๋ ํธ๋์คํฌ๋จธ๋ฅผ ๊ฒฐํฉํ๋ ค๋ ์ฌ๋ฌ ์๋๊ฐ ์์์ต๋๋ค. OPTIMUS ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ๋ BERT๋ฅผ ํ ์คํธ ์๋ฒ ๋ฉ/์ธ์ฝ๋๋ก, GPT-2๋ฅผ ๋์ฝ๋๋ก ๊ฒฐํฉํ์ฌ VAE์ ์ ์ฌํ ์์ค๋ก ๋ฏธ์ธ ์กฐ์ ํฉ๋๋ค.
Fang ๋ฑ์ CVAE๋ ๋ ๊ฐ์ ์ฌ์ ํ๋ จ๋ GPT-2๋ฅผ ๊ฒฐํฉํ๋ฉฐ, ํ๋๋ ์ธ๊ณผ์ ๋ง์คํน ์์ด ์ธ์ฝ๋๋ก ์ฌ์ฉ๋ฉ๋๋ค. AdaVAE๋ ์ ์ฌํ๊ฒ ๋ ๊ฐ์ ์ฌ์ ํ๋ จ๋ GPT-2์ ์กฐํฉ์ด๋ฉฐ, ์ฒซ ๋ฒ์งธ๋ ์ธ๊ณผ์ ๋ง์คํน ์์ด ์ธ์ฝ๋ ์ญํ ์ ํฉ๋๋ค.
6. Conclusion
Free Transformer๋ ํ์ค ๋์ฝ๋ ํธ๋์คํฌ๋จธ์ ์ง์ ์ ์ธ ํ์ฅ์ด๋ฉฐ ์กฐ๊ฑด๋ถ VAE์ ์ถ์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋จ์ผ ์ถ๊ฐ ๋น์ธ๊ณผ์ ํธ๋์คํฌ๋จธ ๋ธ๋ก์ผ๋ก ๊ตฌํ๋๋ฉฐ ๋ช ํผ์ผํธ์ ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ์ค๋ฒํค๋๊ฐ ํ์ํฉ๋๋ค.
์ด ๊ตฌ์กฐ๋ ๋น์ง๋ ํ์ต ์ ์ฌ ๋๋ค ๋ณ์๋ฅผ ํ์ตํ๊ณ ์์ฑ ํ๋ก์ธ์ค๋ฅผ ์กฐ๊ฑดํํ ์ ์๊ฒ ํฉ๋๋ค. ์ด๋ค ๋ฉด์์ ์ด ์ ๊ทผ๋ฒ์ ์ถ๋ก ๋ชจ๋ธ์ด ํ ํฐ ๊ณต๊ฐ์์ ์๊ฐ ์ฒด์ธ๊ณผ RL ์ ์ฐจ๋ก ์ํํ๋ ๊ฒ์ ์ ์ฌ ๊ณต๊ฐ์์ ์คํ ์ธ์ฝ๋๋ก ๋ฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ต์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ์ง ์๊ณ ๋ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์ ๋ ๊ฐ์ง ํฌ๊ธฐ์ ๋ชจ๋ธ์์ ์ฑ๋ฅ ํฅ์์ ๋ณด์ธ ๊ฒ์ ์ ์ฒด ์ ๊ทผ๋ฒ์ด ์ค์ ๋ก ๋ฐ๋๋ผ ํธ๋์คํฌ๋จธ์ ๊ท๋ฉ์ ํธํฅ์ ๊ฐ์ ํ๋ค๋ ๊ฐ๋ ฅํ ์ ํธ์ ๋๋ค.