Deep Delta Learning
์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ์ต ์์ ์ฑ์ ์ฑ ์์ง๋ ResNet์ identity shortcut connection์ ์ฌ์ค ๋๋ฌด ๋จ์ํ๋ค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ ๋ ฅ์ residual์ ๋ํ๋ ๋ฐฉ์์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ ํด๊ฒฐํ์ง๋ง, ๋คํธ์ํฌ๊ฐ ๋ณต์กํ ์ํ ์ ์ด๋ฅผ ํํํ๋ ๋ฐ๋ ํ๊ณ๊ฐ ์์์ฃ . ์๋ก์ด ๋ ผ๋ฌธ Deep Delta Learning(DDL)์ ์ด shortcut ์ฐ๊ฒฐ์ ํ์ต ๊ฐ๋ฅํ ๊ธฐํํ์ ๋ณํ์ ์ถ๊ฐํด์, ๋คํธ์ํฌ๊ฐ identity mapping, ์ง๊ต ํฌ์(orthogonal projection), ๊ทธ๋ฆฌ๊ณ ๊ธฐํํ์ ๋ฐ์ฌ(geometric reflection)๋ฅผ ๋์ ์ผ๋ก ์ ํํ ์ ์๋๋ก ๋ง๋ญ๋๋ค. ํต์ฌ์ ๋จ ํ๋์ ์ค์นผ๋ผ ๊ฒ์ดํธ \(\beta(X)\)๋ก ์ด ๋ชจ๋ ๋ณํ์ ์ ์ดํ๋ค๋ ์ ์ ๋๋ค.
๋ ผ๋ฌธ ์ ๋ณด
์ ๋ชฉ: Deep Delta Learning
์ ์: Y. Zhang, Y. Liu, M. Wang, and Q. Gu
์์: Princeton University, University of California, Los Angeles
๋ฐํ: arXiv preprint, 2026-01-01
DOI: 10.48550/arXiv.2601.00417
์ธ์ฉ: Y. Zhang, Y. Liu, M. Wang, and Q. Gu, "Deep Delta Learning," arXiv preprint arXiv:2601.00417, 2026.
ResNet์ด ๋ฑ์ฅํ ์ง ๊ฑฐ์ 10๋ ์ด ์ง๋ฌ์ต๋๋ค. ๊ทธ๋์ identity shortcut connection์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ์ต ์์ ์ฑ์ ์ฑ ์์ง๋ ์ฌ์ค์์ ํ์ค์ด ๋์์ฃ . ํ์ง๋ง ์ด ๊ตฌ์กฐ๋ ๊ทผ๋ณธ์ ์ผ๋ก "๋ง์ "๋ง ํ ์ ์์ต๋๋ค. \(X_{l+1} = X_l + F(X_l)\) ํํ์ ์ ๋ฐ์ดํธ๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธด ํ์ง๋ง, ๋คํธ์ํฌ๊ฐ ๋ฐฐ์ธ ์ ์๋ ๋์ญํ(dynamics)์ ๊ฐํ ์ ์ฝ์ ๊ฒ๋๋ค. ํนํ ์ง๋(oscillation)์ด๋ ๋๋ฆฝ์ ํ๋(oppositional behavior) ๊ฐ์ ๋ณต์กํ ํจํด์ ๋ชจ๋ธ๋งํ๋ ค๋ฉด ์์ ๊ณ ์ ๊ฐ(negative eigenvalue)์ ๊ฐ์ง ๋ณํ์ด ํ์ํ๋ฐ, ์์ํ ๋ง์ ๊ตฌ์กฐ๋ก๋ ์ด๊ฒ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
ํ๋ฆฐ์คํด ๋ํ๊ต์ UCLA์ ์ฐ๊ตฌํ์ด ์ ์ํ Deep Delta Learning์ ์ด ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃน๋๋ค. ์ ์๋ค์ Householder ๋ฐ์ฌ๋ผ๋ ์์น ์ ํ๋์์ ๊ณ ์ ์ ๋๊ตฌ๋ฅผ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ ์ ๋ชฉ์์ผ, identity shortcut์ ํ์ต ๊ฐ๋ฅํ ๊ธฐํํ์ ๋ณํ์ผ๋ก ์ผ๋ฐํํ์ต๋๋ค. ํต์ฌ ์์ด๋์ด๋ ๋จ์ํฉ๋๋ค: shortcut ์ฐ๊ฒฐ์ rank-1 ๋ณํ์ ์ ์ฉํ๋, ๊ทธ ๊ฐ๋๋ฅผ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ ๊ฒ์ด์ฃ . ์ด๋ ๊ฒ ํ๋ฉด ๋คํธ์ํฌ๋ ์ธต๋ง๋ค "๊ทธ๋ฅ ๋์ด๊ฐ์ง", "ํน์ ๋ฐฉํฅ์ ์ ๋ณด๋ฅผ ์ง์ธ์ง", "์์ ํ ๋ฐ์ฌ์ํฌ์ง"๋ฅผ ์ค์ค๋ก ๊ฒฐ์ ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์์ฝ
Deep Delta Learning์ ๊ธฐ์กด residual block์ identity shortcut์ **Delta Operator**๋ผ๋ rank-1 ๊ธฐํํ์ ๋ณํ์ ์ถ๊ฐํฉ๋๋ค:
\[ X_{l+1} = A(X_l)X_l + \beta(X_l)k(X_l)v(X_l)^\top \]
์ฌ๊ธฐ์:
- \(A(X) = I - \beta(X)k(X)k(X)^\top\): Delta Operator (shortcut ๋ณํ)
- \(k(X) \in \mathbb{R}^d\): ํ์ต๋ ๋ฐ์ฌ ๋ฐฉํฅ ๋ฒกํฐ (๋จ์ ๋ฒกํฐ)
- \(\beta(X) \in [0, 2]\): ํ์ต๋ ์ค์นผ๋ผ ๊ฒ์ดํธ
- \(v(X) \in \mathbb{R}^{d_v}\): residual value ๋ฒกํฐ
๊ธฐํํ์ ํด์
\(\beta\)์ ๊ฐ์ ๋ฐ๋ผ ์ฐ์ฐ์๊ฐ ๋ค๋ฅด๊ฒ ๋์ํฉ๋๋ค:
\(\beta\) ๊ฐ |
๊ณ ์ ๊ฐ |
๊ธฐํํ์ ์๋ฏธ |
ํ๋ ฌ์ |
|---|---|---|---|
\(\beta \to 0\) |
\((1, 1, ..., 1)\) |
Identity mapping |
\(\det(A) = 1\) |
\(\beta \to 1\) |
\((0, 1, ..., 1)\) |
Orthogonal projection |
\(\det(A) = 0\) |
\(\beta \to 2\) |
\((-1, 1, ..., 1)\) |
Householder reflection |
\(\det(A) = -1\) |
์ฃผ์ ํน์ฑ
- ์คํํธ๋ผ ์ ์ด: ๋จ ํ๋์ ์ค์นผ๋ผ \(\beta\)๋ก ๋ณํ์ ๊ณ ์ ๊ฐ ๊ตฌ์กฐ๋ฅผ ์์ ํ ์ ์ด
- Delta Rule ํตํฉ: depth ์ฐจ์์์ Delta Rule์ ๊ตฌํ (\(v^\top - k^\top X\) ํํ์ ์ค์ฐจ ์ ํธ)
- ์ฐ์์ ๋ณด๊ฐ: identity, projection, reflection ์ฌ์ด๋ฅผ ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ฒ ์ ํ
- ๋๊ธฐํ๋ ์ญ์ /์ฐ๊ธฐ: ๊ฐ์ \(\beta\)๋ก ์ ๋ณด ์ญ์ (erasure)์ ์ฃผ์ (injection)์ ๋์์ ์ ์ด
์คํ ์ค์
- ๊ตฌํ ๋ฐฉ์: MLP ๊ธฐ๋ฐ ๋๋ Attention ๊ธฐ๋ฐ ํ๋ผ๋ฏธํฐํ
- ์ ๊ทํ: \(k\)๋ \(L_2\) ์ ๊ทํ๋ก ๋จ์ ๋ฒกํฐ๋ก ์ ํ
- ๊ฒ์ดํธ ๋ฒ์: \(\beta(X) = 2 \cdot \sigma(\text{Linear}(G(X)))\)๋ก \([0, 2]\) ๋ฒ์ ๋ณด์ฅ
- ์์น ์์ ์ฑ: \(\epsilon > 0\)์ ์ถ๊ฐํ์ฌ \(k^\top k + \epsilon\)์ผ๋ก ๋๋
๋ ผ๋ฌธ ์์ธ
1. ์๋ก : Residual Connection์ ํ๊ณ
์ฌ์ธต residual ๋คํธ์ํฌ์ ํจ์จ์ฑ์ ๊ทผ๋ณธ์ ์ผ๋ก identity shortcut connection์ ๋ฌ๋ ค ์์ต๋๋ค. ์ด ๋ฉ์ปค๋์ฆ์ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ์ง๋ง, ๋์์ feature ๋ณํ์ "์๊ฒฉํ ๋ง์ ๊ท๋ฉ ํธํฅ(strictly additive inductive bias)"์ ๋ถ๊ณผํฉ๋๋ค.
ํ์ค ResNet์ ์ ๋ฐ์ดํธ ๊ท์น์ ๋ณด๋ฉด:
\[ X_{l+1} = X_l + F(X_l) \]
์ด๋ ODE \(\dot{X} = F(X)\)์ ๋ํ forward Euler step(step size 1)์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด ๊ด์ ์ ์ฌ์ธต ๋คํธ์ํฌ๋ฅผ ๋์ญํ๊ณ(dynamical system)์ ์ฐ๊ฒฐ์์ผ์ฃผ์ฃ . ํ์ง๋ง ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์๊ฒฉํ ๋ง์ ์ ๋ฐ์ดํธ๋ ํ์ต๋ ๋์ญํ์ ๊ฐํ translation bias๋ฅผ ๊ฑธ์ด๋์ต๋๋ค. shortcut path๋ ํญ์ identity operator์ ๊ฐ์ ๊ณ ์ ๋ Jacobian์ ์ ์งํ๋๊น์.
์ด ๊ฐ์ง์ฑ(rigidity)์ ๋คํธ์ํฌ๊ฐ ํํํ ์ ์๋ ์ํ ์ ์ด๋ฅผ ์ ํํฉ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ(Grazzi et al., 2024)๋ ์ง๋์ด๋ ๋๋ฆฝ์ ํ๋ ๊ฐ์ ํจํด์ ๋ชจ๋ธ๋งํ๋ ค๋ฉด ์์ ๊ณ ์ ๊ฐ์ ๊ฐ๋ ๋ณํ์ด ํ์ํ๋ค๋ ์ ์ ์ง์ ํ์ต๋๋ค. ํ์ง๋ง ์์ํ ๋ง์ ๊ตฌ์กฐ๋ก๋ ์ด๊ฒ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
2. Delta Residual Block: ์ํ์ ๊ธฐ์ด
์ ์๋ค์ ์ด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๊ธฐํํ์ ์ ํ๋์์ ๋ฟ๋ฆฌ๋ฅผ ๋ ์๋ฆฌ์ ์ผ๋ฐํ๋ฅผ ์ ์ํฉ๋๋ค. ๊ทธ ์ถ๋ฐ์ ์ Householder ๋ณํ์ ๋๋ค.
2.1 Householder ํ๋ ฌ
์๋ฒกํฐ๊ฐ ์๋ ๋ฒกํฐ \(k \in \mathbb{R}^d\)์ ๋ํด, Householder ํ๋ ฌ \(H_k\)๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
\[ H_k = I - 2\frac{kk^\top}{|k|_2^2} \]
๊ธฐํํ์ ์ผ๋ก \(H_k\)๋ ๋ฒ์ ๋ฒกํฐ๊ฐ \(k\)์ธ ์ดํ๋ฉด์ ๋ํด ๋ฒกํฐ๋ฅผ ๋ฐ์ฌ์ํต๋๋ค. ์ด ํ๋ ฌ์ ์์น ์ ํ๋์์ ํต์ฌ ๋๊ตฌ๋ก, ์ฌ๋ฌ ์ค์ํ ์ฑ์ง์ ๊ฐ์ง๋๋ค:
- ๋์นญ์ฑ: \(H_k = H_k^\top\)
- ์ง๊ต์ฑ: \(H_k^\top H_k = I\) (๊ธธ์ด ๋ณด์กด)
- ๋ํฉ์ฑ: \(H_k^2 = I\) (๋ ๋ฒ ๋ฐ์ฌํ๋ฉด ์์ )
์คํํธ๋ผ ๊ด์ ์์ ๋ณด๋ฉด, \(H_k\)๋ ๊ณ ์ ๊ฐ \(-1\)์ ํ๋ ๊ฐ์ง๊ณ (๊ณ ์ ๋ฒกํฐ \(k\)), ๋๋จธ์ง \(d-1\)๊ฐ๋ ๊ณ ์ ๊ฐ \(1\)์ ๋๋ค (๊ณ ์ ๊ณต๊ฐ \(k^\perp\)).
2.2 Delta Operator์ ์ ์
DDL์ ํต์ฌ ์์ด๋์ด๋ Householder ํ๋ ฌ์ ์์ ์ธ์ 2๋ฅผ ํ์ต ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์กด์ ์ค์นผ๋ผ ๊ฒ์ดํธ \(\beta(X)\)๋ก ๊ต์ฒดํ๋ ๊ฒ์ ๋๋ค.
hidden state๋ฅผ ํ๋ ฌ \(X \in \mathbb{R}^{d \times d_v}\)๋ก ํํํฉ๋๋ค. ์ฌ๊ธฐ์ \(d\)๋ feature ์ฐจ์, \(d_v\)๋ value ์ฑ๋์ ๊ฐ์์ ๋๋ค. DDL block์ ์ถ๋ ฅ์:
\[ X_{l+1} = A(X_l)X_l + \beta(X_l)k(X_l)v(X_l)^\top \]
์ฌ๊ธฐ์ \(v \in \mathbb{R}^{d_v}\)๋ branch \(F: \mathbb{R}^{d \times d_v} \to \mathbb{R}^{d_v}\)๊ฐ ์์ฑํ residual value ๋ฒกํฐ์ ๋๋ค. outer product \(kv^\top\)์ด ๋ง์ ์ ๋ฐ์ดํธ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ์ค์ํ ์ ์ ๊ฒ์ดํธ \(\beta(X)\)๋ฅผ ์ด ์์ฑ(constructive) ํญ์๋ ์ ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ญ์ (erasure)์ ์ฐ๊ธฐ(write) ์ฐ์ฐ์ด ์ฐ๊ฒฐ๋ฉ๋๋ค.
\(A(X)\)๋ feature ์ฐจ์ \(d\)์ ๊ณต๊ฐ์ ์ผ๋ก ์์ฉํ๋ Delta Operator์ ๋๋ค:
\[ A(X) = I - \beta(X)\frac{k(X)k(X)^\top}{k(X)^\top k(X) + \epsilon} \]
์ด ๊ตฌ์กฐ๋ ๋ฐ์ฌ ๋ฐฉํฅ \(k(X) \in \mathbb{R}^d\), value ๋ฒกํฐ \(v(X) \in \mathbb{R}^{d_v}\), ๋ฐ์ฌ ๊ฐ๋ \(\beta(X) \in \mathbb{R}\)์ ๋ณ๋์ ๊ฒฝ๋ ์ ๊ฒฝ๋ง branch๋ก ํ์ตํฉ๋๋ค. ์์ \(\epsilon > 0\)์ ์์น ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
์ด๋ก ๋ถ์์์๋ \(k\)๊ฐ ์๊ฒฉํ๊ฒ ์ ๊ทํ๋์ด \(k^\top k = 1\)์ด๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค. ์ด ์กฐ๊ฑด ํ์์ (\(\epsilon \to 0\)) ์ฐ์ฐ์๋ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ํ๋ฉ๋๋ค:
\[ A(X) = I - \beta(X)k(X)k(X)^\top \]
\(X\)๊ฐ ํ๋ ฌ์ด๋ฏ๋ก ์ฐ์ฐ์ \(A(X)\)๋ value ์ฐจ์ \(d_v\)์ ๋ํด broadcast๋๋ฉฐ, hidden state์ ๋ชจ๋ ์ด์ ๊ธฐํํ์ ๋ณํ์ ๋์์ ์ ์ฉํฉ๋๋ค.
๊ฐ์ ๋จ์ ๋ ธ๋ฆ ๊ฐ์ ํ์์, \(A(X) = I - \beta(X)k(X)k(X)^\top\)๋ฅผ ์์ ๋์ ํ๋ฉด ๋๋ฑํ ๋ง์ ํ rank-1 Delta ํํ๋ฅผ ์ป์ต๋๋ค:
\[ X_{l+1} = X_l + \beta(X_l)k(X_l)(v(X_l)^\top - k(X_l)^\top X_l) \]
์ด ํํ๋ ๊ฐ์ ์ค์นผ๋ผ \(\beta\)๊ฐ ์ญ์ ํญ \(k^\top X\)์ ์ฐ๊ธฐ ํญ \(v^\top\)๋ฅผ ๋ชจ๋ ์กฐ์ ํ๋ค๋ ์ ์ ๋ช ์์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
๊ฒ์ดํ ํจ์ \(\beta(X)\)๋ \([0, 2]\) ๋ฒ์์ ์๋๋ก ํ๋ผ๋ฏธํฐํ๋ฉ๋๋ค:
\[ \beta(X) = 2 \cdot \sigma(\text{Linear}(G(X))) \]
์ฌ๊ธฐ์ \(G(\cdot)\)๋ pooling, convolution, ๋๋ flattening ์ฐ์ฐ์ ๋๋ค. ์ด ํน์ ๋ฒ์๋ ๋ค์ ์น์ ์์ ๋ถ์ํ ํ๋ถํ ๊ธฐํํ์ ํด์์ ์ ๊ณตํ๊ธฐ ์ํด ์ ํ๋์์ต๋๋ค.
3. ๋ถ์: Delta Operator์ ์คํํธ๋ผ
Delta-Res block์ ํํ๋ ฅ์ ์ฐ์ฐ์ \(A(X)\)์ ์คํํธ๋ผ ์ฑ์ง์์ ๋์ต๋๋ค. ์ด ์ฑ์ง๋ค์ ํ์ต๋ ๊ฒ์ดํธ \(\beta(X)\)๋ก ์ ์ด๋ฉ๋๋ค.
3.1 ์คํํธ๋ผ ๋ถํด
์ ๋ฆฌ 3.1 (Delta Operator์ ์คํํธ๋ผ): \(A = I - \beta kk^\top\)๋ผ ํ์. ์ฌ๊ธฐ์ \(k \in \mathbb{R}^d\)๋ ๋จ์ ๋ฒกํฐ (\(k^\top k = 1\))์ด๊ณ \(\beta \in \mathbb{R}\)๋ ์ค์นผ๋ผ๋ค. \(A\)์ ์คํํธ๋ผ \(\sigma(A)\)๋:
\[ \sigma(A) = {\underbrace{1, 1, ..., 1}_{d-1 \text{ times}}, 1-\beta} \]
๊ณ ์ ๊ฐ \(\lambda = 1 - \beta\)์ ๋์ํ๋ ๊ณ ์ ๋ฒกํฐ๋ \(k\)์ ๋๋ค. ๊ณ ์ ๊ฐ \(\lambda = 1\)์ ๋ํ ๊ณ ์ ๊ณต๊ฐ์ \(k\)์ ์ง๊ต ์ฌ๊ณต๊ฐ \(k^\perp = {u \in \mathbb{R}^d | k^\top u = 0}\)์ ๋๋ค.
์ฆ๋ช ์ค์ผ์น:
\(k\)์ ์ง๊ตํ๋ ๋ฒกํฐ \(u\) (\(k^\top u = 0\))์ ๋ํด: \(Au = (I - \beta kk^\top)u = u - \beta k(0) = u\). ๋ฐ๋ผ์ \((d-1)\)์ฐจ์ ๋ถ๊ณต๊ฐ \(k^\perp\)์ ๋ชจ๋ ๋ฒกํฐ๊ฐ ๊ณ ์ ๊ฐ 1์ ๊ฐ์ง๋๋ค.
๋ฒกํฐ \(k\) ์์ฒด์ ๋ํด: \(Ak = (I - \beta kk^\top)k = k - \beta k(1) = (1-\beta)k\). ๋ฐ๋ผ์ \(k\)๋ ๊ณ ์ ๊ฐ \(1-\beta\)๋ฅผ ๊ฐ์ง๋๋ค.
์ด ์ ๋ฆฌ๋ ๊ฒ์ดํธ \(\beta(X)\)์ ๋ํ ๋ช ํํ๊ณ ๊ฐ๋ ฅํ ํด์์ ์ ๊ณตํฉ๋๋ค. ๋จ ํ๋์ ์ค์นผ๋ผ๋ฅผ ํ์ตํจ์ผ๋ก์จ, ๋คํธ์ํฌ๋ ์ํ ํ๋ ฌ์ ๋ชจ๋ \(d_v\)๊ฐ ์ด์ ๋์์ residual ๋ณํ์ ๊ธฐํํ์ ๋์ ์ผ๋ก ์ ์ดํ ์ ์์ต๋๋ค.
ํ๋ ฌ ์ํ๋ก์ ํ์ฅ: ์ ์คํํธ๋ผ ๋ช ์ ๋ค์ ๊ณต๊ฐ์ (spatial)์ ๋๋ค. ์ฆ \(\mathbb{R}^d\)์์ ์ ํ ์ฌ์ \(u \mapsto Au\)๋ฅผ ์ค๋ช ํฉ๋๋ค. hidden state๊ฐ ํ๋ ฌ \(X \in \mathbb{R}^{d \times d_v}\)์ด๊ณ shortcut์ด ์ข์ธก ๊ณฑ์ ์ผ๋ก ์์ฉํ๋ฏ๋ก, \(d_v\)๊ฐ ์ด ๊ฐ๊ฐ์ด ๊ฐ์ \(A\)์ ์ํด ๋ ๋ฆฝ์ ์ผ๋ก ๋ณํ๋ฉ๋๋ค. ๋ฒกํฐํ ๊ด์ ์์ ์ ๋๋ ์ ํ ์ฐ์ฐ์๋ \(I_{d_v} \otimes A\)์ ๋๋ค. ๋ฐ๋ผ์ ํ์ฅ๋ ์ฌ์์ ์คํํธ๋ผ์ \(A\)์ ๊ณ ์ ๊ฐ์ด \(d_v\)๋ฒ ๋ฐ๋ณต๋ ๊ฒ์ด๊ณ , ํ๋ ฌ์์ \(\det(A)^{d_v}\)์ ๋๋ค.
์ง๊ต์ฑ ์กฐ๊ฑด: \(A\)๊ฐ ๋์นญ์ด๋ฏ๋ก ํน์ด๊ฐ์ ๊ณ ์ ๊ฐ์ ์ ๋๊ฐ๊ณผ ์ผ์นํฉ๋๋ค. ํนํ \(A\)๋ \(|1-\beta| = 1\)์ผ ๋, ์ฆ \(\beta \in {0, 2}\)์ผ ๋๋ง ์ง๊ต์ ๋๋ค. \(\beta \in (0, 2)\)์ ๋ํด \(A\)๋ \(k\)๋ฅผ ๋ฐ๋ผ ์ด๋ฐฉ์ฑ ์์ถ(anisotropic contraction)์ ์ํํฉ๋๋ค (\(\beta > 1\)์ผ ๋ ๋ถํธ ๋ฐ์ ).
๋ฐ๋ฆ์ ๋ฆฌ 3.2 (๊ณต๊ฐ ํ๋ ฌ์): ๊ณต๊ฐ ํน์ฑ \(\mathbb{R}^d\)์ ์์ฉํ๋ Delta Operator \(A(X)\)์ ํ๋ ฌ์์:
\[ \det(A(X)) = \prod_{i=1}^d \lambda_i = 1^{d-1} \cdot (1-\beta(X)) = 1 - \beta(X) \]
shortcut์ด \(d_v\) value ์ด์ broadcast๋๋ฏ๋ก ์ ์ฒด ํ๋ ฌ ์ํ ๊ณต๊ฐ \(\mathbb{R}^{d \times d_v}\)์์ ์ ๋๋ ํ๋ ฌ์์ \(\det(A(X))^{d_v} = (1-\beta(X))^{d_v}\)์ ๋๋ค. ๋ฐ๋ผ์ \(\beta(X)\)๋ ๊ณต๊ฐ ๋ฐฉํฅ \(k(X)\)๋ฅผ ๋ฐ๋ผ ๋ถํธ ์๋ ๋ถํผ ๋ณํ๋ฅผ ์ ์ดํฉ๋๋ค. ํนํ \(\beta(X) > 1\)์ \(k\)๋ฅผ ๋ฐ๋ผ ์์ ๊ณต๊ฐ ๊ณ ์ ๊ฐ(๋ฐ์ฌ)์ ๋์ ํ๋ฉฐ, \(d_v\)๊ฐ ํ์์ผ ๋๋ง ํ์ฅ๋ ์ํ ๊ณต๊ฐ์ ์ ์ฒด ๋ฐฉํฅ์ด ๋ค์งํ๋๋ค.
3.2 ๊ธฐํํ์ ์ฐ์ฐ์ ํตํฉ
์ ๋ฆฌ 3.1์ \(\beta(X)\)์ ๋ฒ์ \([0, 2]\)๊ฐ ์ฐ์ฐ์๊ฐ ์ธ ๊ฐ์ง ๊ธฐ๋ณธ ์ ํ ๋ณํ ์ฌ์ด๋ฅผ ๋ณด๊ฐํ ์ ์๊ฒ ํจ์ ๋ณด์ฌ์ค๋๋ค.
Identity Mapping (\(\beta(X) \to 0\)): \(\beta \to 0\)์ผ ๋ ๊ณ ์ ๊ฐ \(1-\beta \to 1\)์ ๋๋ค. \(A(X)\)์ ๋ชจ๋ ๊ณ ์ ๊ฐ์ด 1์ด ๋๋ฏ๋ก \(A(X) \to I\)์ ๋๋ค. \(\beta\)๊ฐ ์ฃผ์ ํญ \(\beta kv^\top\)๋ ์กฐ์ ํ๋ฏ๋ก ์ ์ฒด ์ ๋ฐ์ดํธ๊ฐ ์ฌ๋ผ์ง๋ฉฐ, \(X_{l+1} \approx X_l\)์ด ๋ฉ๋๋ค. ์ด identity ๋์์ ๋งค์ฐ ๊น์ ๋คํธ์ํฌ์์ ์ ํธ ์ ํ๋ฅผ ๋ณด์กดํ๋ ๋ฐ ์ค์ํฉ๋๋ค.
Orthogonal Projection (\(\beta(X) \to 1\)): \(\beta \to 1\)์ผ ๋ ๊ณ ์ ๊ฐ \(1-\beta \to 0\)์ ๋๋ค. ์ฐ์ฐ์ \(A(X)\)๋ \(I - kk^\top\)๊ฐ ๋๋๋ฐ, ์ด๋ ์ดํ๋ฉด \(k^\perp\)๋ก์ ์ง๊ต ์ฌ์(rank \(d-1\))์ ๋๋ค. ์ ๋ ฅ ์ํ \(X\)์ ๊ฐ ์ด์์ \(k\)์ ํํํ ์ฑ๋ถ์ด residual์ ๋ํ๊ธฐ ์ ์ ๋ช ์์ ์ผ๋ก ์ ๊ฑฐ๋ฉ๋๋ค ("๋ง๊ฐ"). ์ฐ์ฐ์๊ฐ ํน์ด(singular)๊ฐ ๋๋ฉฐ \(\det(A) \to 0\)์ ๋๋ค. ์ ์ฒด block (์ 2.5) ๊ด์ ์์ ์ด ์ฒด์ ๋ replace-along-k๋ก ํด์ํ ์ ์์ต๋๋ค: shortcut์ด \(k\)-์ฑ๋ถ์ ์ ๊ฑฐํ๊ณ , rank-1 ์ฐ๊ธฐ๊ฐ \(v^\top\)๋ก ์ง์ ๋ ์๋ก์ด \(k\) ์ฑ๋ถ์ ์ฃผ์ ํฉ๋๋ค.
Full Reflection (\(\beta(X) \to 2\)): \(\beta \to 2\)์ผ ๋ ๊ณ ์ ๊ฐ \(1-\beta \to -1\)์ ๋๋ค. ์ฐ์ฐ์ \(A(X)\)๋ \(I - 2kk^\top\)๊ฐ ๋๋๋ฐ, ์ด๋ ํ์ค Householder ํ๋ ฌ์ ๋๋ค. ์ด๋ \(X\)์ ๊ฐ ์ด์ \(k^\perp\)์ ๋ํด ์๋ฒฝํ๊ฒ ๋ฐ์ฌ์ํต๋๋ค. ์ด๊ฒ์ด ์ด ๋ฒ์์์ ๋ณํ์ด ์ง๊ต์ด๊ณ ๊ณต๊ฐ์ ์ผ๋ก ๋ถํผ๋ฅผ ๋ณด์กดํ๋ ์ ์ผํ ๊ฒฝ์ฐ์ด๋ฉฐ, \(\det(A) \to -1\)์ ๋๋ค. ์์ ๊ณต๊ฐ ํ๋ ฌ์์ ๊ธฐ์ ์ ๋ฐฉํฅ ๋ณํ(๋ฐ์ฌ)๋ฅผ ์๋ฏธํฉ๋๋ค. identity ๊ฒฝ์ฐ(\(\beta = 0\))์ ํจ๊ป ์ด๋ \([0, 2]\)์์ shortcut ์ฐ์ฐ์ \(A\)๊ฐ ์ง๊ต์ธ ์ ์ผํ ์ค์ ์ ๋๋ค. ์ ์ฒด block์ ์ถ๊ฐ๋ก ๋๊ธฐํ๋ rank-1 ์ฐ๊ธฐ ํญ์ ์ ์ฉํ์ฌ, ๋ค์ด์ค๋ ์ํ์ ๋ฐ์ฌ์ \(k\)์ ์ ๋ ฌ๋ ์ฐ๊ธฐ๋ฅผ ์ํํฉ๋๋ค.
3.3 ํน์ ๊ฒฝ์ฐ: Gated Residual Learning
DDL์ ์ค์ํ ์ฑ์ง์ ๊ฒ์ดํ ์ค์นผ๋ผ์ ๊ทนํ์์์ ๋์์ ๋๋ค. ๊ฒ์ดํธ๊ฐ ์ฌ๋ผ์ง ๋ (\(\beta(X) \to 0\)), Delta Operator๋ identity ํ๋ ฌ๋ก ์๋ ดํ๊ณ (\(A(X) \to I\)), ์์ฑ ํญ์ด ์ฌ๋ผ์ง๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ๋ฐ์ดํธ ๊ท์น์ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ํ๋ฉ๋๋ค:
\[ X_{l+1} = X_l \]
์ด๋ identity mapping์ ๋ณต์ํ๋ฉฐ, ์ธต์ ์์ ํ ๊ฑด๋๋ธ ์ ์๊ฒ ํฉ๋๋ค. ์ด ๋์์ ๋งค์ฐ ๊น์ ๋คํธ์ํฌ ํ๋ จ์ ์ข ์ข ํ์ํ zero-initialization ์ ๋ต๊ณผ ์ผ์นํฉ๋๋ค.
๋ฐ๋๋ก \(\beta \approx 1\)์ผ ๋ ์ธต์ Gated Rank-1 Matrix ResNet์ผ๋ก ๊ธฐ๋ฅํ๋ฉฐ, \(\beta\)๋ ์ ๋ฐ์ดํธ ํฌ๊ธฐ๋ฅผ ์ ์ดํ๋ ํ์ต๋ step size๋ก ์์ฉํฉ๋๋ค. ์ด๋ DDL์ด ๊ฐ ์ฃผ์ ๊ณผ ๋๊ธฐ์ ์ผ๋ก ๊ฒฐํฉ๋ ๊ณฑ์ ์ ๊ธฐํํ์ ์กฐ์ ์ ๋์ ํ์ฌ residual learning์ ์ผ๋ฐํํจ์ ๋ณด์ฌ์ค๋๋ค.
3.4 ๋๊ฐ Feature ํ๋ ฌ ์ผ์ด์ค
Delta Operator์ ํผํฉ(mixing) ์ฑ์ง์ ๋ ์ ์ดํดํ๊ธฐ ์ํด, ์ ๋ ฅ ์ํ \(X \in \mathbb{R}^{d \times d}\)๊ฐ ์ ๋ฐฉ ๋๊ฐ ํ๋ ฌ \(X = \text{diag}(\lambda_1, ..., \lambda_d)\)์ธ ํน์ํ ๊ฒฝ์ฐ๋ฅผ ๊ณ ๋ คํด๋ด ์๋ค. ์ด๋ feature๊ฐ value ์ฐจ์์์ ์๋ฒฝํ๊ฒ ๋ถ๋ฆฌ๋ ์ํ๋ฅผ ๋ํ๋ ๋๋ค. \(A\)๋ฅผ ์ ์ฉํ๋ฉด:
\[ (AX)_{ij} = (X - \beta kk^\top X)_{ij} = \lambda_i\delta_{ij} - \beta\lambda_j k_i k_j \]
๊ตฌ์ฒด์ ์ผ๋ก, ๋น๋๊ฐ ์์ (\(i \neq j\))๋ \(-\beta\lambda_j k_i k_j\)๊ฐ ๋๊ณ , ๋๊ฐ ์์ (\(i = j\))๋ \(\lambda_i(1 - \beta k_i^2)\)๋ก ์ค์ผ์ผ๋ฉ๋๋ค. ์ด๋ ์ถ๋ ฅ feature \(i\)๊ฐ ์ด์ ์ ๋ ฅ feature \(j\)์ ํฌ๊ธฐ์ ์์กดํ๋ฉฐ, ๊ธฐํํ์ ์ผ๊ด์ฑ \(k_i k_j\)๋ก ์ค์ผ์ผ๋จ์ ์๋ฏธํฉ๋๋ค.
์ด ๊ฒฐ๊ณผ๋ Delta block์ ์ค์ํ ๊ธฐ๋ฅ์ ๋ช ํํ ํฉ๋๋ค: ์ ์ด๋ feature ๊ฒฐํฉ(coupling)์ ์ ๋ํ๋ค๋ ๊ฒ์ ๋๋ค. ๋ค์ด์ค๋ feature๊ฐ ๋ ๋ฆฝ์ ์ด๋๋ผ๋, ์์ด ์๋ \(\beta\)๋ ๋ฐ์ฌ ๋ฒกํฐ \(k\)์ ํฌ์์ ๋น๋กํ์ฌ \(i\)๋ฒ์งธ์ \(j\)๋ฒ์งธ ๋ชจ๋ ์ฌ์ด์ ์ํธ์์ฉ์ ๊ฐ์ ํฉ๋๋ค.
\(\beta \to 1\) (ํฌ์)์ด๋ฉด shortcut์ด ๊ฐ ์ด์์ \(k\)๋ฅผ ๋ฐ๋ผ ์ฑ๋ถ์ ์ ๊ฑฐํ์ฌ, ์ฐ๊ธฐ ํญ์ด \(v^\top\)๋ก ์ง์ ๋ ์ \(k\)-์ฑ๋ถ์ ์ฌ์ค์ ํ๊ธฐ ์ ์ ์ํ๋ฅผ \(k^\perp\)๋ก ๋งคํํฉ๋๋ค. \(\beta \to 0\)์ด๋ฉด ๋๊ฐ ๊ตฌ์กฐ๊ฐ ๋ณด์กด๋ฉ๋๋ค.
3.5 ๋ฒกํฐ Hidden State ๋์ญํ
DDL์ด ํ๋ ฌ ๊ฐ ์ํ \(X \in \mathbb{R}^{d \times d_v}\)์์ ์๋ํ์ง๋ง, ์์ฐ์ค๋ฝ๊ฒ ํ์ค ๋ฒกํฐ ๊ธฐ๋ฐ ์ฌ์ธต ํ์ต์ ํน์ ๊ทนํ์ผ๋ก ํฌํจํฉ๋๋ค. ๋ ๊ฐ์ง ๊ตฌ๋ณ๋๋ ์ฒด์ ๋ฅผ ์๋ณํฉ๋๋ค:
์ค์นผ๋ผ Value ๊ทนํ (\(d_v = 1\)): value ์ฐจ์์ด 1๋ก ์ถ์๋๋ฉด, hidden state๋ ํ์ค feature ๋ฒกํฐ \(x \in \mathbb{R}^d\)๋ก ํดํํฉ๋๋ค. ์ด ๊ทนํ์์ value ์ ๋ฐ์ดํธ \(v\)๋ ์ค์นผ๋ผ \(v \in \mathbb{R}\)๊ฐ ๋ฉ๋๋ค. Delta ์ ๋ฐ์ดํธ ๊ท์น์ ๋ค์๊ณผ ๊ฐ์ด ๋จ์ํ๋ฉ๋๋ค:
\[ x_{l+1} = x_l + \beta_l \underbrace{(v_l - k_l^\top x_l)}_{\gamma_l} k_l \]
์ฌ๊ธฐ์ ๊ธฐํํ์ ๋ณํ์ด ๋์ ์ค์นผ๋ผ ๊ฒ์ดํ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ถ์ฝ๋ฉ๋๋ค. ํญ \(\gamma_l\)์ ์ ๋ฐ์ดํธ ํฌ๊ธฐ๋ฅผ ์ ์๋ ์ฐ๊ธฐ ๊ฐ \(v_l\)๊ณผ ํ์ฌ ํฌ์ \(k_l^\top x_l\) ์ฌ์ด์ ๋ถ์ผ์น์ ๊ฒฐํฉํ๋ ๋ฐ์ดํฐ ์์กด์ ๊ณ์๋ก ์์ฉํฉ๋๋ค.
๋ ๋ฆฝ Feature ๊ทนํ: ๋๋ ์น์ 3.4์ ๋๊ฐ ๊ฒฝ์ฐ๋ฅผ ํ๋ ฌ ๋๊ฐ์ ์ ๋ด์ฅ๋ ๋ฒกํฐ ์ํ์ ํํ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๋๊ฐ ๋ถ์์์ ๋ณด๋ฏ์ด, Delta Operator๋ \(\beta k_i k_j\) ํญ์ ํตํด feature ๊ฒฐํฉ์ ๋์ ํฉ๋๋ค. ํ์ค ์์๋ณ ๋ฒกํฐ ์ ๋ฐ์ดํธ์ ๋์์ ๋ณต์ํ๋ ค๋ฉด (feature๊ฐ ๊ณต๊ฐ์ ์ผ๋ก ํผํฉ๋์ง ์๋ ๊ฒฝ์ฐ), ๋ฐ์ฌ ๋ฒกํฐ \(k\)๊ฐ ์ ๊ท ๊ธฐ์ ์ ์ ๋ ฌ๋์ด์ผ ํฉ๋๋ค (์ฆ, one-hot). ์ด ์ฒด์ ์์ Delta Operator๋ ์์๋ณ ๊ฒ์ดํ ํจ์๋ก ์์ฉํ๋ฉฐ, feature ์ฐจ์์ ๋ ๋ฆฝ์ฑ์ ์๊ฒฉํ๊ฒ ๋ณด์กดํฉ๋๋ค.
4. ์ต์ ํ ๋ฐ Delta ๊ตฌ์กฐ์์ ์ฐ๊ฒฐ
"Deep Delta Learning"์ด๋ผ๋ ์ฉ์ด๋ ์ต๊ทผ ํจ์จ์ ์ธ ์ํ์ค ๋ชจ๋ธ๋ง์์ ์ธ๊ธฐ๋ฅผ ์ป์ ๊ธฐ๋ณธ ์ ๋ฐ์ดํธ ๋ฉ์ปค๋์ฆ์ธ Delta Rule๊ณผ์ ๊ตฌ์กฐ์ ์๋์ฑ์ ๋ฐ์ํฉ๋๋ค (์: DeltaNet, Schlag et al., 2021; Yang et al., 2024).
4.1 Residual Learning์ ์ํ Delta Rule
ํ์ค residual connection \(X_{l+1} = X_l + F(X_l)\)์ ์๊ฒฉํ ๋ง์ ๊ท๋ฉ ํธํฅ์ ๋ถ๊ณผํฉ๋๋ค. \(F\)๊ฐ ์์ฑํ ์ ๋ณด๋ ๋จ์ํ ์ถ์ ๋ฉ๋๋ค. ์ด๋ "residual accumulation"์ผ๋ก ์ด์ด์ง ์ ์๋๋ฐ, ๋คํธ์ํฌ๊ฐ hidden state๋ฅผ ์ ํ์ ์ผ๋ก ํํฐ๋งํ ๋ช ์์ ๋ฉ์ปค๋์ฆ์ด ์๊ธฐ ๋๋ฌธ์ ๋ ธ์ด์ฆ๋ ๊ฐ์ญ feature๊ฐ ์ธต์ ๊ฑฐ์ณ ์ง์๋ฉ๋๋ค.
DDL์ Delta Rule ๊ตฌ์กฐ๋ฅผ depth ์ฐจ์์ ํตํฉํ์ฌ ์ด๋ฅผ ํด๊ฒฐํฉ๋๋ค. rank-1 residual ์ ์๋ฅผ ์ฌ์ฉํ์ฌ Delta Residual ์ ๋ฐ์ดํธ๋ฅผ ํ์ฅํ๋ฉด:
\[ X_{l+1} = X_l + \beta_l k_l \left(\underbrace{v_l^\top}_{\text{Write}} - \underbrace{k_l^\top X_l}_{\text{Erase}}\right) \]
์ด ๊ณต์ํ๋ ๋น ๋ฅธ ์ฐ๊ด ๋ฉ๋ชจ๋ฆฌ์ ์ ํ attention์์ ์ฌ์ฉ๋๋ Delta Rule ์ ๋ฐ์ดํธ๋ฅผ ์ ํํ ๋ณต์ํฉ๋๋ค. ํญ \(k_l^\top X_l\)์ ๋ฐ์ฌ ๋ฒกํฐ๋ก์ ์ํ์ ํ์ฌ ํฌ์("์ค์ฐจ" ๋๋ "์ค๋๋ ๋ฉ๋ชจ๋ฆฌ")์ ๋ํ๋ ๋๋ค. ํญ \((v_l^\top - k_l^\top X_l)\)์ ๋ณด์ ์ ํธ๋ก ์์ฉํฉ๋๋ค.
\(X_l \in \mathbb{R}^{d \times d_v}\)๊ฐ ํ๋ ฌ์ด๋ฏ๋ก ํญ \(k_l^\top X_l\)์ \(\mathbb{R}^{1 \times d_v}\)์ ํ ๋ฒกํฐ๋ฅผ ์์ฑํ๋ฉฐ, ๋ชจ๋ value ์ด์ \(k_l\)๋ก์ ํฌ์์ ๋ํ๋ ๋๋ค. ์ ๋ฐ์ดํธ๋ ์ญ์ (ํ๊ดด์ )์ ์ฃผ์ (์์ฑ์ ) ์ฐ์ฐ์ ๋ชจ๋ ํ๋ก์ ํฐ \(k_l\)์ด ์ ์ํ ๊ธฐํํ์ ๋ฐฉํฅ์ ๋ฐ๋ผ ์๊ฒฉํ๊ฒ ์ ๋ ฌํ๋ฉฐ, step size \(\beta_l\)๋ก ์กฐ์ ๋ฉ๋๋ค.
\(\beta(X_l) \approx 1\)์ผ ๋, ์ด ๋บ์ ํญ์ ์ง๊ต ํฌ์์ผ๋ก ์์ฉํ์ฌ ๋ค์ด์ค๋ ์ํ \(X_l\)์์ \(k(X_l)\)์ ํํํ ์ฑ๋ถ์ ํจ๊ณผ์ ์ผ๋ก ์ง์๋๋ค (๋ง๊ฐ). \(\beta(X_l) \approx 2\)์ผ ๋, ์ด ํญ์ ํฌ์์ ๋ ๋ฐฐ๋ฅผ ๋นผ์ ๋ถํธ ๋ฐ์ (๋ฐ์ฌ)์ ์ด๋ํฉ๋๋ค. ์ด๋ ๋คํธ์ํฌ์ ์ธต๋ณ๋ก ํน์ feature ๋ถ๊ณต๊ฐ์ ์ ํ์ ์ผ๋ก ์ ๋ฆฌํ๊ฑฐ๋ ์ฌ๋ฐฐํฅํ๋ ์ ์ฐํ ๋ฉ์ปค๋์ฆ์ ์ ๊ณตํ์ฌ ๊ฐ์ญ์ ์ถ์ ์ ๋ฐฉ์งํฉ๋๋ค.
4.2 DeltaNet ๋ฐ Householder ๊ณฑ๊ณผ์ ๊ด๊ณ
์ฐ๋ฆฌ์ ์์ ์ DeltaNet ๊ตฌ์กฐ(Schlag et al., 2021)์ ์ด๋ก ์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ๊ณต์ ํฉ๋๋ค. DeltaNet์ Linear Transformer์ ๋ง์ ์ถ์ ์ ๋ฉ๋ชจ๋ฆฌ ์ ๋ฐ์ดํธ๋ฅผ ์ํ Delta Rule๋ก ๋์ฒดํฉ๋๋ค. ์ฐ๋ฆฌ๋ **DDL์ด DeltaNet ์ฌ๊ท์ depth-wise ๋ํ(isomorphism)**์์ ๋ณด์ฌ์ค๋๋ค.
DeltaNet์์ hidden state (๋ฉ๋ชจ๋ฆฌ) \(S_t\)๋ ์๊ฐ \(t\)์ ๊ฑธ์ณ ์งํํฉ๋๋ค. ์ฐ๋ฆฌ์ depth-wise ๊ณต์๊ณผ ํ๊ธฐ๋ฒ์ ํต์ผํ๊ธฐ ์ํด, ๋ฉ๋ชจ๋ฆฌ ์ํ๊ฐ \(S_t \in \mathbb{R}^{d_k \times d_v}\)์ธ ์ข์ธก ๊ณฑ์ ์๋ฏธ๋ก ์ ์ฌ์ฉํ์ฌ DeltaNet ์ ๋ฐ์ดํธ๋ฅผ ์ ์ํฉ๋๋ค:
\[ S_t = (I - \beta_t k_t k_t^\top)S_{t-1} + \beta_t k_t v_t^\top \]
์ฌ๊ธฐ์ ์ฐ์ฐ์๋ ํค ์ฐจ์ \(d_k\)์ ์์ฉํ๋ฉฐ, ์ด๋ DDL์ feature ์ฐจ์ \(d\)์ ์ ์ฌํฉ๋๋ค. ์ด๋ฅผ depth \(l\)์ ๊ฑธ์ณ ์์ฉํ๋ ์ฐ๋ฆฌ์ Deep Delta Layer ์ ๋ฐ์ดํธ์ ๋น๊ตํ๋ฉด:
\[ X_{l+1} = (I - \beta_l k_l k_l^\top)X_l + \beta_l k_l v_l^\top \]
์ฌ๊ธฐ์ \(v_l\)์ value branch์ ๋ฒกํฐ ์ถ๋ ฅ์ ๋๋ค.
์ด๋ ์ง์ ์ ์ธ ๊ตฌ์กฐ์ ๋์์ ๋๋ฌ๋ ๋๋ค:
- DeltaNet์ ๋ฉ๋ชจ๋ฆฌ ์ํ \(S_t\) (์ฐจ์ \(d_k \times d_v\))๋ DDL์ feature activation \(X_l\) (์ฐจ์ \(d \times d_v\))์ ๋์ํฉ๋๋ค.
- ๋ ๊ตฌ์กฐ ๋ชจ๋ rank-1 Householder ์ฐ์ฐ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ถ๊ณต๊ฐ ์ฑ๋ถ์ ์ ํ์ ์ผ๋ก ๋ฐ์ฌํ๊ฑฐ๋ ์ง์๋๋ค. DeltaNet์ ์ด๋ฅผ ์๊ฐ ๋จ๊ณ \(t\)์ ๊ฑธ์ณ ์ ์ฉํ๋ ๋ฐ๋ฉด, DDL์ ๋คํธ์ํฌ depth \(l\)์ ๊ฑธ์ณ ์ ์ฉํฉ๋๋ค.
- ์ฐ๋ฆฌ์ ์์ ๋ residual ์ ๋ฐ์ดํธ \(\beta_l k_l v_l^\top\)๋ DeltaNet ์ฐ๊ธฐ ์ฐ์ฐ๊ณผ ์๋ฒฝํ๊ฒ ์ ๋ ฌ๋ฉ๋๋ค. ์์ฑ ํญ์ \(\beta_l\)์ ํตํฉํจ์ผ๋ก์จ, ์ฐ๋ฆฌ๋ \(\beta_l\)์ depth-wise ODE์ ์ธต๋ณ step size๋ก ํด์ํฉ๋๋ค. ์ด๋ ์ญ์ ๋ฐ ์ฃผ์ ์ฑ๋ถ์ด ๋๊ธฐ์ ์ผ๋ก ์กฐ์ ๋์ด, ์ ๋ฐ์ดํธ๊ฐ ์ํ \(X\)์ ์ผ๊ด๋ ๊ธฐํํ์ ๋ณํ์ ๋ํ๋ด๋๋ก ๋ณด์ฅํฉ๋๋ค.
๋ฐ๋ผ์ DDL์ Delta Rule์ ์ธต๋ณ feature ์งํ์ ์ ์ฉํ๋ ๊ฒ์ผ๋ก ํด์๋ ์ ์์ผ๋ฉฐ, ๋คํธ์ํฌ๊ฐ ๊น์ ์ธต์ผ๋ก ์ ํ๋ ๋ ์์ ์ธต์ feature๋ฅผ ๋ง๊ฐํ๊ฑฐ๋ ์ฌ์์ฑํ ์ ์๊ฒ ํฉ๋๋ค.
5. ๊ด๋ จ ์ฐ๊ตฌ
์ด ์์ ์ ์ฌ์ธต ํ์ต์ ์ฌ๋ฌ ํต์ฌ ์ฐ๊ตฌ ์ฃผ์ ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
Gated ๋ฐ Invertible ๊ตฌ์กฐ: Highway Networks (Srivastava et al., 2015)๋ residual ๋คํธ์ํฌ์ ๋ฐ์ดํฐ ์์กด์ ๊ฒ์ดํ ์ ๋์ ํ์ง๋ง, ๊ทธ๋ค์ ๊ฒ์ดํธ๋ ๋ณํ ์์ฒด๋ฅผ ์์ ํ๋ ๊ฒ์ด ์๋๋ผ identity ๊ฒฝ๋ก์ ํจ์ ๊ฒฝ๋ก ์ฌ์ด๋ฅผ ๋ณด๊ฐํฉ๋๋ค. Invertible Residual Networks (i-ResNets) (Behrmann et al., 2019)๋ \(F\)์ Lipschitz ์์๋ฅผ ์ ํํ์ฌ ๊ฐ์ญ์ฑ์ ๋ณด์ฅํ๋๋ฐ, ์ด๋ normalizing flow ๊ฐ์ ์์ฉ์ ์ ์ฉํฉ๋๋ค. DDL์ Delta shortcut ์ฐ์ฐ์๋ \(1 - \beta \neq 0\)์ผ ๋ ๊ฐ์ญ์ ์ด๋ฉฐ (\(\epsilon \to 0\) ๋ถ์์์), \(\beta = 2\)์์ ์ง๊ต ๋ํฉ(orthogonal involution)์ด ๋ฉ๋๋ค (Householder ๋ฐ์ฌ). DDL์ ์ ์ญ์ ์ผ๋ก ๊ฐ์ญ์ฑ์ ๊ฐ์ ํ์ง ์์ต๋๋ค. ๋์ ๋คํธ์ํฌ๊ฐ ์ค-๊ฐ์ญ ์ ์ด๊ฐ ์ ์ตํ ๋์ ์๋์ ์ผ๋ก ํน์ดํ (ํฌ์์ ) ์ ์ด๊ฐ ์ ์ด๋ ๋ง๊ฐ์ ์ ์ฉํ ๋๋ฅผ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
์ง๊ต ๋ฐ ์ ๋ํฐ๋ฆฌ ๋คํธ์ํฌ: ์๋นํ ์ฐ๊ตฌ๊ฐ ๊ธฐ์ธ๊ธฐ ์์ ์ฑ์ ๊ฐ์ ํ๊ณ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ ์ง๊ต ๋๋ ์ ๋ํฐ๋ฆฌ๋ก ์ ํํ๋ ๋ฐ ์ง์คํด์์ต๋๋ค (Arjovsky et al., 2016; Jing et al., 2017). Householder ๋ฐ์ฌ๋ ์ง๊ต ํ๋ ฌ์ ํ๋ผ๋ฏธํฐํํ๋ ๊ณ ์ ์ ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ง๊ต์ฑ์ ์๊ฒฉํ ์ ์ฝ์ผ๋ก ๊ฐ์ ํฉ๋๋ค. ๋์กฐ์ ์ผ๋ก, ์ฐ๋ฆฌ์ Delta Residual Network๋ ๊ฒ์ดํธ \(\beta(x)\)๋ฅผ ํตํด identity์ ์ง๊ต์ฑ์์ ๋ฒ์ด๋๋ ๊ฒ์ ํ์ตํ๋ฉฐ, ์์ ํฌ์์ด๋ ๋ฐ์ฌ๋ก ์ํํ ์ ์๋ ์ํํธํ ์ ์์ ์ ์ฝ์ ์ ๊ณตํฉ๋๋ค.
Neural ODE: Neural ODE (Chen et al., 2018)๋ feature์ ์ฐ์์ ์งํ๋ฅผ ๋ชจ๋ธ๋งํฉ๋๋ค. ํ์ค ResNet์ ๋จ์ ODE \(\dot{X} = F(X)\)์ ์ด์ฐํ์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ ์ํ ๊ตฌ์กฐ๋ ๊ธฐ์ ๋์ญํ์ \(\dot{X} = \beta(X)k(X)(v(X)^\top - k(X)^\top X)\)๋ก ๋ณ๊ฒฝํ์ฌ, ํ๋ ฌ ์ํ์ ์ ์ฉ๋๋ ์ํ ์์กด์ ํฌ์ ํญ์ ๋์ ํฉ๋๋ค. ์ด๋ ์ฌ๋ฌ value ์ฐจ์์ ๊ฑธ์ณ ์์ถ์ ์ด๊ฑฐ๋ ์ง๋์ ์ธ ๋์์ ๋ํ๋ผ ์ ์๋ ํจ์ฌ ๋ ํ๋ถํ ํ์ต ๊ฐ๋ฅํ ๋์ญํ๊ณ ํจ๋ฐ๋ฆฌ๋ฅผ ํ์ฉํฉ๋๋ค.
6. ๊ฒฐ๋ก : ํํ๋ ฅ์ ํ์ฅ๊ณผ ๋จ์ ๊ณผ์
DDL์ ์ ์์ ๊ธฐํํ์ residual connection ์์ ๊ตฌ์ถ๋ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค. ๋ถ์์ ํตํด ๊ทธ ํต์ฌ ๊ตฌ์ฑ ์์์ธ Delta Operator๊ฐ identity mapping, projection, ๊ทธ๋ฆฌ๊ณ reflection์ ํ๋์ ์ฐ์์ ์ผ๋ก ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ชจ๋๋ก ํตํฉํจ์ ์ ์ฆํ์ต๋๋ค. ์ด ํตํฉ์ ๋จ์ํ ํ์ต๋ ์ค์นผ๋ผ ๊ฒ์ดํธ๋ก ์ ์ด๋๋ฉฐ, ์ธต๊ฐ ์ ์ด ์ฐ์ฐ์์ ์คํํธ๋ผ์ ๋์ ์ผ๋ก ํ์ฑํฉ๋๋ค.
๋คํธ์ํฌ๊ฐ ๋ฐ์ดํฐ ์์กด์ ๋ฐฉ์์ผ๋ก ์์ ๊ณ ์ ๊ฐ์ ๊ฐ์ง ๋ณํ์ ํ์ตํ ์ ์๊ฒ ํจ์ผ๋ก์จ, DDL์ residual learning ํจ๋ฌ๋ค์์ ๊ธฐ๋ณธ ์ด์ ์ ์ ์งํ๋ฉด์ ํํ๋ ฅ์์ ์๋ฆฌ์ ์ด๊ณ ์๋นํ ์ฆ๊ฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํ์ง๋ง ๋ ผ๋ฌธ์ด ์ ์ํ์ง ์์ ๋ถ๋ถ๋ ๋ช ํํฉ๋๋ค. ์ค์ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ์์์ ๊ฒฝํ์ ๊ฒ์ฆ์ด ๋ถ์ฌํฉ๋๋ค. ImageNet, COCO ๊ฐ์ ํ์ค vision ๊ณผ์ ๋ GLUE, SQuAD ๊ฐ์ NLP ๋ฒค์น๋งํฌ์์ DDL์ด ์ค์ ๋ก ํ์ค ResNet์ด๋ Transformer๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋์ง๋ ์์ง ์ฆ๋ช ๋์ง ์์์ต๋๋ค. ์ด๋ก ์ ์ฐ์ํจ์ด ์ค์ ์ฑ๋ฅ ๊ฐ์ ์ผ๋ก ์ด์ด์ง๋ค๋ ๋ณด์ฅ์ ์์ฃ .
๋ํ ์ถ๊ฐ์ ์ธ ํ๋ผ๋ฏธํฐ ์ค๋ฒํค๋์ ๊ณ์ฐ ๋ณต์ก๋์ ๋ํ ๋ถ์์ด ํ์ํฉ๋๋ค. \(k(X)\), \(\beta(X)\), \(v(X)\)๋ฅผ ๊ฐ๊ฐ ์ถ์ ํ๋ branch๋ค์ด ์ ์ฒด ๋ชจ๋ธ ํฌ๊ธฐ์ ์ถ๋ก ์๋์ ๋ฏธ์น๋ ์ํฅ์? rank-1 ์ ๋ฐ์ดํธ๊ฐ ๊ฐ๋จํด ๋ณด์ด์ง๋ง, ๊ฐ ์ธต์์ ์ถ๊ฐ์ ์ธ ์์ ํ ์ฐ์ฐ์ด ํ์ํ๋ฏ๋ก ์ค์ wall-clock time์ด ์ฆ๊ฐํ ์ ์์ต๋๋ค.
๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ์ง๋ฌธ์ "์ธ์ DDL์ด ํ์ํ๊ฐ?"์ ๋๋ค. ์ ์๋ค์ ์ง๋์ด๋ ๋๋ฆฝ์ ํ๋ ๊ฐ์ ๋ณต์กํ ๋์ญํ์ ๋ชจ๋ธ๋งํ ๋ ์์ ๊ณ ์ ๊ฐ์ด ํ์ํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ํ์ง๋ง ์ค์ vision์ด๋ ์ธ์ด ๊ณผ์ ์์ ์ด๋ฐ ๋์ญํ์ด ์ผ๋ง๋ ์์ฃผ ๋ํ๋ ๊น์? ๋๋ถ๋ถ์ ์ค์ฉ์ ๋ฌธ์ ์์๋ ํ์ค ResNet์ ๋จ์กฐ์ feature ๋ณํ์ผ๋ก๋ ์ถฉ๋ถํ ์ ์์ต๋๋ค. DDL์ ์ง๊ฐ๋ ํน์ ๋๋ฉ์ธ(์: ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์ , ์๊ณ์ด ์์ธก, ๊ฐํํ์ต)์์ ๋ ๋ช ํํ ๋๋ฌ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
๊ฒฐ๊ตญ Deep Delta Learning์ residual connection์ ์ด๋ก ์ ํ๊ณ๋ฅผ ์ ํํ ์๋ณํ๊ณ , ์ํ์ ์ผ๋ก ์ฐ์ํ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ค๋ ์ ์์ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ ๋๋ค. Householder ๋ณํ์ด๋ผ๋ ๊ณ ์ ์ ๋๊ตฌ๋ฅผ ์ฌ์ธต ํ์ต์ ์ ๋ชฉ์ํจ ๊ฒ์ ์ฐฝ์์ ์ด๋ฉฐ, Delta Rule๊ณผ์ ์ฐ๊ฒฐ์ DeltaNet ๊ฐ์ ์ต๊ทผ ์ํ์ค ๋ชจ๋ธ๋ง ์ฐ๊ตฌ์์ ์ด๋ก ์ ํต์ผ์ ๋ณด์ฌ์ค๋๋ค. ํ์ง๋ง ์ค์ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ๋๊ท๋ชจ ์คํ์ ๊ฒ์ฆ, ํจ์จ์ฑ ๋ถ์, ๊ทธ๋ฆฌ๊ณ ์ธ์ ์ด ์ถ๊ฐ์ ์ธ ๋ณต์ก์ฑ์ด ์ ๋นํ๋๋์ง์ ๋ํ ๋ช ํํ ๊ฐ์ด๋๋ผ์ธ์ด ํ์ํฉ๋๋ค.