10장 - 모델 내부에서 무슨 일이 일어나는가

10장. 모델 내부에서 무슨 일이 일어나는가

이 강의는 예전에 "신경망 해석 가능성"이라 불렸지만, 범위를 넓혔다. 프론티어 모델에 대한 해석 방법은 아직 완전히 정립되지 않았기 때문에, 합성곱 신경망에서 배운 기술이 미래 연구를 이해하는 기반이 될 것이다. — Kian Katanforoosh

10.1 케이스 스터디: 모델 트레이너의 아침

강의는 하나의 시나리오로 시작한다. 당신은 프론티어 랩에서 2,000억 파라미터 모델을 훈련하는 모델 트레이너다. 밤새 새로운 체크포인트가 훈련 정상성 검사를 통과했지만, 다음과 같은 문제가 발견되었다.

추론 벤치마크 성능 하락
안전성 평가(Safety Eval) 실패
에이전트 워크플로우에서 도구 사용 시 지연 시간(latency) 급등

VP가 묻는다: "무슨 일이 일어나고 있는가?"

학생들의 답변과 강사의 분류를 종합하면, 조사해야 할 영역은 네 가지 버킷으로 나뉜다.

버킷	점검 항목
훈련 및 스케일링	손실 곡선(훈련/검증), 그래디언트 노름, 학습률 스케줄, MoE 라우팅, 스케일링 법칙
표현 및 내부 구조	어텐션 헤드/맵, 임베딩 시각화, 뉴런 수준 행동
데이터 및 분포	벤치마크 오염 여부, 데이터 도메인 비율, 최근 배치의 데이터 품질
역량 분석	업스트림(모델 자체) vs 다운스트림(에이전트 워크플로우) 벤치마크 구분

10.2 Saliency Map: 픽셀 수준의 입출력 관계

동물원에 납품한 동물 분류기의 의사결정 과정을 설명해야 하는 상황을 가정한다. 가장 기본적인 방법은 출력 점수의 입력에 대한 미분을 구하는 것이다.

\[\text{Saliency Map} = \frac{\partial S_{\text{dog}}}{\partial X}\]

여기서 \(S_{\text{dog}}\)는 softmax 이전(pre-softmax)의 "dog" 클래스 점수이고, \(X\)는 입력 이미지다.

왜 pre-softmax 점수를 사용하는가?

Softmax 이후의 확률은 다른 모든 클래스의 점수에도 의존한다. 배경에 판다가 있어서 판다 점수가 변하면 dog 확률도 함께 변한다. Pre-softmax 점수는 오직 해당 클래스에만 의존하므로, 순수하게 "어떤 픽셀이 dog 점수에 영향을 주는가"를 측정할 수 있다.

결과적으로 밝은 픽셀은 그래디언트가 높은 곳(= dog 점수에 큰 영향), 어두운 픽셀은 영향이 없는 곳이 된다. 만약 밝은 픽셀이 개와 무관한 곳에 흩어져 있다면, 모델이 올바른 위치를 보지 않고 우연히 맞추고 있을 가능성이 높다.

한계: 픽셀 단위의 불연속적 분석이므로 의미론적 해석에는 부족하다.

10.3 Integrated Gradients: Saliency Map의 확장

Integrated Gradients(적분 그래디언트)는 Saliency Map의 개선판이다. 완전 검은 이미지(제로 벡터)에서 원본 이미지까지의 경로를 따라 그래디언트를 적분한다.

직접 미분 대신 경로 적분을 사용하므로 훨씬 안정적이고 해석 가능한 결과를 얻는다. 의료 분야에서 망막 이미지의 병변(lesion) 위치와 모델이 주목하는 위치가 정확히 일치하는 것을 확인한 실제 사례가 있다.

10.4 Occlusion Sensitivity: 가림막 실험

개념은 단순하다.

입력 이미지 위에 검은 사각형(dark square)을 올린다
사각형의 위치를 이동시키며 반복적으로 CNN에 통과시킨다
각 위치에서 목표 클래스 확률의 변화를 기록한다

사각형이 개의 얼굴을 가릴 때 "dog" 확률이 급락한다면, 모델이 올바른 위치를 보고 있는 것이다.

실전 관찰

사례	관찰
포메라니안	얼굴 중앙을 가리면 확률 급락 → 품종 식별에 얼굴이 핵심
자동차 바퀴	바퀴 위치에서 확률 하락 → 올바르게 작동
아프간 하운드	개를 가리면 확률 하락 + 사람 얼굴을 가리면 확률 상승 → 불필요한 정보 제거 효과

단점: 매 위치마다 이미지를 다시 통과시켜야 하므로 계산 비용이 높다.

10.5 Class Activation Map (CAM)

기존 CNN 아키텍처의 문제는 마지막에 있는 **완전 연결 계층(Fully Connected Layers)**이다. 세 겹의 FC 레이어를 거치면 지역적 정보가 완전히 섞여서 입력 공간으로 역추적할 수 없다.

아키텍처 수정

FC 3개를 Global Average Pooling(GAP) 1개 + FC 1개로 교체한다.

[Conv-ReLU-MaxPool] × N → 마지막 Conv 출력(4×4×6)
    ↓
Global Average Pooling → 길이 6 벡터
    ↓
FC → Softmax → 확률

GAP는 각 채널(특징 맵)을 하나의 숫자로 평균낸다. 이때 지역 정보를 섞지 않고 보존한다.

CAM 계산 과정

마지막 Conv 블록의 특징 맵들 \(f_1, f_2, \ldots, f_k\)를 가져온다
FC 레이어에서 목표 클래스(예: dog)에 연결된 가중치 \(w_1, w_2, \ldots, w_k\)를 가져온다
가중 합산: \(\text{CAM} = \sum_{i=1}^{k} w_i \cdot f_i\)
결과를 입력 이미지 위에 오버레이한다

이 방법은 Berkeley 연구진이 개발했으며, 개선판인 Grad-CAM도 존재한다.

10.6 Class Model Visualization: 모델에게 "개란 무엇인가?" 묻기

모델이 특정 클래스를 어떻게 인식하는지 직접 질문하는 방법이다.

절차

완전히 랜덤한 입력 이미지에서 시작한다
목적 함수를 정의한다: \(\mathcal{L} = S_{\text{class}}(X) - \lambda \cdot R(X)\)
- \(S_{\text{class}}\): pre-softmax 점수
- \(R(X)\): 정규화 항 (픽셀 값이 0~255 범위를 유지하도록)
경사 상승법(Gradient Ascent)으로 픽셀을 반복 업데이트한다

흥미로운 결과

클래스	모델의 인식
달마시안	흰 배경에 검은 점 → 대략적으로 이해
거위(goose)	여러 마리의 거위 → 훈련 데이터에서 항상 무리로 등장했기 때문
플라밍고	역시 여러 마리 → 같은 이유

이 방법은 클래스 수준뿐 아니라 네트워크 내부의 임의 뉴런에도 적용할 수 있다. 특정 활성화를 최대화하는 가상 입력을 생성하면 해당 뉴런의 역할을 파악할 수 있다.

10.7 데이터셋 검색(Dataset Search)

가장 단순하면서 실무에서 가장 많이 사용되는 방법이다.

네트워크 중간의 특정 특징 맵을 선택한다
검증 데이터셋 전체를 통과시키며 해당 특징 맵의 활성화를 기록한다
상위 5~9개 이미지를 출력한다

상위 이미지가 모두 셔츠라면 해당 필터는 셔츠를 감지한다고 해석할 수 있다. 모두 대각선 엣지라면 엣지 감지기다.

왜 이미지가 잘려 있는가?

깊은 레이어의 활성화는 입력 이미지의 일부 영역만 볼 수 있다(수용 영역, receptive field). 첫 번째 레이어의 활성화는 필터 크기만큼만 보지만, 깊어질수록 수용 영역이 커진다. 따라서 특정 활성화가 보는 입력 영역만 잘라서 보여주는 것이다.

10.8 Deconvolution: CNN 역공학

전치 합성곱(Transposed Convolution)의 수학

1D 합성곱은 행렬-벡터 곱으로 재작성할 수 있다.

\[Y = WX\]

여기서 \(W\)는 대각선을 따라 필터 가중치가 배치된 행렬이다. 만약 \(W\)가 가역적이고 직교(orthogonal)하다면:

\[W^{-1} = W^T \quad \Rightarrow \quad X = W^T Y\]

실용적 구현 트릭: 전치 합성곱(deconvolution)은 서브픽셀(subpixel) 합성곱과 동치다. - 필터를 뒤집는다(flip) - 입력 \(Y\)의 값 사이에 0을 삽입한다 - 스트라이드를 반으로 줄인다

역공학 파이프라인

입력 이미지를 CNN에 통과시킨다
특정 특징 맵에서 최대 활성화를 찾는다
나머지를 모두 0으로 만든다
역방향으로 진행한다:
- Max Pool → Unpool (순전파 시 기록한 스위치(switch) 위치 사용)
- ReLU → ReLU 재적용 (양의 신호를 유지하기 위해)
- Conv → Deconv (필터 뒤집기 + 서브픽셀 + 스트라이드 절반)
입력 공간에서 해당 활성화를 유발한 영역과 픽셀을 복원한다

Zeiler & Fergus의 시각화 결과

레이어	해석
1층	대각선 엣지, 수평/수직 엣지 등 저수준 특징
2층	원, 특수 형태 등 중간 수준 패턴
3층 이상	점점 복잡한 의미론적 특징 (얼굴, 텍스처 등)

깊어질수록 더 복잡한 정보를 포착한다는 것이 시각적으로 증명된다.

10.9 CNN 해석 기법 종합

질문	사용할 방법
입력의 어느 부분이 출력에 영향을 주는가?	Saliency Map, Integrated Gradients, Occlusion Sensitivity
모델이 입력 이미지의 어디를 보는가?	CAM, Grad-CAM
특정 뉴런/필터/레이어의 역할은?	Dataset Search, Deconvolution
모델이 특정 클래스를 어떻게 인식하는가?	Class Model Visualization (Gradient Ascent)

10.10 CNN에서 프론티어 모델로

CNN과 현대 프론티어 모델(트랜스포머 기반 LLM)의 핵심 차이:

CNN	트랜스포머 / LLM
지역적 정보 처리	토큰 간 관계와 의미 모델링
엣지, 텍스처, 형태 시각화	어텐션 패턴과 임베딩 시각화
해석 기법이 잘 정립됨	최첨단 연구도 2-레이어 트랜스포머 수준에서만 해석 가능

어텐션 패턴

"Attention Is All You Need" 논문의 핵심 메커니즘이다. 각 어텐션 헤드는 서로 다른 패턴을 학습한다 — 대명사와 명사의 연결, 구조 추적, 순서 강제 등. Jesse Vig(2019)의 시각화는 특정 토큰과 주변 토큰 사이의 어텐션 관계를 보여주며, 이는 CNN의 Saliency Map에 해당하는 트랜스포머 버전이라 할 수 있다.

임베딩 시각화

사전 훈련 과정에서 학습된 임베딩을 t-SNE 같은 차원 축소 기법으로 시각화할 수 있다. 의미적으로 유사한 토큰이 가까이 위치하는지, 무관한 토큰이 멀리 떨어져 있는지를 확인하여 모델이 의미 있는 표현을 학습했는지 검증한다.

Anthropic의 트랜스포머 회로 연구

현재 트랜스포머 내부 해석에서 가장 진보된 연구는 Anthropic에서 나오고 있다.

A Mathematical Framework for Transformer Circuits — 트랜스포머 구성 요소 간의 상호작용을 설명하고 "회로(circuit)" 개념을 도입
In-Context Learning with Induction Heads — 인덕션 헤드(induction head)는 현재 트랜스포머 내부를 시각화하는 가장 유용한 도구

10.11 훈련 및 스케일링 진단

프론티어 랩이 모델 건강 상태를 모니터링하는 대시보드의 핵심 요소:

손실 곡선 모니터링

훈련 손실: 매끄러운 궤적이어야 한다. 급격한 점프는 데이터 배치 오염, 코드 버그, 그래디언트 폭발/소멸을 의미할 수 있다.
검증 손실: 훈련 손실과 유사한 커브를 따르되 약간 높아야 한다.
도메인별 손실: 전체 데이터뿐 아니라 코딩, 수학, 다국어 등 하위 도메인별로도 추적한다.

훈련 텔레메트리

그래디언트 노름(Gradient Norms)
학습률 스케줄(Learning Rate Schedule)
하드웨어 효율 지표(GPU 활용률 등)

10.12 스케일링 법칙(Scaling Laws)

스케일링 법칙은 모델 성능(테스트 손실)과 모델 크기, 데이터셋 크기, 컴퓨팅 양 사이의 멱법칙(power law) 관계를 설명한다.

Chinchilla 논문 (DeepMind, 2022)

Chinchilla 연구는 GPT-3(1,750억 파라미터)가 충분히 오래 훈련되지 않았다고 분석했다. Chinchilla(700억 파라미터)가 GPT-3보다 적은 파라미터로 더 나은 성능을 보인 이유는 모델 크기 대비 충분한 훈련 데이터와 컴퓨팅이 투입되었기 때문이다.

스케일링 법칙이 중요한 이유:

GPT-5급 모델의 훈련 비용은 수억 달러 규모로 추정된다
"모델을 더 크게 만들 것인가, 더 오래 훈련할 것인가, 데이터를 더 모을 것인가"라는 투자 결정의 근거가 된다
프론티어 랩은 자체 스케일링 법칙을 알려진 법칙과 비교하여 모델이 효율적으로 훈련되고 있는지 판단한다

10.13 벤치마크와 역량 평가

역량 벤치마크

추론, 코딩, 수학, 다국어 과제 등에서 모델을 평가한다. 체크포인트 간 비교를 통해 시간에 따른 모델 개선을 추적한다. 강의 당일 아침 Mistral이 3세대 모델을 발표하며 벤치마크를 공개한 사례처럼, 이러한 비교는 실시간으로 이루어진다.

벤치마크 오염(Contamination) 문제

오염 원인	설명
훈련 데이터에 테스트셋 포함	블로그, GitHub 등에서 벤치마크 내용이 크롤링됨
의미론적 유사 데이터	단어 자체는 다르지만 의미적으로 동일한 내용이 훈련셋에 존재

오염 탐지 방법: - N-gram 검색: 7~8 토큰 길이의 시퀀스를 훈련셋에서 검색 - 해시 비교: 데이터 포인트의 해시값 매칭 - 임베딩 유사도: 의미론적 중복 탐지

오염 확인 시 조치: 테스트셋에서 오염된 예제를 제거하고, 오프라인에서 관리되는 새로운 예제로 교체한다.

개인적으로 파운데이션 모델 제공자가 자체 공개하는 벤치마크보다는 커뮤니티가 실무에서 테스트한 결과를 더 신뢰한다. 예를 들어 Claude가 코딩에 뛰어나다는 것은 벤치마크보다 커뮤니티의 실사용 경험에서 먼저 확인되었다.

안전성 평가

적대적 공격(Adversarial Attack), 탈옥(Jailbreaking), 사회 공학
유해 콘텐츠 생성, 환각, 프라이버시 누출
에이전트 워크플로우 내에서의 평가 (업스트림 vs 다운스트림 구분)

OpenAI와 Anthropic이 공동으로 비밀번호 보호 테스트를 수행한 사례가 소개되었으며, 이러한 안전성 대시보드가 RLHF의 초점 영역을 결정한다.

10.14 데이터 진단

도메인 분포 확인

The Pile(2020) 논문은 800GB 텍스트 데이터셋의 도메인 구성(Wikipedia, Stack Exchange, GitHub, Free Law 등)을 시각화한다. 도메인별 손실을 추적하면 특정 영역의 성능 저하를 조기에 발견할 수 있다.

특정 도메인이 과소 대표되면 해당 도메인의 성능이 하락한다. 온라인 학습 시 최근 배치에 코딩 데이터가 적었다면 코딩 성능이 일시적으로 저하될 수 있다. 이는 스마트 샘플링(경험 리플레이와 유사한 기법)으로 완화한다.

토큰 통계와 드리프트

핵심 토큰의 빈도 변화를 모니터링한다
예: 미분 기호(derivative symbol)의 과소 대표 → 미분 관련 과제 성능 저하
새로운 웹 크롤 후 비영어 토큰이 12%에서 19%로 증가 → 다른 언어 성능에 영향 가능

Mixture of Experts (MoE) 라우팅 진단

현대 대형 모델 상당수는 MoE 아키텍처를 사용한다. 라우터가 항상 같은 전문가(expert)만 선택하거나, 일부 전문가가 전혀 활용되지 않는 문제가 발생할 수 있다. 이 경우 2,000억 파라미터 모델이 실질적으로 훨씬 작은 모델로 작동하게 된다. 부하 분산(Load Balancing) 메커니즘으로 이를 방지한다.

10.15 데이터의 미래: 고갈과 합성 데이터

Epoch AI의 연구 보고에 따르면:

시점	고갈 예상
2025년	텍스트 저품질 데이터
2027년	오디오, 이미지, 비디오 저품질 데이터
2030년	고품질 데이터

합성 데이터(Synthetic Data)는 대안이 될 수 있지만, 특정 도메인의 합성 데이터 비율이 너무 높아지면 다른 도메인 성능에 영향을 줄 수 있다. 또한 AI가 생성한 코드가 다시 훈련 데이터로 유입되는 문제(data feedback loop)도 있어, 훈련에 크게 유용하지 않은 데이터가 양산될 수 있다.

궁극적으로 데이터가 병목이 아니게 되는 시점에서는 모델 아키텍처가 다음 혁신의 축이 될 가능성이 있다.

10.16 프론티어 랩 모니터링 대시보드 종합

프론티어 랩이 추적하는 주요 지표를 요약한다.

카테고리	지표
훈련	전체/도메인별 훈련 손실, 검증 손실
스케일링	테스트 손실 vs 컴퓨팅/데이터/모델 크기 정렬
MoE	라우터 사용 분포, 전문가별 활용률
그래디언트	그래디언트 노름, 학습률 스케줄
벤치마크	체크포인트별 역량/안전성 평가
데이터	토큰 분포, 도메인 비율, 오염 여부

프론티어 랩은 이러한 대시보드를 거의 공개하지 않는다. IP이며, 아키텍처와 훈련 방법에 대한 핵심 정보를 누출할 수 있기 때문이다. 보통 3~4년 지난 모델에 대해서만 일부 공개한다.

10.17 핵심 요약

영역	핵심 내용
Saliency Map	\(\partial S / \partial X\)로 픽셀 수준 영향 측정. Pre-softmax 점수 사용
Integrated Gradients	경로 적분 기반. Saliency Map의 안정적 확장
Occlusion Sensitivity	가림막 이동으로 확률 변화 관찰. 직관적이나 계산 비용 높음
CAM / Grad-CAM	GAP + FC로 아키텍처 수정 후 특징 맵 가중 합산
Class Model Visualization	Gradient Ascent로 모델이 인식하는 클래스 이미지 생성
Dataset Search	특정 필터를 최대 활성화하는 실제 이미지 검색
Deconvolution	전치 합성곱으로 네트워크를 역추적하여 활성화 원인 규명
프론티어 모델	어텐션 패턴, 임베딩 시각화, Anthropic 회로 분석이 최전선
스케일링 법칙	Chinchilla가 GPT-3보다 적은 파라미터로 더 나은 성능 달성
데이터 진단	도메인 분포, 토큰 드리프트, 벤치마크 오염이 핵심 점검 항목

이전 장: 9장 - AI 커리어 조언