EXAONE 4.0 Unified Large Language Models Integrating Non-reasoning and Reasoning Modes

🏷️ 논문 LLM

LG AI Research가 공개한 EXAONE 4.0은 언어모델 설계에서 새로운 접근을 시도했습니다. Non-reasoning 모드와 Reasoning 모드를 하나의 모델에 통합하여, 일상적인 대화에서는 빠른 응답을, 복잡한 문제에서는 깊은 사고를 제공하는 실용적인 언어모델을 구현했습니다.

LG AI Research, "EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes," arXiv preprint arXiv:2507.11407, 2025.

exaone_1.png

요약

1. 모델 아키텍처

기본 구성

구성요소

32B 모델

1.2B 모델

파라미터 수

32.0B

1.28B

모델 차원 (d_model)

5,120

2,048

레이어 수

64

30

어텐션 헤드

40

32

KV 헤드

8

8

헤드 크기

128

64

최대 시퀀스 길이

131,072

65,536

정규화

QK-Reorder-LN

QK-Reorder-LN

활성화 함수

SwiGLU

SwiGLU

FFN 차원

27,392

4,096

어텐션 메커니즘

모델

어텐션 타입

글로벌:로컬 비율

윈도우 크기

RoPE 적용

32B

Hybrid

1:3

4K 토큰

로컬만

1.2B

Global

-

-

전체

토크나이저 및 어휘

2. 훈련 데이터

사전훈련 규모

모델 크기

훈련 토큰 수

계산량 (FLOPs)

지식 컷오프

32B

14T

2.69 × 10²⁴

2024년 11월

1.2B

12T

8.65 × 10²²

2024년 11월

비교: EXAONE 3.5 32B는 6.5T 토큰 (2배 이상 증가)

도메인별 데이터 구성

1. World Knowledge

2. Math/Code/Logic

3. Long Context

4. Agentic Tool Use

5. Multilinguality

통합 모드 훈련 설정

3. 맥락 길이 확장

점진적 확장 전략

검증 방법

데이터 선별 및 훈련 레시피

4. 포스트 트레이닝

3단계 파이프라인

  1. 대규모 SFT: 통합 모드 지도 파인튜닝
  2. 추론 RL: AGAPO 알고리즘 적용
  3. 선호학습: 하이브리드 리워드로 모드 통합

AGAPO 알고리즘 세부사항

데이터 준비

리워드 함수 (도메인별)

핵심 개선사항

  1. 클립 목적함수 제거: 표준 정책 그래디언트 손실 사용
  2. 비대칭 샘플링: 모든 틀린 응답도 네거티브 피드백으로 활용
  3. 2단계 어드밴티지: 그룹 내 LOO → 배치 전체 정규화
  4. 시퀀스 레벨 누적 KL: SFT 능력 보존

AGAPO 목적함수

J_AGAPO(θ) = E[1/G * Σ(A_global,i * log π_θ(o_i|q) - β * D_KL(π_θ, π_ref))]

A_loo,i = r_i - (1/(G-1)) * Σ(j≠i) r_j
A_global,i = (A_loo,i - mean({A_loo,k})) / std({A_loo,k})

선호학습 (2단계)

1단계: 토큰 효율성 개선

2단계: 인간 정렬

데이터 구성

5. 평가 설정

벤치마크 카테고리 (6개)

World Knowledge

Math/Coding

Instruction Following

Long Context

Agentic Tool Use

Multilinguality

하이퍼파라미터 설정

샘플링 설정

벤치마크

샘플 수 (n)

용도

GPQA-Diamond

8

안정성 확보

AIME 2025, HMMT

32

수학 경쟁

LiveCodeBench, Tau-Bench

4

코딩/도구

MATH500 (es)

4

다국어 수학

모드별 설정

모드

Temperature

Top-p

Presence Penalty

토큰 제한

Reasoning

0.6

0.95

1.5 (32B만)

64K (수학/코딩), 32K (기타)

Non-Reasoning

0.0 (Greedy)

-

0.0

동일

평가 해상도

6. 기준 모델 비교

모델 분류

타입별 분류

논문 상세

핵심 특징: 하이브리드 모드 아키텍처

1. 이중 모드 시스템

EXAONE 4.0의 가장 독특한 특징은 하나의 모델에서 두 가지 동작 모드를 제공한다는 점입니다:

Non-reasoning 모드:

Reasoning 모드:

2. 모델 구성

모델

파라미터

차원

레이어

헤드

최대 길이

적용

32B

32.0B

5,120

64

40

131,072

고성능 서버

1.2B

1.28B

2,048

30

32

65,536

온디바이스

아키텍처 혁신

1. 하이브리드 어텐션 메커니즘

32B 모델에서는 계산 효율성과 성능의 균형을 위해 혁신적인 하이브리드 어텐션을 도입:

설계 원리:

성능 효과:

2. QK-Reorder-LN 정규화

기존 Pre-LN 구조의 한계를 극복하기 위한 정규화 위치 재조정:

대규모 훈련 전략

1. 데이터 스케일 혁신

사전훈련 규모:

점진적 맥락 확장:

2. 5개 도메인 특화 데이터

1. World Knowledge:

2. Math/Code/Logic:

3. Long Context:

4. Agentic Tool Use:

5. Multilinguality:

3. 통합 모드 훈련

핵심 전략:

AGAPO: 혁신적 강화학습 알고리즘

기존 GRPO의 한계를 극복한 Asymmetric Sampling and Global Advantage Policy Optimization:

핵심 개선사항

1. 클립 목적함수 제거:

2. 비대칭 샘플링:

3. 2단계 어드밴티지 계산:

A_loo,i = r_i - (1/(G-1)) * Σ(r_j), j≠i
A_global,i = (A_loo,i - mean({A_loo,k})) / std({A_loo,k})

4. 시퀀스 레벨 누적 KL:

목적함수

J_AGAPO(θ) = E[1/G * Σ(A_global,i * log π_θ(o_i|q) - β * D_KL(π_θ, π_ref))]

2단계 선호학습

1단계: 토큰 효율성 개선:

2단계: 인간 정렬:

포괄적 성능 평가

수학/코딩 도메인 압도적 우위

32B 모델 성과:

주목할 성과: Qwen3 235B (7배 큰 모델) 대비 모든 수학/코딩 벤치마크에서 우수

세계 지식과 전문 추론

GPQA-Diamond (대학원 수준 과학):

MMLU-Redux (개선된 MMLU):

에이전트 능력과 도구 사용

BFCL-v3 (함수 호출):

Tau-Bench:

다국어 성능

한국어:

스페인어 (새로 추가):

추론 예산 분석

추론 토큰 수에 따른 성능 변화 분석:

예산

32B AIME 2025

32B LiveCodeBench v6

1.2B AIME 2025

1.2B LiveCodeBench v6

64K

85.3%

66.7%

45.2%

45.3%

32K

74.8% (-12.3%)

67.3% (+0.9%)

45.3% (+0.2%)

43.0% (-5.1%)

16K

44.2%

53.0%

37.1%

40.1%

8K

36.8%

47.6%

24.6%

38.3%

실용적 의미: 32K 예산으로도 대부분 벤치마크에서 경쟁력 유지

장문 맥락 처리 능력

HELMET 벤치마크 (128K)

32B 모델: 58.3% 평균 (6개 태스크)

1.2B 모델: 42.5% 평균 (64K)

RULER 벤치마크

128K 성능: 88.2% (32B), 77.4% (1.2B)

기술적 의의와 혁신

1. 실용적 하이브리드 설계

단순한 성능 추구가 아닌 실제 사용 시나리오에 중점:

2. 한국어 생태계 강화

전문 지식 처리:

3. 에이전트 AI 준비

도구 사용 능력:

4. 모델 패밀리 전략

효율적 증류:

한계와 향후 과제

현재의 제약사항

기술적 한계:

데이터 의존성:

개선 방향

  1. 언어 지원 확대: 점진적 다국어 확장
  2. 효율성 최적화: 추론 모드 계산 비용 절감
  3. 모드 통합 개선: 더 자연스러운 전환 메커니즘

결론

EXAONE 4.0은 학술적 벤치마크 점수 경쟁보다는 실제 활용성에 중점을 둔 모델입니다. 하이브리드 모드 아키텍처, AGAPO 강화학습, 효율적인 어텐션 메커니즘을 통해 다양한 사용 시나리오에 대응할 수 있는 실용적 해법을 제시했습니다.

특히 한국어 지원 강화와 에이전트 능력 구축을 통해 실제 비즈니스 환경에서의 활용 가능성을 높였으며, 모델 패밀리 전략으로 서버에서 모바일까지 다양한 배포 환경을 지원합니다. 무엇보다 사용자가 필요에 따라 빠른 응답과 깊은 추론을 선택할 수 있다는 점이 실용적 가치를 더합니다.