Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

🏷️ 논문 LLM

최근 언어 모델의 추론 능력이 급격히 발전하면서, 영어권 모델들은 긴 사고 과정(chain-of-thought)을 통해 놀라운 성능을 보여주고 있습니다. 하지만 한국어를 비롯한 중간 규모 언어(mid-resource language)에서는 어떻게 이런 추론 능력을 구현할 수 있을까요? 이 논문은 한국어를 중심으로 다국어 추론 모델을 구축하는 실용적인 방법론을 제시합니다.

G. Son, D. Yang, H. L. Patel, A. Agarwal, H. Ko, C. Lim, S. Panda, M. Kim, N. Drolia, D. Choi, K.-H. Lee and Y. Yu, "Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought", arXiv preprint arXiv:2510.04230, 2025.

1-koreason.png

기존 접근법들은 크게 두 가지 문제에 직면했습니다. 첫째, 영어 데이터를 단순 번역하면 번역 오류가 누적되고 문화적 맥락이 손실됩니다. 둘째, 목표 언어로만 학습하면 추론 능력이 크게 떨어집니다. 이 연구는 Language-Mixed CoT라는 새로운 방식을 제안하여 이 문제를 해결합니다.

요약

핵심 제안: Language-Mixed CoT

Language-Mixed CoT는 추론 과정에서 영어와 목표 언어(한국어)를 자유롭게 전환하는 방식입니다. 영어를 추론의 앵커로 활용하면서도 한국어 고유 표현과 문맥을 보존합니다. Think 단계에서 논리적 구조는 주로 영어로 작성하되, 핵심 용어, 인용문, 고유명사는 한국어로 유지합니다.

실험 결과, 이 방식은 영어 전용이나 한국어 전용 CoT보다 일관되게 우수한 성능을 보였습니다. 특히 Gemma-3-4B 모델에서 MCLM 벤치마크 점수가 48.1점(영어)에서 55.8점(Language-Mixed)으로 향상되었습니다.

데이터셋: YI-SANG

연구팀은 5.79M개의 한국어 프롬프트를 웹 Q&A, 시험 문제, STEM, 코드 등에서 수집했습니다. Qwen3-32B를 교사 모델로 활용하여 3.7M개의 긴 추론 과정을 생성했고, 광범위한 실험을 통해 260K개의 고품질 부분집합(YI-SANG-HQ)을 추출했습니다.

이는 현재까지 공개된 한국어 훈련 리소스 중 가장 큰 규모입니다. 데이터 수집 과정에서 번역에 의존하지 않고 원어민이 작성한 실제 질문을 사용한 것이 특징입니다.

모델: KO-REAson 시리즈

YI-SANG-HQ로 6개 모델 패밀리(Qwen2.5, Llama-3.1, Gemma-3 등)의 9개 모델(4B-35B)을 학습했습니다. 최고 성능 모델인 KO-REAson-35B는 9개 벤치마크에서 평균 64.0±2.5점을 기록하며 동급 최고 수준(SOTA)을 달성했습니다.

작은 모델들도 평균 +18.6점의 일관된 성능 향상을 보였습니다.

주요 훈련 방법론

평가 벤치마크

Held-in (개발 중 모니터링용):

Held-out (최종 평가용):

논문 상세

1. 서론

테스트 타임 스케일링이 추론 능력을 증폭시킨다는 것은 잘 알려져 있지만, 이를 중간 규모 언어로 확장하는 것은 어려운 과제입니다. 기존 접근법들은 주로 영어와 중국어에 집중했고, 번역 기반 방법은 품질 저하를 초래했습니다.

이 연구는 한국어를 테스트베드로 선택했습니다. 한국어는 활발한 LLM 연구 생태계, 자체 베이스 모델, 전용 벤치마크를 보유하고 있어 방법론 검증에 적합합니다.

2. 관련 연구

최근 연구들은 긴 추론 과정을 주류로 만들었습니다. o1과 R1은 사고 길이 확장이 성능을 향상시킨다는 것을 보였고, 후속 연구들은 온라인 RL, 오프라인 RL, 순수 SFT 등 다양한 접근법을 시도했습니다.

하지만 성공적인 온라인 RL은 (i) 강력한 베이스 모델(≥30B), (ii) 신뢰할 수 있는 보상 모델, (iii) 대규모 고품질 데이터를 필요로 합니다. 이는 중간 규모 언어에서 실현하기 어렵습니다.

3. Language-Mixed CoT의 효과

단일 언어 CoT의 문제점:

Language-Mixed CoT는 5-20%의 한국어 비율을 유지하면서 영어로 논리 구조를 작성합니다. 실험 결과:

4. YI-SANG 데이터셋 구축

프롬프트 수집

54개의 공개 Q&A 및 커뮤니티 웹사이트에서 데이터를 크롤링했습니다. 법적 검토를 거쳐 라이선스 A(재배포 가능), B(학습용만 가능), C(제외) 범주로 분류했습니다.

필터링은 최소화하여 사용자의 실제 언어 패턴(오타, 약어, 혼용 표기)을 보존했습니다. 한국어 비율 30% 미만, 길이 50자 미만 또는 8,192자 초과만 제거했습니다.

최종적으로 OpenThought 데이터셋을 Gemini-2.5-Flash로 번역하여 추가했습니다(경쟁 수준 문제 보강).

응답 생성

Agreement 샘플링이나 힌트 기반 개선 대신, 프롬프트만으로 교사 모델에서 응답을 재생성했습니다. 웹 수집 답변은 신뢰할 수 없고 아티팩트를 유발하기 때문입니다.

교사 모델 비교:

데이터 구성 최적화

카테고리별 기여도 분석:

최종 구성: OpenThought 62K + Code 86K + Science 37K + Exams 66K = 260K (YI-SANG-HQ)

5. 결과 분석

SOTA 달성

KO-REAson-35B는 GPT-OSS-20B, DeepSeek-R1-32B, EXAONE-Deep-32B, QwQ-32B와 같은 동급 모델들을 능가했습니다. 9개 벤치마크 중 5개에서 1위, 나머지 4개에서 2위를 기록했습니다.

경쟁 수준 수학(AIME24, KSM)에서는 GPT-OSS-20B에 다소 뒤처졌는데, 이는 OpenThought 번역 데이터가 ~60K로 제한적이기 때문입니다(원본은 1M 이상).

일관된 향상

4B-35B 범위의 9개 모델 모두에서 일관된 향상을 확인했습니다. 특히:

교차 언어 및 교차 모달 전이

텍스트 전용 학습에도 불구하고:

Gemma3-12B 결과:

이는 Language-Mixed CoT가 영어 추론 단계를 포함하여 범용 추론 능력을 향상시키기 때문으로 분석됩니다.

6. 구현 세부사항

하드웨어 및 최적화

패킹(Packing) 효과

패킹은 상당한 속도 향상을 제공하지만 일반 지식과 추론 벤치마크에서 측정 가능한 성능 저하를 야기했습니다. 따라서 모든 보고된 모델은 패킹 없이 학습되었습니다.

7. 한계점 및 향후 연구

결론

이 연구는 중간 규모 언어를 위한 추론 모델 구축의 실용적 레시피를 제시합니다. Language-Mixed CoT와 대규모 원어민 데이터 수집을 통해 독점 데이터로 학습된 모델과 경쟁할 수 있는 오픈 모델을 만들 수 있음을 보였습니다.

YI-SANG 데이터셋과 KO-REAson 모델 시리즈는 Apache-2.0 라이선스로 공개되어 한국어 연구자들과 다국어 커뮤니티에 기여할 것으로 기대됩니다.