NVIDIA Nemotron-Personas-Korea

🏷️ 정보 LLM 오픈소스

AI가 한국어를 잘 못하는 데는 이유가 있습니다. 데이터가 부족해서가 아닙니다. 한국어 텍스트는 인터넷에 넘칩니다. 문제는 다양성입니다. 20대 서울 여성과 60대 전남 농촌 남성은 같은 한국어를 쓰지 않습니다. 말하는 방식, 관심사, 가치관이 다릅니다. 한국어 AI 학습 데이터는 이 차이를 반영하지 못하는 경우가 많습니다.

NVIDIA가 한국에게 뭔가 보여줍니다.

무엇을 공개했나

2026년 4월 20일, NVIDIA는 Nemotron-Personas-Korea 데이터셋을 Hugging Face에 공개했습니다. 한국 인구 분포를 기반으로 생성한 합성 페르소나 700만 개가 담겨 있습니다.

규모를 먼저 보면, 레코드 100만 개에 총 17억 토큰입니다. 한 레코드당 7개의 페르소나가 있고, 각 페르소나는 26개 필드로 구성됩니다. 직업 서사, 스포츠 취향, 여행 스타일, 음식 취향, 가족 관계, 문화적 배경, 기술 보유 수준, 인생 목표까지 상세하게 만들어져 있습니다.

지리적 범위는 17개 광역 시도와 252개 이상의 시군구를 커버합니다. 이름은 대법원 데이터를 기반으로 118개 성씨, 2만 1천 개 이상의 이름 조합으로 20만 9천 개의 고유한 성명이 포함돼 있습니다.

라이선스는 CC BY 4.0. 상업적 사용이 가능합니다.

왜 만들었나 — NVIDIA의 진짜 계산

NVIDIA의 공식 설명은 "Sovereign AI"입니다. 각 국가가 자국 언어와 문화를 제대로 이해하는 AI를 가져야 한다는 논리입니다. 맞는 말입니다. 동시에 이 프로젝트에는 하드웨어 판매라는 다른 계산도 있습니다.

2025년 11월 APEC 정상회의를 전후해서 삼성, SK그룹, 현대, NAVER Cloud, Kakao 등 한국 기업들이 NVIDIA GPU 260,000개 이상을 구매하기로 약속했습니다. 정부 차원에서도 과학기술정보통신부 주도의 Sovereign AI 기반 모델 사업에 2,400억 원이 책정됐습니다. LG AI Research, NC AI, SK Telecom, Upstage가 참여합니다. 이 사업의 인프라는 NeMo와 Nemotron 생태계를 씁니다.

Nemotron-Personas-Korea는 이 구조에서 데이터 레이어입니다. 260,000개 GPU로 무엇을 학습시킬 것인가? 한국 인구를 제대로 반영한 데이터 없이는 그 GPU에서 영어 편향 모델이 나올 뿐입니다. NVIDIA가 이 데이터셋을 오픈소스로 공개한 것은 생태계를 만드는 행위입니다. 페르소나 데이터 → NeMo 학습 → Nemotron 추론 → NIM 배포 → AI Enterprise 라이선스. 데이터부터 배포까지 NVIDIA 스택입니다.

실제 데이터 출처는 탄탄합니다. 통계청(KOSIS), 대법원, 국민건강보험공단, 한국농촌경제연구원, 네이버클라우드. 이름 분포는 대법원 출생신고 데이터, 연령 분포는 저출산·고령화를 반영한 항아리형 구조입니다. 일본 데이터셋에 쓰인 GPT-OSS-120B 대신 Gemma-4-31B와 정부 통계를 조합한 방식은 이 시리즈에서 가장 정밀한 통계 기반입니다.

기존 데이터와 무엇이 다른가 — 그리고 한국어 AI가 실제로 실패하는 곳

한국어 AI 학습 데이터는 대체로 두 가지입니다. 크롤링한 웹 텍스트, 또는 번역한 영어 데이터.

둘 다 편향이 있습니다. 웹 크롤링 데이터는 인터넷을 많이 쓰는 사람들의 텍스트가 과대 대표됩니다. 젊은 도시 거주자, 특정 관심사를 가진 사람들의 언어가 많이 들어갑니다. 번역 데이터는 한국 사회 맥락 자체가 없습니다.

이 편향이 실제로 어떻게 나타날까요. 세 가지 구체적 실패 패턴이 있습니다.

경어 레지스터 오류. 한국어는 존댓말과 반말이 문법적으로 필수입니다. 서울 중심 공식 문어체 데이터로 학습된 AI는 노년층 농촌 화자나 비공식 맥락에서 부적절한 경어를 씁니다. 배포된 한국어 AI 에이전트에서 가장 자주 보고되는 실패 유형입니다.

방언 과소 표현. 경기도 표준어와 전라도·경상도 방언은 어휘와 음운 패턴이 다릅니다. 2024년 NAACL 연구에서 한국어 LLM을 지역별로 평가했을 때 방언 발화에서 성능이 유의미하게 떨어졌습니다. 제주도 방언은 아예 다른 언어에 가까워, 사실상 대부분의 한국어 AI에서 미지원 상태입니다.

노년층 성능 저하. 음성 인식 오류율은 노년층에서 청년층보다 유의미하게 높습니다. 여기에 방언이 결합되면 — 전라북도 60대 농업인, 경상남도 70대 어촌 어민 — 현재 AI 시스템이 가장 많이 실패하는 조합이 됩니다.

Nemotron-Personas-Korea는 정부 통계(통계청, 국민건강보험공단, 한국농촌경제연구원)로 이 사람들을 인구에서 제대로 된 비율로 포함시켰습니다. 부산의 55세 자영업 남성, 광주의 28세 간호사 여성, 강원도 농촌의 72세 농업인 — 이런 페르소나 20만 9천 개의 고유한 이름을 대법원 데이터로 생성했습니다.

완벽하지는 않습니다. 합성 데이터는 합성 데이터입니다. 실제 사람이 쓴 텍스트를 대체할 수는 없습니다. 하지만 편향을 줄이고 다양성을 늘리는 보완재로는 의미가 있습니다.

무엇에 쓸 수 있나

공개된 용도는 크게 세 가지입니다.

첫째, 한국어 LLM 파인튜닝입니다. 모델이 더 다양한 한국 사용자의 언어 패턴을 학습할 수 있습니다.

둘째, 합성 데이터 생성의 시드로 활용합니다. 페르소나를 기반으로 대화 데이터, 리뷰 데이터, Q&A 데이터를 추가로 생성하는 파이프라인에 씁니다.

셋째, 편향 평가입니다. 특정 집단의 응답을 시뮬레이션해서 모델이 특정 지역, 연령, 직업군에 대해 편향된 답변을 하는지 테스트할 수 있습니다.

연구자나 스타트업 입장에서 주목할 부분은 CC BY 4.0이라는 라이선스입니다. 상업적으로도 쓸 수 있습니다.

합성 데이터의 한계 — 솔직하게 짚어야 할 것들

합성 페르소나 품질에 대한 연구 결과가 있습니다. 좋지만은 않습니다.

분포 붕괴. Shumailov et al.(Nature, 2024)은 반복적인 합성 학습이 소수 분포를 점진적으로 지운다는 것을 보였습니다. 한국 AI가 가장 필요로 하는 — 제주 방언 화자, 장애인 농촌 거주자, 특수 직업군 — 이 바로 통계적으로 희귀해서 합성 데이터에서 가장 빈약하게 표현될 가능성이 높습니다.

이념적 편향. NeurIPS 2025 논문 "LLM Generated Persona is a Promise with a Catch"는 LLM이 생성한 페르소나가 실제 인구 분포와 관계없이 낙관적이고 진보적인 방향으로 수렴하는 경향이 있다고 보고합니다. Gemma-4-31B는 영어로 사전학습된 모델입니다. 한국어 페르소나를 생성할 때 영어 문화 가정이 잔류할 가능성이 있고, 이는 검증되지 않은 상태입니다.

구조적 공백. 데이터셋은 19세 미만을 포함하지 않고, 성별 정체성과 성적 지향 필드가 없으며, 변수 간 상호작용(성별 × 교육 × 지역)을 모델링하지 않습니다. 사회 시뮬레이션 목적에서 이런 공백은 제약이 됩니다.

누가 가장 많이 이익을 얻는가

가장 많이 이익을 얻는 건 한국 AI 스타트업과 중소 개발자입니다. Upstage, Wrtn 같은 회사들은 NAVER나 Kakao가 독점적으로 보유한 대규모 한국어 proprietary 데이터에 접근할 수 없습니다. CC BY 4.0 라이선스로 공개된 이 데이터셋은 그 격차를 일부 메웁니다.

정부 사업 참여 기관들은 2026년 1월 시행된 AI 기본법 데이터 거버넌스 요건을 충족하는 기반 데이터를 얻습니다.

반대로 NAVER, Kakao, 삼성처럼 이미 대규모 한국어 proprietary 데이터를 가진 기업들에게는 상대적 이점이 작습니다. 이 데이터셋은 그들에게는 벤치마크 베이스라인 정도의 의미입니다.

한국어 AI의 질이 높아지려면 이런 데이터 인프라가 쌓여야 합니다. Nemotron-Personas-Korea는 그 출발점 중 하나입니다. 동시에 NVIDIA가 한국 AI 생태계에 실질적인 자원을 제공하면서 자신들의 하드웨어 및 소프트웨어 스택 위에 그 생태계를 구축하는 구조이기도 합니다. 두 가지가 동시에 사실입니다.