NVIDIA Nemotron-Personas-Korea

🏷️ 정보 LLM 오픈소스

AI가 한국어를 잘 못하는 데는 이유가 있습니다. 데이터가 부족해서가 아닙니다. 한국어 텍스트는 인터넷에 넘칩니다. 문제는 다양성입니다. 20대 서울 여성과 60대 전남 농촌 남성은 같은 한국어를 쓰지 않습니다. 말하는 방식, 관심사, 가치관이 다릅니다. 한국어 AI 학습 데이터는 이 차이를 반영하지 못하는 경우가 많습니다.

NVIDIA가 한국에게 뭔가 보여줍니다.


무엇을 공개했나

2026년 4월 20일, NVIDIA는 Nemotron-Personas-Korea 데이터셋을 Hugging Face에 공개했습니다. 한국 인구 분포를 기반으로 생성한 합성 페르소나 700만 개가 담겨 있습니다.

규모를 먼저 보면, 레코드 100만 개에 총 17억 토큰입니다. 한 레코드당 7개의 페르소나가 있고, 각 페르소나는 26개 필드로 구성됩니다. 직업 서사, 스포츠 취향, 여행 스타일, 음식 취향, 가족 관계, 문화적 배경, 기술 보유 수준, 인생 목표까지 상세하게 만들어져 있습니다.

지리적 범위는 17개 광역 시도와 252개 이상의 시군구를 커버합니다. 이름은 대법원 데이터를 기반으로 118개 성씨, 2만 1천 개 이상의 이름 조합으로 20만 9천 개의 고유한 성명이 포함돼 있습니다.

라이선스는 CC BY 4.0. 상업적 사용이 가능합니다.


왜 만들었나

NVIDIA의 설명은 "Sovereign AI"입니다. 특정 국가나 지역의 언어와 문화를 제대로 이해하는 AI를 만들기 위해서는, 그 지역 인구를 정확하게 반영한 학습 데이터가 필요하다는 논리입니다.

실제 데이터 출처가 인상적입니다. 통계청(KOSIS), 대법원, 국민건강보험공단, 한국농촌경제연구원, 네이버클라우드. 한국 정부 기관과 주요 기업의 데이터를 합성에 활용했습니다. 이름 분포는 대법원 출생신고 데이터를 씁니다. 연령 분포는 저출산·고령화 현실을 반영한 항아리형 구조입니다.

NVIDIA 혼자 만든 프로젝트가 아닙니다. 영역별로 파트너가 있습니다. 데이터 가공에 네이버클라우드, 한국 데이터 검증에 다수의 한국 기관이 참여했습니다.


기존 데이터와 무엇이 다른가

한국어 AI 학습 데이터는 대체로 두 가지입니다. 크롤링한 웹 텍스트, 또는 번역한 영어 데이터.

둘 다 편향이 있습니다. 웹 크롤링 데이터는 인터넷을 많이 쓰는 사람들의 텍스트가 과대 대표됩니다. 젊은 도시 거주자, 특정 관심사를 가진 사람들의 언어가 많이 들어갑니다. 번역 데이터는 한국 사회 맥락 자체가 없습니다.

Nemotron-Personas-Korea는 다른 방향에서 접근했습니다. 실제 한국 인구 통계를 기반으로 페르소나를 생성했습니다. 부산에 사는 55세 자영업 남성, 광주에 사는 28세 간호사 여성, 강원도 농촌에 사는 72세 농업인. 이런 사람들이 어떤 삶을 살고, 어떤 언어를 쓸지를 합성해서 만들어낸 데이터입니다.

완벽하지는 않습니다. 합성 데이터는 합성 데이터입니다. 실제 사람이 쓴 텍스트를 대체할 수는 없습니다. 하지만 편향을 줄이고 다양성을 늘리는 보완재로는 의미가 있습니다.


무엇에 쓸 수 있나

공개된 용도는 크게 세 가지입니다.

첫째, 한국어 LLM 파인튜닝입니다. 모델이 더 다양한 한국 사용자의 언어 패턴을 학습할 수 있습니다.

둘째, 합성 데이터 생성의 시드로 활용합니다. 페르소나를 기반으로 대화 데이터, 리뷰 데이터, Q&A 데이터를 추가로 생성하는 파이프라인에 씁니다.

셋째, 편향 평가입니다. 특정 집단의 응답을 시뮬레이션해서 모델이 특정 지역, 연령, 직업군에 대해 편향된 답변을 하는지 테스트할 수 있습니다.

연구자나 스타트업 입장에서 주목할 부분은 CC BY 4.0이라는 라이선스입니다. 상업적으로도 쓸 수 있습니다.


무엇을 의미하는가

한국어 AI 데이터의 주도권 문제가 있습니다.

OpenAI, Anthropic, Google이 만드는 모델들은 기본적으로 영어 중심입니다. 한국어는 후순위입니다. 한국어 모델을 제대로 만들려면 한국 데이터가 필요한데, 그 데이터를 누가 만들고 소유하느냐가 중요해지고 있습니다.

NVIDIA가 이 데이터셋을 오픈소스로 공개한 것은, 한국 시장에서의 영향력 확장이기도 하지만 동시에 한국 AI 생태계에 실질적인 자원을 제공한 것이기도 합니다.

비슷한 시도가 일본, 아랍권, 인도에서도 진행되고 있습니다. 각 언어권의 인구 구조를 반영한 페르소나 데이터셋이 AI 학습의 기반이 되는 흐름입니다. 한국어 AI의 질이 높아지려면 이런 데이터 인프라가 쌓여야 합니다. Nemotron-Personas-Korea는 그 출발점 중 하나입니다.