NVIDIA Nemotron 3 Ultra
2026년 6월 4일, NVIDIA가 Nemotron 3 Ultra를 공개했습니다. 550B 총 파라미터에 활성 55B를 쓰는 오픈 Mixture-of-Experts 모델인데, 구조가 흥미롭습니다. 순수 트랜스포머가 아니라 Mamba와 Attention을 섞은 하이브리드입니다. 그리고 가중치만 던지는 흔한 오픈모델과 달리 학습데이터와 레시피까지 통째로 열었습니다.
왜 지금 하이브리드 Mamba-Transformer인가
트랜스포머의 셀프어텐션은 시퀀스 길이에 제곱으로 비용이 커집니다. 100K 토큰 컨텍스트를 처리하면 10K일 때보다 KV 캐시와 연산 비용이 100배 불어납니다. 긴 문서를 다루거나 며칠짜리 에이전트 작업을 수행할 때 이게 발목을 잡습니다.
Mamba는 상태공간 모델(SSM) 계열로, 시퀀스 길이에 선형으로 스케일합니다. 긴 의존성을 효율적으로 처리하지만, 정밀한 정보 회수(exact recall)에서는 어텐션에 밀립니다. "세 번째 문단에서 언급된 함수명이 뭐였지?" 같은 질문에 약합니다.
Nemotron 3 Ultra는 이 둘을 섞었습니다. 대부분의 레이어를 Mamba로 채워 긴 시퀀스를 서브쿼드러틱으로 처리하고, 소수의 Attention 레이어를 전략적으로 배치해 정밀 회수가 필요한 지점을 커버합니다. 설계 의도는 명확합니다. 1M 토큰 컨텍스트를 현실적인 비용으로 다루면서, 긴 작업을 수행하는 에이전트 워크로드를 겨냥하는 것입니다.
가중치를 넘어 데이터와 레시피까지 여는 오픈니스
오픈소스라는 단어는 이제 모델마다 다른 의미입니다. Llama처럼 가중치만 공개하고 라이선스로 상업 사용을 제한하는 경우도 있고, 학습 데이터나 훈련 코드는 비공개인 경우가 대부분입니다.
Nemotron 3 Ultra는 OpenMDW-1.1 라이선스로 가중치뿐 아니라 학습데이터와 훈련 레시피까지 공개합니다. 연구자가 직접 재현하거나 파인튜닝 레시피를 수정해 다른 모델에 적용할 수 있습니다. 하드웨어 친화성도 챙겼습니다. Blackwell, Hopper, Ampere 각각을 위한 NVFP4 최적화 체크포인트를 따로 제공합니다. 최신 GPU가 없어도 쓸 수 있습니다.
이 정도의 오픈니스는 Meta Llama 시리즈와 비교해도 앞서는 부분입니다. 데이터까지 열었다는 건 재현 가능성과 신뢰성 면에서 다른 레벨입니다.
미국 오픈웨이트 최강, 그런데 중국에는 뒤진다
Artificial Analysis Intelligence Index에서 Nemotron 3 Ultra는 48점으로 89개 평가 모델 중 9위입니다. 미국에서 나온 오픈웨이트 모델 중에서는 1위입니다.
그런데 중국의 Kimi K2.6은 54점입니다. 6점 차이가 작아 보이지만, 리더보드 상위에서는 격차가 큰 의미를 갖습니다. NVIDIA가 미국 오픈소스 진영 최강 모델을 내면서도, 중국 오픈모델에는 뒤처진다는 구도가 만들어졌습니다.
추론 속도에서는 다릅니다. 8K 입력 / 64K 출력 설정에서 Nemotron 3 Ultra의 처리량은 GLM-5.1 대비 5.9배, Kimi-K2.6 대비 4.8배, Qwen-3.5 대비 1.6배 높습니다. 지식 능력 수치는 뒤지더라도, 단위 시간당 처리 능력에서는 압도적입니다.
추론 효율 수치는 무엇을 의미하나
140.3 tok/s 출력 속도는 평가된 모델 중 7위입니다. TTFT(Time To First Token)는 1.33초로 응답성도 나쁘지 않습니다.
가장 주목할 수치는 AA-Omniscience 비할루시네이션 점수 78.7입니다. 비교군 중 가장 높습니다. 에이전트가 며칠을 실행하는 작업에서 모델이 환각을 일으키면, 잘못된 파일을 수정하거나 없는 API를 호출하는 오류가 쌓입니다. 긴 컨텍스트와 낮은 할루시네이션의 조합이 에이전트 워크로드에서 왜 중요한지가 여기서 드러납니다.
1M 토큰 컨텍스트도 같은 맥락입니다. 전체 코드베이스나 길이가 긴 문서 묶음을 한 번의 컨텍스트에 넣고 작업을 시킬 수 있다는 뜻입니다. 에이전트가 작업 중 컨텍스트를 잃지 않으려면 이 창이 충분히 커야 합니다.
제 생각
NVIDIA가 이 모델을 낸 맥락이 흥미롭습니다. NVIDIA는 GPU를 팝니다. 오픈소스 모델을 공개하면 누군가 그 모델을 돌리기 위해 GPU를 삽니다. 특히 에이전트 워크로드처럼 24시간 실행이 필요한 용도는 GPU 소비를 늘립니다. Nemotron 3 Ultra는 기술 공헌이기도 하지만, 에이전트 시장에서 NVIDIA 하드웨어 수요를 키우는 전략이기도 합니다.
미국-중국 오픈모델 격차는 한 번 더 생각해볼 필요가 있습니다. Intelligence Index 48 대 54라는 수치가 미국이 열세라는 신호인지, 아니면 평가 방법론의 차이를 반영하는지가 아직 불분명합니다. Kimi K2.6이 처리 속도에서 Nemotron에 크게 밀린다는 점을 감안하면, "어느 쪽이 앞서는가"는 어떤 축으로 보느냐에 따라 달라집니다.