MiniMax M3 - 오픈웨이트 프런티어 모델

🏷️ 정보 Headliner LLM 오픈소스 멀티모달

MiniMax가 2026년 6월 1일 공개한 오픈웨이트 모델 MiniMax M3는 세 가지를 한 아키텍처에 담았다고 말합니다. 프런티어급 코딩, 1M 토큰 컨텍스트, 그리고 이미지와 비디오까지 받는 네이티브 멀티모달입니다.

그런데 발표 자료에서 진짜 눈여겨볼 건 이 조합 자체보다, 1M 컨텍스트에서 토큰당 연산을 이전 세대의 \(1/20\) 수준으로 줄였다는 새 어텐션 구조입니다. MiniMax는 이걸 MSA(MiniMax Sparse Attention)라고 부릅니다. 그리고 발표 시점에 한 가지 더 챙겨야 할 게 있습니다. 6월 1일 시점에는 가중치도 기술 리포트도 아직 안 나왔고, 모든 벤치마크 숫자가 MiniMax가 자기 인프라에서 직접 측정한 값이라는 점입니다. 이 글은 그 둘을 같이 봅니다.

MSA가 컨텍스트 비용을 줄이는 법

긴 컨텍스트가 비싼 이유는 표준 어텐션이 모든 토큰을 서로 다 보기 때문입니다. 시퀀스 길이 \(N\)에 대해 연산이 \(O(N^2)\)로 늘어나니, 1M 토큰이면 토큰 하나를 처리할 때마다 100만 개의 키-값을 전부 훑어야 합니다.

MSA는 여기서 "모든 KV를 보지 말고, 쓸 만한 블록만 골라서 보자"로 바꿉니다. 동작은 두 단계입니다. 먼저 가벼운 인덱스 분기가 GQA 그룹마다 공유하는 단일 키 헤드로 \(Q_{\text{idx}} \cdot K_{\text{idx}}^{\top}\)를 계산해 토큰별 점수를 거의 공짜로 뽑습니다. 그다음 이 점수를 약 64토큰짜리 블록 단위로 Block Max Pool해서 모으고, TopK로 각 쿼리 그룹이 실제로 볼 KV 블록을 추립니다. 같은 GQA 그룹의 쿼리들이 동일한 블록 선택을 공유하기 때문에, 한 번에 한 세트의 KV 블록만 SRAM에 올려 처리합니다.

minimax-m3-msa-arch.png

MiniMax가 공개한 MSA 구조도가 이 두 단계를 그대로 보여줍니다. 위쪽 인덱스 분기에서 Block Max Pool과 TopK로 어떤 KV 블록을 볼지 고르고, 아래쪽에서 그 선택된 블록 위에서만 어텐션을 계산해 출력으로 합칩니다.

핵심은 어텐션 자체는 원본 K/V 위에서 그대로 돈다는 점입니다. 압축된 KV로 근사하는 방식(CSA)과 달리 softmax 어텐션의 표현력을 그대로 두고, 대신 각 쿼리가 보는 블록 수를 줄여 메모리 대역폭 압력을 한 자릿수 가까이 떨어뜨립니다. DeepSeek의 DSA가 MLA latent 위에서 토큰 단위로 고르는 것과 달리 MSA는 표준 GQA로 돌아와 블록 단위로 고르고, NSA가 압축·선택·슬라이딩윈도우 세 분기를 두는 것과 달리 선택 분기 하나만 남깁니다.

MiniMax가 보고한 가속은 다음과 같습니다.

구간

M3(MSA) 대비

기준

1M 컨텍스트 토큰당 연산

\(1/20\)

이전 세대 모델

prefill

\(9\times\) 이상

이전 세대 모델

decoding

\(15\times\) 이상

이전 세대 모델

처리 속도

\(4\times\) 이상

Flash-Sparse-Attention, flash-moba

1M 컨텍스트에서 decode가 \(15.6\times\) 빨라진다는 수치를 64토큰 블록 가정으로 역산하면, 쿼리가 실제로 건드리는 블록은 전체의 6~7% 정도입니다. 유효 수용 영역이 6만~7만 토큰쯤 된다는 뜻이고, 이는 NSA 계열에서 보고된 희소도와 비슷한 수준입니다. 흥미로운 건 MiniMax가 이 희소 어텐션을 M2 세대에서 한 번 접었다가 M3에서 다시 꺼냈다는 점입니다.

왜 지금 이 조합인가

오픈웨이트, 롱컨텍스트, 멀티모달은 따로 보면 새롭지 않습니다. 셋이 한 모델에 같이 와야 의미가 생기는 건 에이전트 때문입니다.

코딩 에이전트나 컴퓨터 사용(computer-use) 에이전트는 한 작업을 끝내는 동안 레포 전체, 긴 실행 로그, 여러 번의 도구 호출 기록을 컨텍스트에 계속 쌓습니다. 1M 컨텍스트는 이 누적 기억을 한 번에 담기 위한 것이고, MSA는 그 긴 컨텍스트를 돌릴 때 비용이 폭발하지 않게 받쳐주는 장치입니다. 네이티브 멀티모달은 화면 스크린샷과 문서를 그대로 입력으로 받아 컴퓨터를 조작하기 위한 것입니다. M3는 이미지·비디오 입력과 데스크톱 조작을 함께 내세웁니다. 학습 단계부터 텍스트-이미지 인터리브 시퀀스로 100조 토큰 규모의 혼합 모달리티 학습을 했다고 밝혔습니다.

오픈웨이트는 이 모든 걸 자기 클러스터에서 돌리겠다는 선택지를 줍니다. 에이전트가 사내 코드와 화면을 통째로 컨텍스트에 넣는 상황에서 자체 호스팅 가능 여부는 실제 도입 결정을 가르는 조건이 됩니다. M3가 이 셋을 한 번에 묶어 "첫 오픈웨이트 프런티어"를 자처하는 이유입니다.

다만 발표 시점 기준으로 파라미터 수는 공개되지 않았습니다. 직전 M2가 총 \(229.9\)B 파라미터에 토큰당 \(9.8\)B를 활성화하는 MoE였다는 정도가 비교 기준으로 남아 있고, M3의 정확한 총/활성 파라미터는 기술 리포트를 기다려야 합니다.

벤치마크 숫자를 어떻게 읽을 것인가

MiniMax는 코딩과 에이전트 벤치마크에서 강한 숫자를 제시했습니다. SWE-Bench Pro \(59.0\)%로 GPT-5.5와 Gemini 3.1 Pro를 앞섰다고 보고했습니다. 다만 이 숫자들을 읽을 때 두 가지를 같이 봐야 합니다.

첫째, 모든 수치가 MiniMax 자체 인프라에서, 자사가 고른 에이전트 스캐폴딩으로 측정한 값입니다. 발표 시점에 Artificial Analysis나 LMArena 같은 독립 third-party 점수는 공개되지 않았습니다.

둘째, MiniMax가 비교 기준으로 삼은 모델이 Claude Opus 4.7입니다. 더 최근에 나온 Opus 4.8을 기준으로 두면 격차가 다시 벌어집니다.

벤치마크

M3(자체 측정)

Opus 4.8

SWE-Bench Pro

59.0

69.2

Terminal-Bench 2.1

66.0

74.6

OSWorld-Verified

70.0

83.4

BrowseComp

83.5

-

M3가 GPT-5.5·Gemini 3.1 Pro를 앞섰다는 발표는 비교 대상을 Opus 4.7에 맞춘 결과이고, 현재 프런티어 천장인 Opus 4.8을 기준으로 보면 SWE-Bench Pro에서 10점 넘게, OSWorld에서는 13점가량 뒤집니다. 그렇다고 M3가 평범하다는 뜻은 아닙니다. 오픈웨이트로 풀리는 모델이 독점 프런티어에 한 자릿수~십수 점 차이까지 따라붙었고, 발표대로면 비용은 그 5~10% 수준이라는 점이 핵심입니다. 숫자 한 줄로 "프런티어 추월"을 받아들이기보다, 검증되지 않은 자체 측정값이라는 단서와 가격·오픈웨이트라는 강점을 같이 놓고 보는 게 맞습니다.

정리