Beyond the Current Observation - Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

🏷️ 논문 멀티모달 AI평가

S. Ding, X. Wei, X. Fang, H. Duan, D. Lin, J. Wang, and Y. Zang, "Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games," arXiv:2606.19338, 2026.

저자

Shengyuan Ding(복단대·상하이 혁신연구소), Xilin Wei(복단대), Xinyu Fang(절강대)이 공동 제1저자입니다. Haodong Duan(홍콩중문대), Dahua Lin(홍콩중문대·SAIL), Jiaqi Wang(상하이 혁신연구소), Yuhang Zang(SAIL)이 교신저자를 맡았습니다.

Haodong Duan은 MMBench와 VLMEvalKit 등 MLLM 평가 인프라를 개발해온 연구자이며, Dahua Lin은 그의 박사 지도 교수이자 SenseTime 공동 창업자입니다. RNG-Bench의 평가 하니스 역시 VLMEvalKit 위에 구축됐습니다.

배경

Go나 체스 같은 게임에서는 현재 보드 상태만 보면 최선의 수를 알 수 있습니다. 이런 게임을 마르코프 게임이라고 합니다. 현재 상태가 미래 결정을 위한 충분 통계량이 됩니다.

반면 카드 짝 맞추기 게임을 생각해봅시다. 지금 화면에 보이는 카드 배치가 같아도, 이전에 어떤 카드를 뒤집어봤느냐에 따라 다음 행동이 달라집니다. 이것이 비마르코프 게임입니다. 최적 행동이 현재 관찰만으로 결정되지 않습니다.

멀티모달 모델이 로봇 제어나 에이전트 태스크 같은 클로즈드-루프 환경에 투입될수록, 이 "이전 관찰을 기억해 행동하는" 능력이 점점 중요해집니다. 그런데 기존 벤치마크들은 세 가지 문제 중 하나에 빠집니다. (1) 전체 상태를 공개해 메모리가 필요 없거나, (2) 탐색·규칙 학습·계획 등 여러 능력을 한꺼번에 묶어 메모리 실패를 분리하지 못하거나, (3) 에피소드 종료 후 QA로만 측정해 "기억해서 대답"이지 "기억해서 행동"이 아닙니다.

RNG-Bench는 이 공백을 채웁니다.

어떻게 만들었나

RNG-Bench(Reconstructive Non-Markov Games)는 두 개의 게임으로 구성됩니다. 두 게임 모두 행동이 다음 관찰을 바꾸는 클로즈드-루프 환경입니다. 잘못된 기억이 틀린 행동으로 이어지고, 그 결과가 다음 턴의 입력을 바꿉니다.

Matching Pairs: 정적 숨겨진 상태 테스트

\(R \times C\) 격자에 \(\frac{R \times C}{2}\) 쌍의 카드가 엎어져 있습니다. 매 턴 두 장을 뒤집습니다. 일치하면 제거되고, 불일치하면 다시 엎어집니다. 비결은 이전에 잠깐 보였다가 다시 엎어진 카드의 위치와 무늬를 기억해 활용하는 것입니다. 격자 크기, 시각 패턴(ASCII·포커·노이즈), 관찰 모달리티를 독립적으로 조정할 수 있습니다.

추가로 듀얼 모드를 도입합니다. 두 모델이 같은 보드에서 번갈아 카드를 뒤집습니다. 상대가 뒤집어 보여준 카드 정보도 자신의 기억에 통합해야 최적 플레이가 가능합니다.

3D Maze: 동적 공간 상태 테스트

절차적으로 생성된 격자 미로를 1인칭 시점(egocentric view)으로 탐색합니다. 기본적으로 위에서 내려다보는 전체 지도 없이, 현재 시야에 보이는 것만 받습니다. 복도를 지나면 이전 복도는 시야에서 사라집니다. 에이전트는 매 시점의 1인칭 뷰를 누적해 미로 구조, 현재 위치, 방향, 방문한 경로를 내부적으로 유지해야 합니다.

Memory Gap 메트릭

잊어버림과 나쁜 의사결정을 분리하기 위해 오라클 조건을 도입합니다. 오라클 조건에서는 매 턴 참 숨겨진 상태(\(s_t\))를 프롬프트에 직접 주입합니다. 일반 조건 점수 \(S(m)\)과 오라클 조건 점수 \(S^*(m)\)의 차이로 Memory Gap을 정의합니다.

\[\text{MemoryGap}(m) = \left(1 - \frac{S(m)}{S^*(m)}\right) \times 100\%\]

Memory Gap이 크면 기억 실패가 주 원인, 작으면 올바른 상태에서도 행동 선택 자체가 문제라는 뜻입니다.

결과

기본 성능 (Matching Pairs 10×10, 3D Maze 13×13)

모델	MP Score%↑	MP Resp/Score↓	3D SR%↑	3D GS%↑
GPT-5.4	62.3	8.01	20.0	30.5
Gemini-3.1-Pro	50.0	10.00	50.0	49.7
Seed-2.0-Lite	43.2	11.57	20.0	21.7
Kimi-K2.5	38.0	13.16	10.0	16.1
Qwen3.5-397B	25.3	19.74	0.0	10.5

두 게임에서 순위가 다릅니다. GPT-5.4는 카드 짝 맞추기에서 압도적으로 앞서지만, 3D 미로에서는 Gemini-3.1-Pro가 성공률 50%로 1위입니다. 두 게임이 다른 종류의 숨겨진 상태를 요구하기 때문입니다. 카드는 정적·범주형 상태(어떤 카드가 어디 있었나)이고, 미로는 동적·공간적 상태(내가 어디 있고 어디를 봤나)입니다.

비교를 위한 참고값: 최적 정책은 모델 중 최강인 GPT-5.4(8.01 resp/pair)보다 약 60% 더 효율적으로 짝을 맞춥니다(3.24 resp/pair).

듀얼 모드

모델	Win%	ELO
Gemini-3.1-Pro	100	1803
GPT-5.4	50.0	1492
Qwen3.5-397B	46.7	1476
Kimi-K2.5	37.5	1423
Seed-2.0-Lite	15.6	1306

듀얼 모드에서 Gemini-3.1-Pro는 16전 전승입니다. 단독 플레이에서는 GPT-5.4에게 뒤졌지만, 상대방이 뒤집어 보여준 카드 정보를 더 잘 활용하는 것으로 보입니다.

규모가 커지면 급격히 무너짐

Qwen3.5-397B 기준으로 Matching Pairs 성능을 보면, 4×4 보드에서 90.6%이던 Score%가 12×12에서 0.7%로 급락합니다. 3D Maze도 7×7 이후부터 계속 떨어집니다. 규칙 이해 문제가 아닙니다. 숨겨진 상태의 크기가 커지면서 내부 신념 상태 유지가 무너지는 것입니다.

외부 메모리 효과

메모리 맵(Matching Pairs) 또는 미니맵(3D Maze)을 제공하면: - Matching Pairs: Qwen3.5-397B와 Kimi-K2.5 모두 Score%가 약 2배로 (MemGap 51.3, 46.1) - 3D Maze: 개선폭이 절반 수준에 그침 (MemGap 40.8, 30.9)

카드 짝 맞추기의 병목은 대부분 기억 유지에 있지만, 3D 미로는 기억 외에 공간 계획 능력 자체도 추가 한계라는 신호입니다.

텍스트 vs 이미지

Qwen3.5-397B 기준으로 Matching Pairs를 텍스트로 풀면 100%이지만, 이미지(노이즈 패턴)로 풀면 38.3%입니다. 3D Maze도 텍스트 심볼릭 모달리티가 압도적으로 높습니다. 긴 컨텍스트 자체보다 시각 인식이 더 큰 병목입니다.

액션 기록 제거하면 카드 게임이 붕괴

GPT-5.4에서 행동 이력 텍스트를 제거하고 보드 이미지만 남기면, Matching Pairs Score%가 62.3% → 15.3%(-75%)로 떨어집니다. 보드 이미지에 이전 행동의 흔적이 시각적으로 담겨 있어도, 모델은 그걸 역추적해 신념 상태를 업데이트하지 못합니다. 텍스트 행동 기록이 단순한 장식이 아니라 신념 상태 추적의 핵심 채널입니다.

SFT 전이 실험

Qwen3.5-9B를 최적 정책 롤아웃(32K) + 모델 시연 필터링(6K)으로 파인튜닝한 결과(rmix32k)를 외부 벤치마크에서 측정했습니다.

그룹	기준선	SFT	변화
메모리·공간 추론 (4개 벤치마크 평균)	30.9	34.3	+3.4
일반 멀티모달 (8개 벤치마크 평균)	77.4	77.9	+0.5

RNG-Bench 훈련이 일반 멀티모달 능력을 크게 손상시키지 않으면서 메모리·공간 추론을 향상시킵니다.

회고

저자들이 직접 밝힌 한계입니다. RNG-Bench는 두 게임 환경(카드·미로)에 집중하며, 더 넓은 게임 장르, 더 다양한 모델 패밀리, 다양한 시각 스타일로의 확장은 향후 과제로 남겨두었습니다. Memory Gap은 인과적 분해가 아닌 실용적 진단 도구로 설계되었으며, SFT 전이 실험은 단일 모델 패밀리(Qwen3.5-9B)로만 수행했습니다.

논문에서 명시하지 않은 전제도 짚어볼 수 있습니다. 모든 평가가 128K 컨텍스트 이내에서 이루어집니다. 모델이 처음부터 긴 대화 컨텍스트를 그대로 받으므로, 모델별 컨텍스트 처리 방식 차이가 점수에 영향을 줄 수 있습니다. 또 Gemini-3.1-Pro가 이미지 처리와 장문 컨텍스트 통합에서 강점을 보이는 것은 벤치마크의 특성과 맞닿아 있기도 합니다.

정리

기억해서 대답이 아닌 기억해서 행동하는 능력을 측정하는 벤치마크. 현재 관찰만으로 결정할 수 없는 Non-Markov 설정
현존 최강 MLLMs도 포화 수준과 거리가 멉니다. Gemini-3.1-Pro가 듀얼에서 16전 전승이지만 Matching Pairs 10×10에서 50%, 최적 정책 대비 평균 10배 비효율적으로 움직입니다
시각 인식과 행동 기록이 숨겨진 상태 추적의 핵심 병목으로 지목됩니다. 이미지를 보여줘도 텍스트만큼 기억이 형성되지 않습니다