MA-EgoQA - Question Answering over Egocentric Videos from Multiple Embodied Agents

🏷️ 논문 벤치마크

멀티 에이전트 시스템(MAS) 연구는 지금까지 주로 작업 분배와 실행 최적화에 집중해왔습니다. 로봇이 협력해서 물건을 옮기거나, LLM 기반 에이전트가 팀으로 환경을 탐색하는 식이죠. CoELA [1], Co-NavGPT [2], PARTNR [3] 같은 연구들이 대표적입니다. 하지만 중요한 질문이 빠져 있었습니다. 에이전트들이 뭘 했는지 물어보면 제대로 대답할 수 있는가? 라는 것이죠.

실제 시나리오를 생각해보면 이게 왜 중요한지 바로 와닿습니다. 경찰관 여러 명의 바디캠 영상에서 이상 행동을 찾거나, 가정용 로봇들에게 "마지막으로 화장실 청소한 게 언제야?"라고 묻는 상황. 이런 질의응답(QA) 능력이 없으면 멀티 에이전트 시스템은 투명하지도, 관리 가능하지도 않습니다.

기존 1인칭 영상 QA 벤치마크들은 두 가지 한계가 있었습니다.

영상 길이가 짧다 — EgoSchema는 180초, EgoMemoria는 최대 60분. 며칠간 연속 동작하는 에이전트와는 거리가 멀죠.
단일 에이전트 가정 — EgoLife 데이터셋이 7일 연속 촬영이라는 길이 제한을 깼지만, QA 벤치마크(EgoLifeQA)는 한 사람의 기억만 참조하면 답할 수 있게 설계되어 있었습니다.

MA-EgoQA는 이 두 가지를 동시에 해결합니다. 초장기(266시간) + 다중 에이전트(6명) + 교차 영상 정렬 이 세 가지를 모두 요구하는 최초의 벤치마크입니다.

MA-EgoQA 벤치마크 구성

데이터 기반

EgoLife 데이터셋 [4]을 기반으로 합니다. 6명이 공유 주택에서 카메라가 장착된 안경을 쓰고 7일간 생활하며 촬영한 1인칭 영상입니다. 에이전트당 약 44시간, 총 266시간 분량이죠.

5가지 질문 카테고리

MA-EgoQA는 다중 에이전트 환경에서만 의미 있는 5가지 카테고리로 구성됩니다. 모두 5지선다형 질문입니다.

사회적 상호작용(SI): 대화, 농담, 그룹 활동 등 비목표지향적 상호작용. "가위를 서로 찾아주고 뭘 했는지?" 같은 질문.
작업 조율(TC): 공동 목표를 향한 역할 분배와 협업. "숯불 피울 때 누가 뭘 맡았는지?"
마음 이론(ToM): 타인의 믿음, 의도, 오해 추론. "Lucia가 왜 Jake의 영상에 사람이 없다고 생각했는지?"
시간적 추론(TR): 에이전트 간 타임라인 정렬. 동시성(concurrency)과 시간 비교(comparison) 두 하위 카테고리로 나뉩니다.
환경 상호작용(EI): 공유 환경 내 객체 사용 추적. "Day 3에 전자레인지를 가장 많이 쓴 사람은?"

SI와 TC 카테고리에는 멀티스팬 질문도 포함됩니다. 여러 비연속적 시간 구간에 걸친 추론이 필요한 문제로, 진정한 장기 추론 능력을 평가합니다.

벤치마크 구축 파이프라인

데이터 생성은 카테고리 특성에 맞게 두 가지 전략을 사용합니다.

1단계: QA 생성

SI, TC, ToM → GPT-4o 기반 개방형 생성. 5분 단위 캡션/자막 윈도우를 입력으로 질문-답 쌍 생성. SI 33.4k, TC 31.6k, ToM 34.1k개의 후보 생성.
멀티스팬 → 단일스팬 질문들을 임베딩 유사도로 그룹핑한 뒤 GPT-5로 병합.
TR, EI → 사전 정의된 템플릿 기반 생성. GPT-5 사용.

2단계: LLM 필터링 (3단계 자동 필터)

Zero-shot 필터링: 맥락 없이 GPT-5가 3번 중 2번 이상 맞추면 제거 (너무 쉬운 문제)
Single Agent 필터링: 한 사람의 기억만으로 답할 수 있으면 제거 (다중 에이전트 고유성 보장)
교차 모델 검증: Gemini-2.5-Flash와 Claude Sonnet 4로 추가 검증. 어느 쪽이든 부적절하다 판단하면 제거.

3단계: 수작업 검증 4명의 검증자가 3,436개 후보에서 1,741개를 최종 선정했습니다.

이 파이프라인은 꽤 탄탄합니다. 특히 single agent 필터링으로 "사실 한 사람 기억만으로 충분한 질문"을 제거한 건 벤치마크의 정체성을 지키는 핵심적인 설계였다고 봅니다.

EgoMAS: 공유 메모리 + 동적 검색 베이스라인

EgoMAS는 학습 없이 작동하는 centralized MAS 구조입니다. 두 가지 핵심 모듈로 구성됩니다.

이벤트 기반 공유 메모리

10분마다 각 에이전트의 캡션을 수집하고, 중앙 관리자가 이를 4W1H(When, What, Where, Who, How) 구조로 통합합니다. 단순 텍스트 요약이 아니라 구조화된 이벤트 단위로 저장하는 게 포인트입니다.

이 4W1H 구조가 다른 메모리 구조(Summary, Triplet, Chunk, Graph)를 모두 상회했습니다 (Tab. 5a). Summary는 30.67%, Graph는 31.99%인데 4W1H는 35.55%.

에이전트별 동적 검색

쿼리가 들어오면 두 단계로 검색합니다.

공유 메모리에서 BM25로 top-n 검색 — 시스템 수준 맥락 확보
에이전트별 서브쿼리 생성 및 개별 검색 — 관련 에이전트의 세부 기억에서 top-k 검색. 점수 임계값(\(\tau\)) 이하는 필터링.

최종 응답은 공유 메모리 검색 결과와 에이전트별 검색 결과를 결합해서 생성합니다.

흥미로운 건 BM25라는 가벼운 키워드 기반 검색기가 7B 파라미터의 NV-Embed-v2(37.91%)에 근접하는 35.55%를 달성했다는 점입니다. 실용성 측면에서 의미 있는 결과네요.

실험 결과

베이스라인 평가

16개 베이스라인 + EgoMAS를 평가했습니다. 모델을 크게 네 가지 그룹으로 나눌 수 있습니다.

전체 캡션 연결(All Caption Concat): 모든 에이전트의 캡션을 시간순으로 이어붙여서 LLM에 입력. Gemini-2.5-Flash(1M 토큰)가 36.93%로 이 그룹 최고. 하지만 Llama-3.1-Nemotron-8B(1M 토큰)는 21.65%로 랜덤(20%)과 거의 차이 없었습니다.

전체 프레임 연결(All Frame Concat): 비디오 프레임을 이어붙여서 Video LLM에 입력. 평균 성능이 가장 낮았습니다. VideoXL-2는 20.39%로 사실상 랜덤. 자막 정보 부재 + 관련 없는 프레임 과다가 원인으로 보입니다.

RAG 기반: BM25가 36.01%로 RAG 그룹에서 가장 높았습니다. 오픈소스 비검색 모델들을 상당수 능가하면서도 입력 컨텍스트는 8.1k로 매우 짧았죠.

EgoMAS: Gemini-2.5-Flash 백본으로 41.41%, Qwen3VL-8B-Thinking으로도 **40.26%**를 기록. 같은 Gemini-2.5-Flash 백본 대비 4.48%p 향상이고, Qwen3VL-8B 수준의 작은 모델로도 Gemini 베이스라인을 넘어섰습니다.

카테고리별 분석

ToM이 가장 어렵다: 대부분의 모델이 20% 초반. EgoMAS(Gemini)도 33.62%에 그쳤습니다. 관찰 가능한 시각/텍스트 단서가 아니라 잠재적 정신 상태를 추론해야 하기 때문입니다.
멀티스팬 > 싱글스팬: SI에서 EgoMAS(Qwen3-VL-8B-Inst)는 싱글스팬 46.30% vs 멀티스팬 23.08%. 7일 영상에서 관련 이벤트 여러 개를 찾아 연결하는 건 현재 모델에게 매우 어렵습니다.
에이전트 수 증가 → 성능 하락: 정답에 2명의 에이전트가 관련되면 정확도가 높지만, 6명 모두 관련되면 급격히 떨어집니다 (Fig. 8). 다중 에이전트 지식 융합이 핵심 병목입니다.

효율성

EgoMAS(Qwen2.5VL-7B)는 쿼리당 1.3초의 지연시간으로 검색 기반 모델 중 최고 정확도를 달성했습니다. Gemini-2.5-Flash의 전체 캡션 연결 방식은 60초 이상 걸리는 반면, EgoMAS는 필요한 정보만 선택적으로 가져오니까 빠를 수밖에 없죠.

Oracle과의 격차

Oracle(질문 생성에 사용된 것과 동일한 맥락 제공) 대비 성능 차이가 큽니다. Gemini-2.5-Flash 오라클은 83.80%인데, EgoMAS(Gemini)는 41.41%. 약 42%p의 격차가 있다는 건 검색 단계에서의 개선 여지가 매우 크다는 뜻입니다.

비판적 분석

잘한 점

문제 정의가 명확하고 시의적절하다. 멀티 에이전트 시스템이 실제 배포되기 시작하면, QA 능력은 시스템 투명성과 관리의 핵심이 됩니다. 이 문제를 처음 정식으로 정의하고 벤치마크를 만든 건 의미 있습니다.
벤치마크 구축 파이프라인이 견고하다. 3단계 자동 필터링 + 수작업 검증은 벤치마크 품질을 보장하는 데 효과적입니다. 특히 단일 에이전트 필터링은 벤치마크의 고유 가치를 지키는 핵심적 설계입니다.
EgoMAS가 단순하지만 효과적이다. 학습 없이, BM25 같은 가벼운 검색만으로도 1M 토큰을 통째로 먹이는 Gemini보다 나은 성능을 보인 건 인상적입니다. "더 많은 컨텍스트 = 더 나은 성능"이라는 직관이 틀릴 수 있다는 걸 잘 보여줍니다.

한계와 의문

EgoLife 단일 데이터셋 의존. MA-EgoQA는 EgoLife에만 기반합니다. 저자들도 인정하지만, 6명이 공유 주택에서 7일 생활한 특수한 시나리오가 다른 멀티 에이전트 환경(산업 현장, 야외 탐색 등)으로 일반화될지는 검증이 필요합니다. 다만 현재 공개된 멀티 에이전트 장기 1인칭 영상 데이터셋이 EgoLife뿐이라는 점에서 불가피한 선택이었습니다.
캡션 기반 QA 생성의 한계. 질문 생성이 dense caption과 자막에 기반하므로, 캡션에 포착되지 않은 시각적 세부 사항은 질문에 반영되기 어렵습니다. 실제로 Tab. S12에서 시각 정보가 필수인 사례를 별도로 보여주는데, 이런 질문의 비중이 어느 정도인지는 명시되지 않았습니다.
텍스트 vs 비디오 활용의 불균형. EgoMAS(Text)와 EgoMAS(Text+Video)의 성능 차이가 미미합니다 (Qwen2.5VL 기준 35.55% vs 35.96%). TC와 ToM에서는 오히려 비디오 추가 시 성능이 떨어지기도 했습니다. 시각 정보를 효과적으로 활용하는 방법은 여전히 열린 문제네요.
GPT 시리즈 의존도. QA 생성(GPT-4o, GPT-5), 필터링(GPT-5), 멀티스팬 병합(GPT-5) 전 과정에서 OpenAI 모델에 크게 의존합니다. 교차 모델 검증으로 편향을 줄이려 했지만, 근본적으로 GPT의 캡션 이해 및 질문 생성 능력에 벤치마크 품질이 묶여 있습니다.

전망

MA-EgoQA가 열어놓은 방향은 명확합니다.

검색의 중요성. 오라클과의 42%p 격차는 "올바른 정보를 찾아오는 것"이 이 태스크의 핵심 병목임을 보여줍니다. 하이브리드 검색(텍스트 임베딩 + 키워드 매칭), 적응적 모달리티 선택 등이 유망한 방향입니다.

ToM 추론. 모든 모델이 마음 이론에서 고전했습니다. 관찰 가능한 행동에서 잠재적 정신 상태를 추론하는 건 현재 모델의 근본적 한계와 맞닿아 있습니다. 이 카테고리의 개선이 멀티 에이전트 이해의 핵심 지표가 될 것 같습니다.

확장성. 6명 7일도 현재 모델에게 벅찬데, 실제 배포 환경에서는 수십 대의 에이전트가 수개월간 동작할 수 있습니다. 메모리 구조와 검색 전략의 확장성 연구가 필요합니다.

이 벤치마크는 멀티 에이전트 시스템 연구의 사각지대를 짚었다고 봅니다. 에이전트가 "잘 행동하는 것"만큼이나 "자신이 뭘 했는지 설명하는 것"이 중요하다는 메시지가 연구 커뮤니티에 잘 전달되었으면 합니다.