AndroidWorld

🏷️ 에이전트 AI평가

AndroidWorld는 구글이 공개한 모바일 에이전트 평가 환경입니다(arXiv:2405.14573, ICLR 2025). 완전히 동작하는 안드로이드 환경 위에서 20개 실제 앱에 걸친 116개 태스크를 실행하고, 각 태스크에 대해 보상 신호를 제공합니다.

핵심은 보상을 매기는 방식입니다. UI 변화나 LLM 심판에 기대지 않고, Android Debug Bridge(adb)로 기기의 시스템 상태를 직접 들여다봐서 목표가 실제로 달성됐는지 확인합니다. 예를 들어 "Jane에게 도착하겠다는 문자를 보내라"는 태스크라면, 해당 메시지가 실제로 발송됐을 때만 양의 보상이 나옵니다. 각 태스크에는 초기화·성공 판정·정리 로직이 따로 붙어 재현성을 보장합니다.

태스크는 자연어로 무한히 변주되도록 파라미터화돼 있어, 고정된 테스트셋을 외워서 푸는 방식이 통하지 않습니다. Contacts, Camera, Chrome, Simple Calendar 같은 일상 앱이 대상이라 데스크톱 벤치마크인 OSWorld와 함께 컴퓨터 유즈 에이전트의 모바일 역량을 재는 기준으로 쓰입니다. 본 글이 다루는 Holo3.1 - Fast and Local Computer Use Agents는 이 벤치마크에서 35B-A3B 79.3%를 기록했습니다.