TUA-Bench - A Benchmark for General-Purpose Terminal-Use Agents

🏷️ 논문 에이전트 벤치마크

S. Chen, L. Wang, X. Yang, Z. Liu, et al., "TUA-Bench: A Benchmark for General-Purpose Terminal-Use Agents," arXiv:2606.28480, 2026.

저자

Shoufa ChenLuyuan Wang이 공동 제1 저자로, 둘 다 Meta AI 소속입니다. Xuan Yang(Duke University)과 Yuanfeng Ji(Stanford University)가 외부에서 참여했고, 나머지 저자(Belinda Zeng 포함)는 Meta AI 연구팀입니다. 총 10명으로 이뤄진 팀입니다.

Shoufa Chen은 HKU 출신으로 컴퓨터비전 분야 연구를 이어온 Meta AI 연구원입니다. Belinda Zeng은 에이전트 평가 방법론 분야에서 Meta 내에서 시니어 역할을 맡고 있습니다.

이 팀이 벤치마크를 만든 배경에는 Meta에서 에이전트 시스템을 실제로 평가하려 했을 때 기존 도구가 부족하다는 직접적인 경험이 있었을 것으로 보입니다. 과학·공학 분야 태스크를 설계하는 데 생물학, 의학물리학, 건축공학, 기계공학 분야의 박사급 도메인 전문가를 외부에서 끌어들인 것이 이를 방증합니다.

배경

에이전트 평가 벤치마크는 크게 두 가지로 나뉩니다. GUI 기반 벤치마크(OSWorld, WebArena 등)와 셸 전문 벤치마크(Terminal-Bench)입니다.

GUI 벤치마크는 에이전트가 스크린샷을 해석하고 픽셀 좌표에 클릭을 매핑해야 합니다. 이는 언어 추론 능력보다 시각 인식과 좌표 조작 능력을 함께 평가하게 돼, 순수하게 "계획하고 도구를 사용하는 능력"을 측정하기 어렵습니다.

셸 전문 벤치마크는 반대편 극단에 있습니다. 소프트웨어 개발, 시스템 관리 같은 전통적으로 터미널 중심인 작업만 다루다 보니, 일반 디지털 업무(이메일 관리, 문서 편집, 웹 정보 검색)를 포함하지 못합니다.

TUA-Bench는 이 둘 사이의 공백을 채우려 합니다. GUI 없이 터미널만으로 동작하되, 코딩 외 일반 업무와 전문 과학 워크플로우까지 아우르는 범용 벤치마크입니다. Slack, GitHub, Google Cloud 같은 주요 플랫폼이 공식 CLI 도구를 제공하고, 지역사회 프로젝트들이 CLI 생태계를 넓혀가는 시점이라는 것도 타이밍 근거로 제시됩니다.

무엇으로 구성돼 있나

초기 후보 394개에서 중의적 지시, 과도하게 단순한 해법, 입력 파일과 목표 출력 불일치가 있는 태스크를 걸러내 최종 120개로 압축했습니다.

5개 태스크 패밀리:

패밀리

세부 항목

Office & Productivity

46

스프레드시트, 문서, 프레젠테이션, 이메일

Web & Information

22

공개 레퍼런스, 쇼핑, 여행, 학술 검색, 웹 아카이빙

System & SW Operations

19

앱 설치·환경 설정, OS·파일 작업, 소프트웨어 개발

Scientific & Engineering

17

엔지니어링 시뮬레이션, 의료 이미지 분석, 바이오이미지 분석

Multimedia & Design

16

이미지·비디오·오디오 편집, 다이어그램, 포맷 변환

설계 원칙: 각 태스크는 결정적(deterministic) 설정 스크립트로 환경을 초기화하고, 실행 결과물을 검사하는 자동 검증기로 완료 여부를 판정합니다. 사람이 직접 작성한 지시문이며, 에이전트가 터미널을 통해서만 상호작용합니다.

Scientific & Engineering 트랙이 눈에 띕니다. 생물학, 의학물리학, 건축공학, 기계공학 분야 박사급 전문가와 공동으로 설계한 태스크들로, 전용 소프트웨어 활용이 필요합니다. 이 구성 덕분에 TUA-Bench는 "코딩 에이전트 벤치마크"를 넘어 실제 연구자·전문가 수준의 디지털 노동을 평가할 수 있게 됩니다.

결과

평가 방식: 에이전트 5개(Terminus-2, Codex, OpenHands, Mini-SWE-Agent, Claude Code)와 모델 12개(GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro 등)를 조합해 평가했습니다. 태스크당 5회 독립 실험을 수행하고 평균 성공률을 보고합니다.

모델 비교 (Terminus-2 에이전트 고정)

모델

성공률 (%)

Pass@1

Pass@5

All-5

GPT-5.5

60.1 ± 0.6

52.3

64.2

31.7

Claude Opus 4.8

59.7 ± 1.0

53.8

62.5

42.5

Claude Opus 4.7

58.0 ± 0.8

51.0

64.2

39.2

Gemini 3.1 Pro

49.3 ± 1.8

41.2

57.5

24.2

GLM-5.1

48.1 ± 1.3

40.3

59.2

20.8

MiniMax-M3

47.0 ± 1.3

41.2

59.2

22.5

DeepSeek-V4 Pro

46.2 ± 0.8

38.0

57.5

18.3

Qwen3.7-Max

44.9 ± 0.7

37.7

57.5

21.7

Kimi K2.6

42.8 ± 1.8

35.3

55.8

18.3

Claude Sonnet 4.6

42.8 ± 0.3

34.8

49.2

20.0

GPT-5.4 mini

27.2 ± 1.4

20.0

41.7

6.7

Claude Haiku 4.5

23.9 ± 1.5

15.7

30.8

3.3

GPT-5.5(60.1%)와 Claude Opus 4.8(59.7%)의 평균 성공률 차이는 실험 간 변동(±0.6~1.0%)보다 작아 통계적으로 사실상 동률입니다. 그러나 All-5(5회 모두 성공)는 Claude Opus 4.8이 42.5%로 GPT-5.5(31.7%)를 크게 앞섭니다. 평균 점수는 비슷해도 Claude Opus 4.8의 풀이가 더 안정적임을 시사합니다.

프런티어 그룹(GPT-5.5, Claude Opus 4.x)과 중간 그룹(Gemini~Kimi) 사이에 약 9%p 격차가 있습니다. Claude 패밀리 내부에서는 Opus 4.8(59.7%) → Sonnet 4.6(42.8%) → Haiku 4.5(23.9%)로 계층이 명확하게 구분됩니다.

에이전트별 최고 성능

에이전트

최고 모델

성공률 (%)

All-5

Claude Code

Claude Opus 4.8

65.8 ± 0.7

51.7

Codex

GPT-5.5

64.7 ± 0.7

42.5

OpenHands

Claude Opus 4.8

63.4 ± 0.6

45.0

Mini-SWE-Agent

GPT-5.5

62.4 ± 0.8

40.0

Terminus-2

GPT-5.5

60.1 ± 0.6

31.7

Claude Code + Opus 4.8이 65.8%로 1위이지만, 상위 5개 에이전트 간 격차는 5.7%p 이내로 좁습니다. 강한 프런티어 모델이라면 에이전트 구현 방식에 관계없이 비슷한 성능이 나온다는 의미입니다.

카테고리별 특성

카테고리마다 난이도 편차가 큽니다. System & SW Operations은 모든 모델이 높은 성공률로 밀집돼 있어 비교적 수월한 편입니다. 반면 Office(n=46)와 Multimedia(n=16)는 대부분의 모델이 45% 미만으로 떨어지고, 가장 강한 모델도 50% 중반대에 그칩니다.

흥미로운 패턴도 있습니다. Claude Opus 4.8은 Web & Info에서 압도적으로 앞서지만, 다른 카테고리에서는 중간 정도에 머뭅니다. GPT-5.5는 전 카테고리에서 고르게 높은 순위를 유지합니다.

실행 시간 예산의 영향: Terminus-2 + GPT-5.5에서 태스크당 시간 제한을 150초에서 2400초로 늘리자 성공률이 33.0%에서 60.1%로 27.1%p 상승했습니다. 짧은 제한에서 실패한 많은 케이스가 근본적인 추론 실패가 아니라 시간 초과 때문이었다는 뜻입니다. 에이전트가 올바른 방향으로 가고 있었지만 완료 전에 끊겼을 가능성이 높습니다.

회고

저자들은 TUA-Bench의 한계를 솔직하게 나열합니다.

첫째, 터미널 접근을 지원하지 않는 애플리케이션은 평가 대상에서 제외됩니다. CLI 도구가 점점 확대되는 추세이므로 이 한계는 시간이 지나면서 줄어들겠지만, 현재로서는 일부 워크플로우를 표현할 수 없습니다.

둘째, 과학·전문 트랙은 제한된 도메인 샘플에 불과합니다. 생물학, 의학물리학, 건축공학, 기계공학 4개 분야만 커버합니다.

셋째, 태스크 설명이 영어 전용입니다. 다국어 에이전트 역량 평가에는 활용이 제한됩니다.

넷째, 공개 배포 이후 향후 모델 학습 데이터에 태스크가 포함될 수 있어 주기적인 벤치마크 갱신이 필요합니다. 고정된 헤드리스 도구 버전을 유지하는 컨테이너 관리도 지속적인 운영 부담입니다.

한 가지 더 짚을 점이 있습니다. Task-level heatmap(Figure 7)에 따르면 카테고리 내에서도 태스크마다 성공률 편차가 큽니다. 카테고리 평균이 적당한 수치를 보여도, 그 안에 "모든 모델이 쉽게 푸는 태스크"와 "거의 모든 모델이 실패하는 태스크"가 섞여 있습니다. 벤치마크 점수가 오르려면 평균적인 카테고리 능력을 높이는 것 이상으로, 지금 모든 모델이 막히는 특정 태스크들을 해결해야 합니다.

정리