GPT-5.4 분석
OpenAI가 3월 5일 GPT-5.4를 출시했습니다. 버전 번호만 보면 점진적 업데이트처럼 보이지만, 이번엔 결이 다릅니다. 일반 목적 모델로는 처음으로 네이티브 컴퓨터 사용 능력을 탑재했습니다.
컴퓨터 사용 능력이 네이티브라는 것의 의미
이전까지 AI의 컴퓨터 조작은 별도의 파이프라인이 필요했습니다. 스크린샷을 찍고, 비전 모델이 분석하고, 명령을 생성하는 구조. 각 단계마다 오류가 쌓였습니다.
GPT-5.4는 이 구조를 모델 안으로 끌어왔습니다. 스크린샷에 응답해 마우스·키보드 명령을 직접 생성하고, Playwright 같은 라이브러리로 코드를 작성해 브라우저를 조작합니다. 별도의 컴퓨터 사용 전용 모델 없이, 텍스트를 쓰는 것과 같은 모델이 같은 추론 흐름에서 컴퓨터를 씁니다.
OSWorld 벤치마크 결과가 이를 수치로 보여줍니다.
평가 |
GPT-5.4 |
인간 전문가 |
|---|---|---|
OSWorld (컴퓨터 사용) |
75% |
72.4% |
GDPval (지식 업무) |
83% |
— |
SWE-bench Pro (코딩) |
57.7% |
— |
BigLaw Bench (법무) |
91% |
— |
OSWorld에서 인간 전문가 기준선을 넘었습니다. "능가"라고 부르기 조심스럽지만, 특정 컴퓨터 조작 과제에서 평균 전문가보다 더 잘한다는 뜻입니다.
1M 토큰 컨텍스트의 실용적 의미
GPT-5.4는 API에서 1M 토큰 컨텍스트를 공식 지원합니다. 긴 컨텍스트 자체는 이제 업계 표준이 되어가고 있습니다. 다만 여기서 의미 있는 부분은 컴퓨터 사용 능력과의 조합입니다.
에이전트가 오랜 시간 동안 복잡한 작업을 수행하면, 이전에 뭘 했는지를 기억해야 합니다. 1M 토큰은 수백 번의 도구 호출과 화면 관찰을 한 컨텍스트 안에 담을 수 있다는 뜻입니다. 멀티스텝 자율 작업의 실용적 한계가 여기서 크게 달라집니다.
"에이전트"라는 단어가 다시 흔들린다
이전에 이 블로그에서 썼습니다. Copilot이 에이전틱이라고 불리지만 실제로는 더 복잡한 자동화에 불과하다고. 진짜 에이전틱 AI는 목표를 받고, 스스로 계획하고, 실패 시 방법을 바꾸는 것이라고.
GPT-5.4의 컴퓨터 사용 능력은 이 경계를 다시 테스트합니다. 브라우저를 직접 조작하고, 웹 앱에서 폼을 채우고, 결과를 확인하고, 다음 단계를 결정하는 루프. 이건 단순 자동화와 다릅니다. 환경을 관찰하고 행동하는 구조이기 때문입니다.
물론 여전히 질문은 남습니다. 계획이 실패했을 때 얼마나 유연하게 방향을 바꾸는가. OSWorld 75%는 25%는 실패한다는 뜻이기도 합니다.
변종 모델 구성
GPT-5.4는 단일 모델이 아닙니다.
- GPT-5.4: 기본 버전. ChatGPT Plus 이상 접근 가능
- GPT-5.4 Thinking: 추론 전 내부 사고 단계 포함
- GPT-5.4 Pro: 최대 성능, 고비용
- GPT-5.4 mini: 3월 17일 출시. 무료 티어 제공
- GPT-5.4 nano: API 전용, 최경량
mini와 nano의 존재가 흥미롭습니다. 컴퓨터 사용 능력이 경량 모델까지 내려오면, 에이전트 구축 비용이 크게 낮아집니다. 아직 mini/nano의 OSWorld 점수는 공개되지 않았습니다.
한계와 전망
OSWorld 75%는 인상적이지만 실제 작업 환경은 벤치마크보다 복잡합니다. 기업 내부 시스템, 예상치 못한 UI, 접근 권한 문제. 벤치마크 환경과 프로덕션 환경 사이의 37% 갭은 어느 모델에나 적용됩니다.
보안 관점에서도 고민이 필요합니다. 컴퓨터를 직접 조작하는 에이전트는 잘못된 명령 한 번이 실제 피해로 이어집니다. 에이전트에 얼마나 많은 권한을 줄 것인가, 중간 확인 단계를 어떻게 설계할 것인가 — 이건 모델 성능보다 배포 아키텍처의 문제입니다.
GPT-5.4가 보여준 건 "일반 모델이 컴퓨터를 쓸 수 있는 시대가 시작됐다"는 것입니다. 그 시대를 어떻게 쓸 것인지는 별개의 질문이네요.
참고: - Introducing GPT-5.4 | OpenAI - GPT-5.4 Benchmarks 2026 | BenchLM.ai