Holo3.1 - Fast and Local Computer Use Agents
H Company가 2026년 6월 2일 Holo3.1을 공개했습니다. 화면을 보고 클릭하고 입력하는 컴퓨터 유즈 에이전트인데, 핵심은 이걸 클라우드가 아니라 12GB GPU가 달린 내 노트북에서 140ms 지연으로 돌린다는 점입니다. 출처는 Holo3.1: Fast & Local Computer Use Agents (Hugging Face Blog).
(아래는 초안 골격입니다. 각 섹션을 본문으로 채워 완성합니다.)
컴퓨터 유즈 에이전트가 노트북으로 내려온다
Holo3.1이 무엇인지, 브라우저와 데스크톱을 넘어 모바일까지 확장된 GUI 자동화 VLM 패밀리라는 점, 네이티브 function-calling 지원을 소개합니다.
140ms 로컬 응답은 어떻게 가능한가: UI 그라운딩과 양자화 추론
UI 그라운딩(화면 요소를 좌표로 잡아내는 능력)과 양자화 추론이 결합해 어떻게 140ms 로컬 응답을 만드는지 메커니즘을 풉니다.
OS-World와 AndroidWorld는 무엇을 재는가
OS-World 74.2%(이전 3.0의 68.1%에서 향상), AndroidWorld 35B 79.3%, 4B 72%. 이 벤치마크들이 실제로 무엇을 측정하는지, 점수의 의미와 한계를 짚습니다.
0.8B에서 35B까지, 양자화 체크포인트의 의미
0.8B부터 35B-A3B까지의 open weights 라인업과, 프로덕션급 컴퓨터 유즈 모델 중 처음으로 출하한 FP8, NVFP4, Q4 GGUF 양자화 체크포인트가 갖는 의미를 설명합니다.
온디바이스가 바꾸는 것: 프라이버시, 지연, 비용
클라우드 API에 의존하던 컴퓨터 유즈 에이전트가 온디바이스로 내려오면 프라이버시, 지연, 비용이 어떻게 바뀌는지, 그리고 "내 노트북에서 도는 컴퓨터 비서"의 현실성을 평가합니다.