AOHP - An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction

🏷️ 논문 에이전트 오픈소스

S. Zhao, J. Liu, G. Liu, J. Yan, J. Ye, Y. Yang, H. Wen, S. Tian, Y. Yuan, Y. Chen, Y. Liu, J. Ren, Y.-Q. Zhang, C. Huang, Y. Guo, and Y. Li, "AOHP: An Open-Source OS-Level Agent Harness for Personalized, Efficient and Secure Interaction," arXiv:2606.23449, 2026.

저자

칭화대와 베이징대 공동 팀입니다. 공동 1저자는 Shanhui Zhao, Jiacheng Liu, Guohong Liu 세 명이고, 교신 저자는 Yunxin LiuYuanchun Li입니다.

두 교신 저자는 모두 Ya-Qin Zhang 원장이 이끄는 칭화대 인공지능산업연구원(AIR) 소속입니다. Yuanchun Li는 DroidBot과 AutoDroid를 만든 모바일 에이전트 전문가로, 이번 논문은 그가 지난 수년간 쌓아온 모바일 자동화 연구의 연장선에 있습니다. Yunxin Liu는 에지·모바일 컴퓨팅 시스템 전문가로, 두 저자가 각자의 강점인 "에이전트 정책"과 "시스템 설계"를 합쳤다는 구도입니다.

배경

현재 스마트폰 OS는 앱 중심으로 설계되어 있습니다. 갤러리, 연락처, 캘린더, 브라우저는 각각의 개발사가 UI를 고정합니다. 사용자는 앱이 제시하는 화면 순서대로 따라가는 구조입니다.

AI 에이전트가 이 환경에서 돌아가면 문제가 생깁니다. 에이전트는 픽셀이 아니라 구조화된 텍스트를 더 효율적으로 처리하고, 여러 태스크를 병렬로 실행하며, 앱 경계를 넘나드는 긴 작업 흐름을 처리해야 합니다. 하지만 기존 Android는 에이전트를 위한 추상화가 없어서 화면 계층 탐색, 스크롤, 반복 탭으로 모든 작업을 처리합니다. 이는 토큰을 낭비하고 실행 시간을 늘리며, 민감 데이터(결제 정보, 주소)가 에이전트 컨텍스트에 그대로 노출되는 보안 문제도 낳습니다.

AOHP(Android Open Harness Project)는 이 불일치를 OS 수준에서 해결하는 연구입니다. 새 OS를 만드는 대신 AOSP 위에서 에이전트를 1급 OS 엔티티로 다루는 하네스를 구축합니다. 안드로이드 앱 생태계와 하드웨어 지원은 그대로 유지하면서, 에이전트가 필요로 하는 세 가지 기능을 OS 레이어에 추가합니다.

구조

AOHP는 수직으로 4개 레이어, 수평으로 2개 크로스레이어 메커니즘으로 구성됩니다.

aohp-architecture.png

수직 레이어: - 하단: Android 생태계(기존 앱, 시스템 서비스, 하드웨어 그대로 유지) - 통합 인터랙션 인터페이스: API, CLI, Structured UI, Rendered GUI 네 가지 호출 모드를 통일 - AOHP 역량 레이어: 시스템 메모리(선호도·태스크 상태 저장), 스킬(재사용 실행 루틴), UI 유틸리티 - 상단: 개인화된 서비스 컴포지션(사용자 의도에 맞게 생성된 태스크 레벨 인터페이스)

수평 메커니즘 2개: - 효율적 에이전트 인터페이스: 병렬 백그라운드 실행, 구조화된 UI, 이벤트 스트림 - 보안 정보 흐름: 민감 데이터 샌드박스화, 오염 추적(taint tracking)

개인화된 서비스 컴포지션

앱 개발자가 미리 설계한 인터페이스 대신, 에이전트가 사용자 의도에 맞게 서비스 진입점을 합성합니다. 예를 들어 "여러 쇼핑몰에서 상품을 비교해줘"라는 요청이 들어오면, OS가 A 쇼핑앱의 검색 API, B 쇼핑앱의 가격 비교 GUI, 배송 정보를 하나의 태스크 레벨 인터페이스로 조합합니다. 사용자는 앱 간 전환 없이 "쇼핑"이라는 개념으로 OS와 대화합니다.

이 개인화는 앱 경계를 넘습니다. A 쇼핑앱에서 학습한 "선호하는 배송 시간"이 B 쇼핑앱 사용 시에도 적용됩니다. 각 앱의 개인 데이터 모델에 의존하지 않고 OS가 메모리를 중재합니다.

효율적 에이전트 인터페이스

에이전트 실행 경로를 다섯 가지로 효율화합니다.

병렬 백그라운드 인터랙션: 기존 Android는 앱 생명주기를 물리 화면과 연결합니다. AOHP는 경량 가상 디스플레이로 화면과 실행을 분리해, 대기 시간이 많거나 독립적인 작업을 포그라운드 방해 없이 백그라운드에서 실행합니다.

에이전트 인식 UI 향상: 기존 GUI에는 에이전트 추론에 불필요한 렌더링 세부 정보가 많습니다. AOHP는 GUI를 중복이 적고 의미론적으로 풍부한 구조화된 표현으로 추상화합니다. 필요할 때만 렌더드 GUI 폴백을 씁니다.

네이티브 샌드박스 런타임: 앱 인터페이스가 없는 코드 실행, 데이터 변환, 장기 실행 서비스를 위한 OS 관리 샌드박스입니다. 에이전트 컨텍스트를 오염시키지 않고 중간 결과를 처리합니다.

통합 파일 단축: 앱 간 파일 공유 시 에이전트가 안정적인 OS 레벨 파일 관측값을 얻습니다. GUI 상호작용으로 생성된 파일 변화가 구조화된 관측으로 반영되어, 스크린샷에서 경로를 추론할 필요가 없습니다.

이벤트 스트림 추상화: 토스트 메시지, 팝업, 푸시 알림 같은 일시적 이벤트를 버퍼링합니다. 센서 스트리밍도 지원해 에이전트가 반복 폴링 없이 실시간 환경 상태를 인식합니다.

보안 정보 흐름

민감 데이터를 에이전트 컨텍스트에서 숨기는 방식입니다. 전통적인 앱 권한 모델은 앱 경계에서만 작동하지만, 에이전트는 앱-도구-메모리-서비스 경계를 모두 넘나들므로 한계가 있습니다.

AOHP는 민감 소스(결제 카드, 주소 등)를 <payment-card:uuid> 같은 타입 있는 플레이스홀더로 대체합니다. 에이전트는 이 플레이스홀더로만 작동하고 실제 값은 볼 수 없습니다. 에이전트가 민감 값을 실제로 사용해야 할 때는 신뢰 볼트 실행자가 정책 확인, 사용자 승인, 값 대입을 처리합니다. 오염 추적(taint tracking)이 이 플레이스홀더가 어느 태스크 단계에서 어떤 싱크에 도달했는지 감사 경로를 제공합니다. TaintDroid 계보의 모바일 오염 추적을 에이전트 환경으로 확장한 설계입니다.

결과

평가에는 30개의 실제 모바일 태스크와 OpenClaw 에이전트를 사용했습니다. 태스크는 GUI 조작, 비-GUI 조작, 이벤트 캡처, 멀티소스 정보 검색, 메모리 관리, 그리고 이를 조합한 하이브리드 6개 카테고리로 구성됩니다.

기능 완료율

설정

완전 완료

부분 완료

완료율

OpenClaw on stock Android

13개

7개

54.44%

OpenClaw on AOHP

20개

5개

75.56%

AOHP가 완료율을 +21.12%p 높이고 7개 태스크를 추가로 완전히 해결합니다. 개선이 집중된 구간은 일시적 알림 처리, 세밀한 인앱 GUI 조작, 다단계 크로스앱·메모리 의존 워크플로입니다.

실행 비용 (공통 완료 태스크 11개 기준)

두 설정이 모두 완료한 11개 태스크에서 비용을 비교합니다.

지표

Stock Android

AOHP

절감률

툴 호출 수

233

129

-44.64%

실행 시간 (분)

33.94

18.93

-44.21%

총 토큰

7,103,192

3,441,759

-51.55%

LLM 요청 수

273

143

-47.62%

구조화된 UI와 이벤트 스트림이 화면 계층 탐색 단계를 줄이고, 각 단계에서 더 컴팩트한 관측값을 반환하기 때문에 컨텍스트 누적도 줄어듭니다. 결과적으로 프롬프트 길이와 LLM 라운드트립이 함께 줄어드는 구조입니다.

보안

결제 앱을 대상으로 소스 살균(source sanitization), 싱크 중재, 볼트 토큰 사용, 오염 전파, 파일·이벤트 처리, fail-closed 동작을 검사했습니다. 설계된 5개 케이스 모두 통과했습니다.

회고

논문 자체가 "예비 실험(preliminary experiments)"이라고 명시합니다.

평가 범위의 한계: 비교 대상이 stock Android 하나뿐이고, 다른 에이전트 프레임워크(OS-Copilot, Agent S 등)와의 비교가 없습니다. 30개 태스크도 저자들이 직접 설계했습니다.

OpenClaw 의존: 평가에 사용한 OpenClaw 에이전트 역시 해당 연구실에서 만든 도구입니다. 제3자 에이전트에서도 같은 수준의 개선이 나타날지는 확인되지 않았습니다.

커버리지 한계: 커스텀 렌더링이나 안티-자동화 로직을 사용하는 앱, 미주석 앱의 역량 탐색, 배경 실행의 모바일 리소스 관리는 모두 미래 과제로 남겨져 있습니다.

보안 평가 범위: 보안 테스트는 저자가 직접 주석을 단 하나의 결제 앱을 대상으로 합니다. 주석이 없는 앱에서 보수적 탐지 규칙이 얼마나 넓은 커버리지를 달성하는지는 평가되지 않았습니다.

정리