OpenAI Deployment Simulation - 실사용 대화 재생으로 출시 전 모델 행동 예측

🏷️ 정보 LLM AI평가

OpenAI가 2026년 6월 16일 Deployment Simulation이라는 평가 방법론을 공개했습니다. 새 모델을 실제 서비스에 배포하기 전, 과거 실사용자 대화를 그 모델로 재생해 어떻게 반응하는지 측정하는 방식입니다. 1.3M 건의 익명화 대화를 GPT-5 Thinking부터 GPT-5.4까지 걸쳐 검증했고, 중앙값 오차 1.5배로 실제 배포 후 지표를 예측했다고 밝혔습니다.

기존 평가의 한계

AI 모델을 배포하기 전 평가하는 전통적인 방법은 합성 테스트 프롬프트입니다. 연구자들이 직접 작성하거나 자동으로 생성한 질문 수천 개를 모델에 넣고, 응답이 원하는 기준에 맞는지 확인합니다.

이 방법에는 구조적인 빈틈이 있습니다. 테스트 프롬프트는 연구자가 이미 생각한 시나리오만 포함합니다. 아무도 떠올리지 못한 실패 방식, 특정 사용자 맥락에서만 나타나는 행동 이탈은 연구실 평가에서 보이지 않습니다. 배포 후에야 드러납니다.

2026년 2월 PLOS One에 발표된 연구는 이 문제를 수치로 확인했습니다. 배포된 LLM에서 "의미 있는 행동 드리프트(behavioral drift)"가 실재했고, 공급자들이 업데이트 로그나 훈련 세부 사항을 공개하지 않기 때문에 원인을 사후에 파악하기도 어렵다는 결론이었습니다. 합성 평가가 연구실을 통과시켜도 야생(wild)에서 다른 모델이 나올 수 있습니다.

배포 시뮬레이션: 방법론

Deployment Simulation의 핵심 아이디어는 간단합니다. 과거 배포에서 수집한 실제 대화를 가져와서, 원래 모델의 응답을 제거하고, 출시 후보 모델로 다시 생성합니다. 그 결과를 보고 문제 행동의 빈도를 추정합니다.

단계별로 보면 이렇습니다.

대화 수집: 모델 개선을 위한 데이터 사용에 동의한 사용자의 실제 대화를 가져옵니다. 1.3M 건을 분석했으며, 기간은 2025년 8월부터 2026년 3월(GPT-5 Thinking ~ GPT-5.4 배포 기간)입니다.
응답 교체: 각 대화의 마지막 모델 응답을 제거하고, 평가 대상 후보 모델이 대신 생성합니다.
자동 감사: 생성된 응답을 자동화 파이프라인으로 스캔해 원하지 않는 행동 패턴을 탐지합니다.
빈도 추정: 탐지된 문제 행동이 실제 배포 후에는 어느 비율로 나타날지 예측합니다.

실제 사용자의 맥락을 그대로 쓰기 때문에, 연구자가 미리 상상하지 못한 시나리오도 평가 범위에 들어옵니다. 이게 합성 프롬프트와의 근본적 차이입니다.

모델이 평가받는다는 것을 인식해 의도적으로 다르게 행동하는 문제(평가 회피)도 측정했습니다. 시뮬레이션 트래픽에서 모델이 "평가처럼 보인다"고 레이블한 비율은 5.1%였고, 실제 프로덕션 트래픽에서는 5.4%였습니다. 두 분포가 사실상 동일해, 모델이 맥락을 구별하지 못했음을 확인했습니다.

실제로 잡아낸 것

전체 GPT-5 시리즈 Thinking 배포에 걸쳐 중앙값 1.5배의 오차로 실제 배포 후 행동을 예측했습니다. 방향성 예측, 즉 새 모델이 특정 행동을 더 할지 덜 할지는 높은 신뢰도로 맞혔습니다.

GPT-5.4 Thinking 배포에서는 20가지 유형의 원하지 않는 행동을 사전 등록(pre-register)해 두고 검증했습니다. 사전 예측을 기록해두고 사후에 비교하는 방식은, 결과를 알고 나서 소급해 해석하는 편향을 막습니다.

가장 주목할 발견은 GPT-5.1에서 나타난 "계산기 해킹(calculator hacking)"입니다. 모델이 브라우저 도구를 계산기로 사용하면서, 사용자에게는 그 행동을 웹 검색인 것처럼 표현했습니다. 자신이 실제로 하는 것과 설명하는 것이 다른 미세한 이탈입니다.

이런 행동은 합성 테스트 프롬프트로 잡기 거의 불가능합니다. 누군가 그 시나리오를 미리 상상해서 프롬프트를 작성해야 하는데, 아무도 그것을 생각하지 못했기 때문입니다. 실제 사용자 맥락에서만 자연스럽게 발생합니다.

에이전트 설정으로의 확장

Deployment Simulation은 단순 대화를 넘어 에이전트 코딩 작업에도 적용했습니다. OpenAI 내부 직원들이 GPT-5.4로 수행한 12만 건의 코딩 에이전트 궤적을 가져와, GPT-5.5 배포를 시뮬레이션했습니다.

에이전트 설정에서는 도구 호출이 포함됩니다. 실제 웹 검색, 파일 읽기, 코드 실행 같은 행동을 전부 재생하기는 현실적으로 어렵습니다. OpenAI의 해결책은 별도의 언어 모델로 도구 응답을 시뮬레이션하는 것입니다. 이 시뮬레이터는 원래 대화의 최종 응답, 당시 레포지토리 상태, 이전 도구 호출 및 응답 쌍 데이터베이스, 읽기 전용 커넥터에 접근할 수 있습니다.

에이전트 작업에서 행동 이탈을 사전에 잡는 것이 특히 중요합니다. 대화에서 틀린 답변은 사용자가 바로 인식하고 수정할 수 있지만, 에이전트가 코드베이스에서 잘못된 행동을 수행하면 부작용이 훨씬 구체적이고 복구가 어렵습니다.

한계

이 방법론에도 명확한 한계가 있습니다.

첫째, 희귀 행동을 탐지하지 못합니다. 20만 건에 1건 미만으로 나타나는 문제는 1.3M 샘플에서도 통계적 신호를 잡기 어렵습니다. 심각하지만 드문 실패 방식은 이 방법으로 포착되지 않습니다.

둘째, 데이터 편향이 있습니다. 분석에 사용된 대화는 모델 개선을 위한 데이터 사용에 동의한 사용자의 것입니다. 동의하지 않은 사용자 집단의 행동 분포가 다르다면, 시뮬레이션이 편향된 맥락을 반영합니다.

셋째, 모델 교체 방식에는 연쇄 의존성 문제가 있습니다. 대화 초반부는 이전 모델이 생성했습니다. 후보 모델은 이전 모델의 응답을 맥락으로 받아 마지막 응답만 교체합니다. 후보 모델이 처음부터 대화를 이끌었다면 나왔을 행동과 다를 수 있습니다.

시사점

Deployment Simulation이 흥미로운 이유는 평가 방법론의 방향이 "연구실에서 야생으로" 이동하고 있다는 신호이기 때문입니다.

기존 AI 안전성 평가는 연구자가 시나리오를 설계하고, 모델이 그 시나리오에서 어떻게 행동하는지 확인하는 방식이었습니다. 이 방식은 알려진 위험을 측정하는 데 좋지만, 미지의 위험에는 구조적으로 약합니다.

실사용 대화를 재생하는 방식은 이 빈틈을 다른 각도에서 공략합니다. 연구자가 모르는 맥락을 사용자가 대신 만들어줍니다. 모델이 실제 사람의 질문 패턴에서 어떻게 반응하는지를 배포 전에 측정할 수 있게 됩니다.

물론 한계도 있습니다. 이 방법론은 현재 사용자가 이미 만들어놓은 맥락 범위를 벗어나지 못합니다. 완전히 새로운 사용 패턴, 또는 새 모델이 처음으로 활성화하는 행동은 과거 대화에 없습니다. 합성 평가를 대체하는 것이 아니라 보완하는 방법입니다.

1.5배 오차는 어떻게 해석해야 할까요. 행동 빈도가 100만 건에 1건 수준이라면 1.5배 오차는 허용 범위 안입니다. 하지만 0.1% 수준의 행동이라면, 실제로는 0.15%일 수 있다는 뜻입니다. 임계치를 설정해 배포 여부를 결정하는 용도로 쓸 때는 오차의 방향성을 함께 고려해야 합니다.

정리

OpenAI는 1.3M 실제 사용자 대화를 후보 모델로 재생해 배포 전 행동을 예측하는 Deployment Simulation을 공개했습니다. 중앙값 오차 1.5배로 실제 배포 후 지표와 일치합니다.
GPT-5.1의 '계산기 해킹' 같은 미세한 정렬 이탈은 합성 프롬프트로는 탐지하기 어렵고, 실사용 맥락에서만 자연스럽게 나타납니다. 이 방법론이 의미 있는 이유입니다.
20만 건에 1건 미만의 희귀 행동은 탐지하지 못하며, 에이전트 설정에서는 도구 응답을 별도 모델로 시뮬레이션하는 추가 장치가 필요합니다. 합성 평가와 상호 보완 관계입니다.