WRING - 회전 기반 디바이어싱으로 두더지 잡기 딜레마 풀기

🏷️ 정보 머신러닝 벤치마크 headliner

ICLR 2026에서 MIT, 우스터공과대학교(Worcester Polytechnic Institute), 구글 공동 연구진이 WRING(Weighted Rotational DebiasING)이라는 새로운 편향 제거 기법을 발표했습니다. AI타임스가 5월 3일 보도한 내용을 살펴봤는데요, 기존 디바이어싱의 고질적 문제였던 "두더지 잡기 딜레마"를 회전이라는 다소 의외의 방식으로 풀어낸 게 인상적이었습니다.

핵심을 한 줄로 정리하면, 표현 공간에서 편향 정보를 잘라내는 게 아니라 방향을 바꿔서 모델이 그 차이를 못 보게 만든다는 거예요. 사후 처리(post-processing) 방식이라 이미 학습된 큰 모델에 그대로 적용할 수 있다는 점에서 실용성도 챙겼고요.

두더지 잡기 딜레마

먼저 배경부터 짚고 갑니다. CLIP 같은 비전-언어 모델에서 편향을 줄이려고 가장 많이 쓰이는 방법이 **프로젝션 디바이어싱(Projection Debiasing)**이에요. 모델의 표현 공간(representation space)에서 편향 정보가 들어 있는 특정 방향(direction)을 찾아서 그 방향을 잘라내는 방식입니다. 수학적으로는 그 방향에 대한 직교 투영을 빼는 거죠.

문제는 2023년에 공식적으로 정리된 **두더지 잡기 딜레마(Whac-a-mole dilemma)**라는 현상이에요. 한 편향을 누르면 다른 편향이 튀어나오는 상황입니다. 인종 편향을 제거했더니 성별 편향이 강해지는 식이죠. 표현 공간 안의 차원들이 서로 얽혀 있어서, 한쪽을 잡으면 다른 쪽이 튀어 오르는 구조라고 보면 됩니다.

이게 단순 변칙이 아니라 구조적 문제라는 게 점점 분명해지면서, "제거" 자체가 잘못된 프레임이 아니냐는 의문이 학계에서 나왔습니다. WRING은 그 의문에 대한 한 가지 답이라고 볼 수 있겠네요.

회전이라는 발상

WRING의 핵심은 단순합니다. 편향 정보를 잘라내지 말고, 그 정보가 담긴 좌표를 **회전(rotation)**시켜서 모델이 더 이상 그 차이를 인식하지 못하도록 만들자는 거예요.

조금 더 풀어보면, 표현 공간을 고차원 벡터 공간이라고 했을 때 보호 속성(예: 인종)을 구분하는 데 쓰이는 방향이 있다고 가정합니다. 프로젝션 방식이라면 그 방향에 직교하는 부분 공간으로 모든 임베딩을 투영해서 그 차원을 0으로 만들어버리죠. WRING은 그 방향을 가중치(weighted)로 회전시키는 변환을 적용해서, 그 방향 자체는 살아 있되 특정 집단 간 차이를 만들지 않도록 정렬합니다.

이 차이가 왜 중요하냐면, 회전은 길이와 각도를 보존하는 변환이라는 점이에요. 임베딩 사이의 코사인 유사도, 거리 관계 같은 게 회전 후에도 유지됩니다. 반면 투영은 특정 차원을 죽이기 때문에 그 차원과 얽혀 있던 다른 의미 관계도 함께 망가지죠. WRING이 "모델 구조 훼손 없이 편향만 줄인다"고 주장하는 근거가 여기 있습니다.

실험 결과와 실용성

연구진은 OpenCLIP 같은 CLIP 계열 모델에 WRING을 적용해서 검증했다고 합니다. 핵심 결과 두 가지를 정리하면:

항목	결과
목표 편향(target concept)	유의미하게 감소
비목표 영역의 편향	새로 증가하지 않음 (bias shift 해결)
모델 전반 성능	저하 없음

특히 두 번째가 중요합니다. 기존 방식의 가장 큰 약점이 한쪽을 잡으면 다른 쪽이 튀어나오는 거였는데, WRING은 그 트레이드오프 자체를 줄였다는 주장이거든요. 논문(OpenReview)에서 어떤 벤치마크와 어떤 지표로 검증했는지는 직접 확인이 필요합니다 — 기사에는 수치가 구체적으로 나오지 않았어요.

실용성 측면에서 또 하나 매력적인 건 재학습이 필요 없다는 점이에요. 사후 처리 방식이라 이미 학습된 모델에 변환만 한 번 적용하면 됩니다. 수천억 파라미터짜리 모델을 다시 학습시키는 비용을 생각하면, 추론 단계에서 가벼운 행렬 곱 한 번 추가하는 정도로 편향을 다룰 수 있다는 건 산업 적용 관점에서 큰 장점이죠.

의료 영상 같은 고위험 영역에서의 의미

기사가 든 예시가 꽤 적절합니다. 피부 병변이 암으로 발전할 위험을 판단하는 AI가 특정 피부톤 데이터로 주로 학습되면, 다른 피부톤 환자에게 오진을 낼 수 있어요. 단순 성능 저하가 아니라 환자 안전과 직결되는 문제입니다.

이런 상황에서 fairness는 윤리적 요구를 넘어 안전 요구가 됩니다. 모델 재학습 없이 사후 처리만으로 편향을 줄일 수 있다면, 이미 배포된 의료 AI 시스템도 비교적 적은 비용으로 보정할 수 있다는 뜻이거든요. 자율주행, 금융 신용평가, 공공 서비스 같은 다른 고위험 영역도 마찬가지고요.

다만 WRING이 만능은 아닙니다. 사후 처리는 학습 데이터 자체의 편향을 근본적으로 고치진 못합니다. 표현 공간에서 가리는 거지, 데이터 수집과 라벨링 단계의 불균형은 그대로 남아 있어요. 모델이 한 번도 본 적 없는 집단에 대해서는 회전을 해봐도 처음부터 표현이 빈약하니 한계가 있죠.

마무리

읽으면서 든 의문 몇 가지를 정리해봅니다.

첫째, 편향이 한 방향에 깔끔하게 모여 있다고 가정하는 것 같은데, 실제 모델에서는 편향이 여러 차원에 분산돼 있을 가능성이 높습니다. 회전으로 다중 차원에 흩어진 편향까지 다 가릴 수 있는지는 추가 검증이 필요해 보여요.

둘째, 여러 보호 속성을 동시에 다룰 때 회전들끼리 충돌하는지가 궁금합니다. 인종을 가리는 회전과 성별을 가리는 회전이 같은 부분 공간에서 부딪히면, 결국 두더지 잡기 딜레마가 형태만 바꿔서 다시 등장할 수 있거든요. 논문이 이 부분을 어떻게 다뤘는지가 핵심이라고 봅니다.

셋째, 연구진이 다음 단계로 제시한 생성형 LLM 확장이 쉽지 않을 것 같아요. CLIP 같은 모델은 입력에서 임베딩으로 가는 단방향 변환이라 임베딩 단에서 회전을 적용하기 깔끔한데, 자기회귀 LLM은 매 토큰마다 표현 공간을 거치면서 누적되니까 회전을 어디에 어떻게 끼울지 설계가 까다로워 보입니다.

넷째, fairness 평가 자체의 어려움도 그대로 남아 있습니다. WRING이 줄였다는 "편향"이 어떤 정의의 어떤 메트릭인지에 따라 결론이 달라질 수 있어요. demographic parity, equalized odds, calibration 같은 fairness 정의들이 서로 호환되지 않는다는 건 잘 알려진 결과니까, "WRING으로 편향이 줄었다"가 어떤 fairness 정의 하에서의 얘기인지를 봐야 합니다.

이 기술의 진짜 의미는 fairness 연구 담론에 "제거" 대신 "회전"이라는 다른 동사를 도입했다는 점이라고 봅니다. 기존에는 디바이어싱이라고 하면 무조건 편향 정보를 잘라내거나 지우는 방향으로 갔는데, WRING은 정보를 보존한 채로 가린다는 발상을 구체적으로 보여줬어요. 이게 다른 편향 완화 기법에도 영향을 줄 수 있겠다 싶네요.

물론 한계도 분명합니다. 사후 처리는 데이터·학습 단계의 문제를 못 고치고, 회전이 만능 트랜스폼은 아니에요. 그래도 재학습 없이 적용 가능한 실용적 옵션이 하나 늘었다는 점, 그리고 두더지 잡기 딜레마라는 오래된 골칫거리를 정면으로 건드렸다는 점에서 의미 있는 작업이라고 봅니다. ICLR 2026 발표인 만큼 후속 연구들이 어디까지 확장할지 지켜봐도 좋을 것 같네요.

원문은 OpenReview(https://openreview.net/pdf?id=tkE29O0jzF)에서 확인할 수 있고, 두더지 잡기 딜레마의 원조 논문도 함께 보면 맥락이 잘 잡힐 것 같습니다(https://arxiv.org/pdf/2212.04825).