김종욱

🏷️ 인물 멀티모달 음성 수석과학자
portrait-jong-wook-kim-imagegen.png

개요

김종욱(Jong Wook Kim)은 OpenAI의 기술 스태프(Member of Technical Staff)로, 대규모 멀티모달 딥러닝 모델 개발을 이끄는 연구자입니다. 2019년 8월 OpenAI에 합류해 GPT-2 출력 탐지, Jukebox, CLIP, Whisper 등 주요 프로젝트에 참여했습니다.

음악 정보 검색(music information retrieval) 연구로 출발해 멀티모달·음성 모델로 영역을 넓힌 독특한 이력을 가졌습니다. 논문 한두 편으로 유명한 학계 스타라기보다, 실제로 널리 쓰이는 핵심 모델을 직접 만들어 낸 실무형 연구자에 가깝습니다.

생애

뉴욕대학교(NYU)에서 후안 파블로 벨로(Juan Pablo Bello) 교수 지도 아래 음악 기술(Music Technology) 박사 학위를 받았습니다. 박사 연구는 음악 신호에서 템포·장르·멜로디·화성 등 음악적 속성을 추출하는 머신러닝으로, 자동 채보(transcription), 음원 분리(source separation), 음색 모델링 등을 다뤘습니다. 이 시기 발표한 피치 추정 모델 CREPE는 음악·음성 연구에서 널리 쓰이는 도구가 되었습니다.

박사 과정 중 Pandora(2017), Spotify(2018)에서 음악 추천·합성 인턴을 했습니다. NYU 학업 이전인 2012~2015년에는 한국에서 휴직 기간을 보냈는데, 후반부에는 카카오에서 수억 명 사용자 대상 추천 시스템을 설계·개발했습니다. 그 이전에는 NCSOFT에서도 엔지니어로 일했습니다.

업적

CLIP(Learning Transferable Visual Models From Natural Language Supervision, 2021)의 핵심 저자입니다. CLIP은 이미지와 자연어 설명 쌍을 대조 학습으로 함께 임베딩해, 별도 레이블 없이도 텍스트 프롬프트만으로 이미지를 제로샷 분류할 수 있게 한 모델입니다. 이후 텍스트-이미지 생성, 멀티모달 검색 등 거의 모든 멀티모달 시스템의 표준 사전학습 기법이 되었습니다.

Whisper(Robust Speech Recognition via Large-Scale Weak Supervision, 2022)의 저자이기도 합니다. 웹에서 수집한 68만 시간 규모의 약지도(weakly supervised) 음성-텍스트 데이터로 학습해, 별도 미세조정 없이도 다양한 언어·환경에서 강건하게 작동하는 음성 인식 모델을 만들었습니다. Whisper는 모델 가중치가 오픈소스로 공개되면서 음성 인식 생태계 전반에 큰 영향을 주었고, 수많은 자막·전사 서비스의 기반이 되었습니다.

이외에도 음악 생성 모델 Jukebox, GPT-2 생성 텍스트 탐지기 등 OpenAI 초기의 여러 프로젝트에 기여했습니다. 음악에서 출발한 신호 처리·표현 학습 경험이 멀티모달과 음성으로 자연스럽게 이어진 사례입니다.