조석주

개요

조석주(Seokju Cho)는 KAIST 김재철 AI 대학원 CVLAB에서 김승룡(Seungryong Kim) 교수의 지도를 받는 박사과정 연구원입니다. Google Scholar 기준 피인용 1,149회로, 박사과정 연구자로서는 상당한 인용 지표를 보유하고 있습니다. 밀집 대응(dense correspondence), 광학 흐름(optical flow), 포인트 추적(point tracking), 개방 어휘 분할(open-vocabulary segmentation) 분야에서 최상위 학회에 꾸준히 성과를 발표하고 있습니다.

2026년에는 NVIDIA 인식 팀과의 협업을 통해 공간 추론 에이전트 SpatialClaw를 개발하고 제1저자로 발표했습니다. 비전-언어 모델(VLM)이 코드를 행동 인터페이스로 사용하는 방식이 기존 도구 기반 접근법보다 공간 추론 성능을 크게 높인다는 핵심 가설을 정립했습니다.

Adobe Research에서도 두 차례 인턴십을 수행했으며, 산학 협력을 통해 연구 경험을 폭넓게 쌓아가고 있습니다.

생애

조석주는 연세대학교(Yonsei University) 컴퓨터과학과에서 2018년 3월부터 2022년 2월까지 학사 학위를 취득했습니다. 연세대 재학 중 컴퓨터비전에 관심을 갖게 되면서, KAIST 김승룡 교수 연구실 진학을 선택했습니다.

KAIST 입학 후 김승룡 교수 그룹에서 밀집 대응 문제를 중심으로 연구를 시작했습니다. 초기 연구에서는 시맨틱 대응(semantic correspondence)과 비용 집계(cost aggregation) 방법론을 다뤘으며, 이를 발전시켜 개방 어휘 의미 분할에 적용하는 CAT-Seg 논문을 CVPR 2024 하이라이트 논문(수락률 2.8%)으로 발표했습니다.

2023년과 2024년 두 차례 Adobe Research에서 인턴십을 수행했습니다. 각각 Gabriel Huang과 Joon-Young Lee의 멘토링을 받았으며, 이 기간 동안 포인트 추적 분야의 연구 역량을 키웠습니다. 2026년에는 NVIDIA에서 인턴십을 수행하며 SpatialClaw를 공동 개발했습니다.

업적

조석주의 주요 기여는 크게 세 축으로 구분됩니다. 첫째는 시맨틱 대응과 비용 집계 연구입니다. "Unifying Feature and Cost Aggregation with Transformers for Dense Correspondence"(ICLR 2024)에서 트랜스포머 기반 특징 및 비용 통합 방법을 제안했으며, CAT-Seg(CVPR 2024 Highlight)에서 비용 집계를 개방 어휘 의미 분할에 적용해 강력한 성능을 보였습니다.

둘째는 장거리 포인트 추적 연구입니다. FlowTrack(CVPR 2024)에서 광학 흐름을 재해석해 장거리 밀집 추적 문제를 해결하는 방법을 제안했습니다. 이후 Chrono(CVPR 2025)에서는 시간적으로 인식하는 포인트 추적 특징 백본을 설계해 장거리 시간 적응 능력을 향상시켰습니다.

셋째는 VLM 기반 공간 추론 에이전트입니다. SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning(arXiv:2606.13673, 2026)에서 코드를 행동 인터페이스로 삼는 접근법이 특정 도구를 직접 호출하는 방식보다 에이전트 성능을 크게 높인다는 것을 입증했습니다. 20개 공간 추론 벤치마크에서 평균 59.9%의 정확도를 달성해 이전 최고 에이전트보다 11.2퍼센트포인트 높은 성과를 거뒀습니다. 6개 VLM 백본(26B~397B 파라미터)에서 일관된 성능 향상이 확인되었습니다. 카메라 모션 및 다중 시점 추론 범주에서 향상 폭이 가장 크게 나타났는데, 이는 그가 쌓아온 다중 시점 기하 이해 역량이 SpatialClaw 설계에 직접 반영된 결과로 볼 수 있습니다.

여담

조석주는 연세대 학부에서 KAIST 박사과정으로, Adobe Research 인턴을 거쳐 NVIDIA 인턴으로 이어지는 경력 경로를 걟어 왔습니다. 각 단계에서 접촉한 산업 현장의 문제의식이 다음 연구 주제로 이어지는 패턴이 보입니다.

SpatialClaw 논문에서 제시한 "행동 인터페이스 설계가 도구의 종류보다 에이전트 성능을 더 크게 좌우한다"는 가설은 에이전트 연구 전반에 시사하는 바가 있습니다. 특정 도구에 묶이지 않고 범용 코드 실행 환경을 활용하는 방식이 VLM 에이전트의 유연성을 높인다는 것입니다.

SpatialClaw의 GitHub 저장소가 NVlabs 조직 아래 공개되어 있다는 점은, 이 연구가 NVIDIA 내부 프로젝트로서의 성격도 가지고 있음을 보여줍니다. 인턴십 연구가 외부 공개 프로젝트로 이어진 것입니다.

주요 논문

SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning (arXiv:2606.13673, 2026) - VLM 기반 코드 행동 인터페이스 공간 추론 에이전트, 제1저자, NVIDIA 협업
"Exploring Temporally-Aware Features for Point Tracking (Chrono)" (CVPR 2025) - 시간적 인식 특징 기반 포인트 추적
"Cross-View Completion Models are Zero-shot Correspondence Estimators" (arXiv:2412.09072, 2024) - 크로스뷰 완성 모델의 제로샷 대응 추정 활용
"Local All-Pair Correspondence for Point Tracking" (ECCV 2024) - 로컬 전체 쌍 대응 기반 포인트 추적
"FlowTrack: Revisiting Optical Flow for Long-Range Dense Tracking" (CVPR 2024) - 광학 흐름 재해석 장거리 밀집 추적
"CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation" (CVPR 2024 Highlight) - 비용 집계 기반 개방 어휘 의미 분할
"Unifying Feature and Cost Aggregation with Transformers for Dense Correspondence" (ICLR 2024) - 트랜스포머 기반 특징·비용 통합 밀집 대응
"Towards Open-Vocabulary Semantic Segmentation without Semantic Labels (PixelCLIP)" (NeurIPS 2024) - 시맨틱 레이블 없는 개방 어휘 분할
"Integrative Feature and Cost Aggregation with Transformers for Dense Correspondence" (arXiv:2209.08742) - 통합 특징·비용 집계 밀집 대응