김승룡
개요
김승룡(Seungryong Kim)은 KAIST 김재철AI대학원 소속 컴퓨터비전 연구자로, CVLAB(Computer Vision Lab)을 이끌고 있는 부교수입니다. 밀집 대응(dense correspondence), 시맨틱 매칭(semantic matching), 광학 흐름 추정 분야에서 다수의 연구를 발표하며 이 분야의 국내외 대표 연구자로 자리잡았습니다.
2026년에는 NVIDIA와의 공동 연구를 통해 SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning 논문에 공저자로 참여하였습니다. 카메라 기하와 3D 공간 이해에 대한 깊은 전문성이 에이전트 기반 공간 추론 설계에 이론적 기반을 제공한 사례로 주목받았습니다. Google Scholar 기준 누적 피인용 수는 수천 건에 달합니다.
대응 추정과 기하 이해에 관한 전문성이 SpatialClaw의 핵심 설계, 즉 중간 상태(마스크, 깊이 맵, 카메라 기하)를 변수로 보존하고 다음 스텝에서 재활용한다는 발상에 이론적 기반을 제공했다는 평가를 받습니다.
생애
김승룡은 국내에서 학부를 마친 뒤 컴퓨터비전과 패턴 인식 분야에서 박사 학위를 취득하였습니다. 이후 KAIST 김재철AI대학원에 부교수로 임용되어 CVLAB을 설립하고 이끌어 오고 있습니다. 대학원 설립 초기부터 밀집 대응과 시맨틱 매칭을 연구실의 핵심 주제로 삼아, 시각적 유사성에 기반한 이미지 간 정밀 매칭 문제를 지속적으로 탐구하였습니다.
연구실은 조석주 등 여러 제자를 배출하였으며, 제자들이 NVIDIA, Google 등 외부 기관과의 공동 연구를 통해 국제 학술대회에 논문을 발표하는 경우가 늘고 있습니다. 2025년에는 International Journal of Computer Vision과 IEEE Winter Conference on Applications of Computer Vision(WACV 2025)에 논문을 게재하는 등 꾸준히 연구 성과를 내고 있습니다.
SpatialClaw 연구는 KAIST CVLAB이 기하학적 시각 이해 분야에서 쌓아온 연구 역량이 에이전트 공간 추론이라는 새로운 응용 영역과 만난 결과물로 볼 수 있습니다. 카메라 모션 추론(+7.2pp), 다중 시점 추론(+9.1pp), 상대적 방향(+9.1pp)에서 기존 대비 향상 폭이 가장 크게 나타난 것은 이 팀의 배경 지식과 직결됩니다.
업적
김승룡의 핵심 기여는 시맨틱 시각 대응(semantic visual correspondence) 분야에 있습니다. 서로 다른 이미지 내에서 의미적으로 동일한 영역을 정밀하게 매칭하는 문제를 다루어 왔으며, 이 기반 기술은 3D 재구성, 이미지 편집, 로봇 비전 등 다양한 하위 응용 분야로 이어집니다. 딥러닝 기반 특징 추출과 전통적인 기하학적 제약을 결합하는 방식으로 성능을 높이는 연구들이 대표적입니다.
광학 흐름 추정 분야에서도 꾸준한 성과를 내고 있습니다. 비디오 프레임 간 픽셀 단위 움직임을 추정하는 광학 흐름은 자율주행, 동작 분석 등에 필수적인 기술로, KAIST CVLAB의 연구는 정확도와 계산 효율 모두에서 개선을 목표로 하고 있습니다.
SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning 논문에서는 비전-언어 모델(VLM)에 코드를 행동 인터페이스로 사용하는 학습 불필요 프레임워크를 제안하였습니다. 상태 유지 파이썬 커널에 입력 프레임과 지각·기하 프리미티브를 미리 로드해 두고 에이전트가 이를 재사용하는 구조로, 카메라 기하와 3D 공간 추론이 핵심 역할을 합니다.
여담
KAIST 김재철AI대학원은 2019년 설립된 비교적 새로운 기관이지만, 빠르게 국제 연구 네트워크를 구축하고 있습니다. 김승룡의 연구실이 NVIDIA 같은 기업 연구소와 공동 연구를 수행한다는 것은, 산업 현장의 실용적 요구와 학술적 탐구를 함께 추진하는 방향을 추구하고 있음을 보여줍니다.
밀집 대응 연구가 에이전트 공간 추론으로 이어지는 흐름은 자연스럽습니다. "두 이미지에서 같은 점을 찾는다"는 문제와 "에이전트가 공간을 이해하고 행동한다"는 문제는 모두 기하학적 일관성 유지를 핵심으로 합니다. 이 연결고리가 SpatialClaw 프로젝트에 KAIST CVLAB이 합류하게 된 배경입니다.
국내 AI 연구 생태계에서 컴퓨터비전 기초 연구를 지속하면서도 LLM 시대의 시각 에이전트 연구로 방향을 확장하는 사례로서, 김승룡의 연구 궤적은 기초 연구와 응용 연구 사이의 연결을 보여주는 좋은 예시입니다.
주요 논문
- CATs: Cost Aggregation Transformers for Visual Correspondence (NeurIPS 2021) — 비용 집계 트랜스포머를 활용한 시각 대응 추정
- Semantic Correspondence as an Optimal Transport Problem (CVPR 2022) — 시맨틱 대응을 최적 수송 문제로 정식화
- Probabilistic Warp Consistency for Weakly-Supervised Semantic Correspondences (CVPR 2022) — 약지도 학습 기반 확률적 대응 일관성
- SCOT: Spatial Correspondence Transfer (ECCV 2020) — 공간 대응 전이 프레임워크
- SFNet: Learning Object-aware Semantic Correspondence (CVPR 2021) — 객체 인식 기반 시맨틱 대응 학습
- FlowFormer: A Transformer Architecture for Optical Flow (ECCV 2022) — 광학 흐름 추정에 트랜스포머 적용
- SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning (2026) — 코드를 행동 인터페이스로 삼아 VLM 에이전트의 공간 추론 능력 향상