아비셰크 바드키
개요
아비셰크 바드키(Abhishek Badki)는 NVIDIA Learning and Perception Research(LPR) 팀의 수석 연구 과학자(Senior Research Scientist)입니다. 자율주행 차량과 로봇을 위한 저수준 시각 인식 기술을 전문으로 하며, 스테레오 깊이 추정, 광학 흐름, 물체 자세 추정, 3D 형상 복원, 그리고 최근에는 단안 비디오 기반 4D 인식 통합 아키텍처 연구를 이어오고 있습니다.
캘리포니아 대학교 샌타바버라(UC Santa Barbara) 출신이며, CVPR 2020 우수 학생 논문 가작(Honorable Mention)을 수상한 Bi3D 연구로 스테레오 깊이 추정 분야에서 주목받았습니다. 이후 L4P, SpatialClaw 등으로 연구 범위를 4D 시공간 인식 및 에이전틱 공간 추론으로 확장하고 있습니다.
2026년 현재 NVIDIA LPR 팀 내에서 저수준 인식과 공간 에이전트를 잇는 핵심 연구자로 활동 중입니다.
생애
아비셰크 바드키는 캘리포니아 대학교 샌타바버라에서 컴퓨터과학 박사 학위를 받았습니다. 박사과정에서 스테레오 매칭과 깊이 추정 문제에 집중했으며, 졸업 후 NVIDIA LPR 팀에 합류했습니다.
NVIDIA 재직 중 Bi3D 연구를 IEEE CVPR 2020에서 발표해 우수 학생 논문 가작을 수상했습니다. 이 시기를 거치며 스테레오 깊이 추정에 머물지 않고 광학 흐름, 물체 자세, 모션 분할까지 단일 아키텍처로 통합하는 방향으로 연구를 확장했습니다. 현재는 수석 연구 과학자 직함으로 LPR 팀에서 지각 모델 설계를 주도하고 있습니다.
2025년에는 L4P(Low-Level 4D Vision Perception Unified)를 발표했고, 2026년에 3DV 구술 발표(Oral)로 채택되는 성과를 거두었습니다. 같은 해 SpatialClaw 프로젝트에 공동 저자로 참여해 에이전틱 공간 추론 분야에도 발을 내딛었습니다.
업적
바드키의 첫 번째 핵심 기여는 Bi3D입니다. 깊이 추정 문제를 회귀(regression) 대신 이진 분류(binary classification) 시리즈로 재구성해, "이 물체가 깊이 D보다 가까운가 먼가"라는 질문을 반복함으로써 깊이를 점진적으로 결정합니다. 이 방식은 계산 예산에 따라 정확도-지연 시간 트레이드오프를 동적으로 조절할 수 있다는 유연성이 특징입니다. IEEE CVPR 2020에서 우수 학생 논문 가작을 수상했습니다.
두 번째 주요 업적은 L4P(Low-Level 4D Vision Perception Unified)입니다. 사전 훈련된 ViT 기반 비디오 인코더 백본에 태스크별 경량 헤드를 결합해, 단안 비디오 하나로 깊이, 광학 흐름, 2D/3D 포인트 트래킹, 동적 모션 분할, 카메라 자세 추정을 동시에 예측합니다. 전문화된 개별 모델과 동등하거나 더 뛰어난 성능을 피드포워드 방식으로 달성했으며, 3DV 2026에서 구술 발표로 채택되었습니다.
세 번째 기여는 SpatialClaw 프레임워크 공동 설계입니다. 코드를 행동 인터페이스로 삼아 VLM 기반 에이전트가 지속 Jupyter 커널에 Python 셀을 단계별로 작성하는 방식으로 공간 추론을 수행합니다. 20개 공간 추론 벤치마크에서 평균 59.9% 정확도를 기록해 기존 공간 에이전트 최고치 대비 +11.2%p를 달성했습니다. 바드키는 이 프레임워크의 핵심 인식 도구인 SAM3(3D 분할)와 DA3(깊이 인식) 설계 및 통합을 담당했습니다.
여담
아비셰크 바드키의 연구 흐름은 "저수준 인식 도구를 어떻게 에이전트 수준의 추론과 연결하는가"라는 질문을 일관되게 따라갑니다. Bi3D에서 이진 분류로 깊이를 다루고, L4P에서 여러 저수준 태스크를 통합하고, SpatialClaw에서 그 인식 결과를 에이전트의 행동 인터페이스로 연결하는 흐름이 이어집니다.
SpatialClaw의 persistent Python kernel 설계는 바드키가 오랫동안 다뤄온 scipy, numpy 연산과 저수준 인식 파이프라인을 자연스럽게 결합할 수 있는 환경을 상정한 결과로, 연구자 본인의 실무 경험이 아키텍처 설계에 직접 반영된 사례입니다.
주요 논문
- Bi3D: Stereo Depth Estimation via Binary Classifications (CVPR 2020, 우수 학생 논문 가작) - 스테레오 깊이 추정을 이진 분류 시리즈로 재구성해 정확도-지연 시간 트레이드오프를 동적 조절 가능하게 함.
- L4P: Low-Level 4D Vision Perception Unified (3DV 2026 Oral) - 단안 비디오에서 깊이, 광학 흐름, 트래킹, 모션 분할, 카메라 자세를 단일 ViT 백본으로 통합 예측.
- SpatialClaw - Rethinking Action Interface for Agentic Spatial Reasoning - 코드를 행동 인터페이스로 삼는 공간 추론 에이전트 프레임워크. 20개 벤치마크 평균 59.9% 달성.