2013년 NYU CILVR 팀이 한 망으로 분류·위치 추정·검출 세 가지를 동시에 푼 연구. 합성곱 망 자체가 슬라이딩 윈도우라는 통찰을 정식화하고 미세 스트라이드 풀링으로 다중 스케일 평가를 효율화하여 ILSVRC 2013 위치 추정 부문에서 우승하였습니다.
태그: 영상처리
17개의 게시물
-
OverFeat - Integrated Recognition, Localization and Detection using Convolutional Networks 2026-05-24 -
1989년 AT&T Bell Labs 팀이 미국 우체국 우편번호 이미지에 역전파 합성곱 신경망을 적용해 1% 오류율을 달성한 연구. 합성곱 신경망의 첫 실세계 응용이자 LeNet 계보의 출발점입니다.
-
2012~2013년 NYU 르쿤 연구실과 ESIEE 나즈만 팀이 공동으로 정리한 장면 분할 정본. 다중 스케일 합성곱 망이 픽셀별로 큰 맥락을 보고, 영상 경사 위 분할 트리에서 클래스 순도를 최소화하는 *optimal cover*가 후처리를 대신합니다. Stanford Background, SIFT Flow, Barcelona 세 벤치마크에서 최신 기록을 세웠고 한 장 처리에 1초가 걸립니다.
-
1998년 AT&T Labs 팀이 손글씨 인식부터 미국 은행 수표 판독까지 한 편의 논문으로 묶은 정본. LeNet-5라는 합성곱 신경망 이름이 처음 등장한 글이고, MNIST가 처음 정의된 글이며, 학습 가능한 모듈을 그래프로 잇는 Graph Transformer Network 개념도 여기서 정식화됩니다.
-
19B 규모 joint audio-video diffusion 모델 LTX-2 위에 RL fine-tuning을 얹어 영상 품질·음향 품질·립싱크를 동시에 끌어올린 OmniNFT를 정리합니다. modality-wise advantage routing, layer-wise gradient surgery, region-wise loss reweighting 세 디자인이 multi-modal RL의 reward hacking 양상을 어떻게 바꾸는지, 그리고 한국 비디오 생성 스타트업·후반 작업 도구 관점에서 어떤 의미를 갖는지 봅니다.
-
텍스트-투-비디오 모델들은 눈을 뗄 수 없을 만큼 아름다운 영상을 만들어냅니다. 그런데 카메라가 크게 움직이는 순간, 뭔가 이상해집니다. 건물 벽이 녹아내리고, 물체가 갑자기 사라지고, 물리적으로 말이 안 되는 장면을 생성합니다. World-R1은 이 문제를 아키텍처 수정 없이, 강화학습(RL)만으로 해결한다고 주장합니다.
-
벌써 4.5가 나온다구요? 두 달 정도밖에 안 지났습니다. 아직 4.5는 테크니컬 리포트가 없습니다. 대신 4.0 테크니컬 리포트를 가져왔습니다. 2K 해상도 이미지를 1.4~1.8초 만에 생성하며, T2I 생성과 이미지 편집 작업을 단일 모델에서 공동 학습합니다. 특히 복잡한 텍스트 렌더링, 다중 이미지 참조, 인컨텍스트 추론 생성 등 기존 모델들이 취약했던 영역에서 강점을 보입니다.
-
또이트댄스입니다. Depth Anything 3는 한 장의 이미지든 여러 장의 영상이든, 카메라 포즈 정보가 있든 없든 상관없이 3D 기하 정보를 예측하는 모델입니다. 평범한 트랜스포머 하나와 단순한 깊이-광선(depth-ray) 표현으로 이전 최고 성능을 44% 능가하는 성능을 달성했으며, 모든 데이터를 공개 학술 데이터셋으로만 학습했습니다.
-
자연어 처리가 변화한 이유가 대규모 언어 모델이라면 컴퓨터 비전이 변화한 이유는 비디오 모델입니다. 믿고 보는 Google DeepMind의 최신 비디오 모델 연구 논문입니다. Veo 3가 명시적으로 학습하지 않은 다양한 시각적 작업을 제로샷 방식으로 해결할 수 있다고 제안합니다.
-
DINOv3 2025-09-15Meta AI의 70억 파라미터 자기지도학습 모델 DINOv3 논문을 요약합니다. 라벨 없이 이미지 특징을 학습하는 이 모델의 거대한 아키텍처, 데이터 큐레이션 전략, 그리고 패치 일관성을 유지하는 혁신 기술 'Gram Anchoring'을 중심으로 설명합니다.
-
USTC 자동화학과 정교수이자 컴퓨터 비전·대규모 멀티모달 모델 연구 그룹 지도교수. OmniNFT의 교신 저자로 [[Guohui Zhang]]·[[Hu Yu]] 등 1저자 학생들의 시각 생성 + RL 라인을 총괄.
-
USTC 박사과정. [[Feng Zhao]] 연구실에서 image restoration·diffusion·flow-based generative model을 연구. OmniNFT 공저자.
-
USTC 박사과정. masked image generation·autoregressive image generation에 GRPO 계열 정책 최적화를 적용해온 1저자로, OmniNFT에서는 joint audio-video diffusion으로 RL 프레임워크를 확장.
-
Lightricks가 공개한 19B 파라미터 규모의 joint audio-video foundation model. asymmetric dual-stream(비디오·오디오) 구조에 bidirectional cross-attention으로 modality imbalance를 처리. OmniNFT의 backbone으로 사용됨.
-
Neocognitron의 발명자, 현대 합성곱 신경망의 구조적 원형을 만든 일본 신경망 연구자
-
JD Explore Academy 연구원. CVPR 2024 YOLO-World(Real-Time Open-Vocabulary Object Detection)의 공동·교신 저자로 알려진 비전 연구자. OmniNFT의 프로젝트 리더.
-
JD.COM 산하 AI 연구 조직. Vision and Multimodal Lab을 [[Nan Duan]] 디렉터가 이끌고 있으며, 비전·멀티모달 파운데이션 모델과 비디오 생성 라인을 외부 대학(USTC 등)과 공동 연구.