태그: 논문

41개의 게시물

Souper-Model How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.

Black-Box On-Policy Distillation of Large Language Models

대규모 언어 모델의 지식 증류는 거대한 교사 모델의 능력을 작고 효율적인 학생 모델로 압축하는 핵심 기술입니다. 하지만 GPT-5나 Gemini 같은 최신 모델들은 API로만 접근 가능하고, 내부 확률 분포나 히든 스테이트를 공개하지 않습니다. 이런 블랙박스 환경에서는...

Depth Anything 3 Recovering the Visual Space from Any Views

Depth Anything 3는 한 장의 이미지든 여러 장의 영상이든, 카메라 포즈 정보가 있든 없든 상관없이 3D 기하 정보를 예측하는 모델입니다. 평범한 트랜스포머 하나와 단순한 깊이-광선(depth-ray) 표현으로 이전 최고 성능을 44% 능가하는 성능을 달성했...

Scaling Latent Reasoning via Looped Language Models

오늘날 거의 모든 대규모 언어 모델은 두 단계로 작동합니다. 첫 번째는 대량의 텍스트로 "보편적인 언어 능력"을 학습하는 사전학습 단계이고, 두 번째는 지도학습이나 강화학습을 통해 추론과 문제 해결 능력을 갖추는 사후학습 단계입니다.

Kosmos An AI Scientist for Autonomous Discovery

과학 연구는 직선적이지 않습니다. 일단 문헌을 뒤져 선행 연구를 찾아야죠. 틈새를 발견하고, 가설을 세우고, 데이터를 분석합니다. 그리고 다시 문헌으로 돌아갑니다. 훌륭하고 멋진 작업이죠. 정말, 정말 오래 걸린다는 점만 빼면요. 지난 몇 년간 LLM 기반의 AI 에이...

Real Deep Research for AI, Robotics and Beyond

RDR은 embedding 기반의 자동화된 분석 파이프라인으로, 논문 수집, 콘텐츠 분석, embedding 기반 클러스터링, 추세 분석을 통해 연구 분야를 종합적으로 파악합니다. Foundation Models과 Robotics를 중심으로 적용되었으며, Compute...

A Definition of AGI

> D. Hendrycks, D. Song, C. Szegedy, H. Lee, Y. Gal, E. Brynjolfsson, S. Li, A. Zou, L. Levine, B. Han, J. Fu, Z. Liu, J. Shin, K. Lee, M. Mazeika, L....

DeepSeek-OCR Contexts Optical Compression

대규모 언어 모델(LLM)이 긴 텍스트를 처리할 때 시퀀스 길이에 따라 연산량이 제곱으로 증가하는 문제가 있습니다. 이 논문은 흥미로운 질문을 던집니다. 텍스트를 이미지로 변환하면 더 효율적으로 압축할 수 있지 않을까요? 하나의 문서 이미지가 실제 텍스트 토큰보다 훨씬...

Detect Anything via Next Point Prediction

객체 검출은 오랫동안 YOLO, DETR, Grounding DINO와 같은 회귀 기반 모델이 주도해왔습니다. 최근 MLLM(Multimodal Large Language Model)을 활용한 시도들이 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면...

The Dragon Hatchling The Missing Link between the Transformer and Models of the Brain

"트랜스포머는 어떻게 작동하는가?"와 "뇌는 어떻게 사고하는가?"는 각각 AI와 신경과학의 핵심 질문입니다. 하지만 이 둘을 동시에 답하려는 시도는 많지 않았습니다. 트랜스포머는 밀집 텐서 연산에 기반한 중앙집중식 시스템이고, 뇌는 국소적으로 상호작용하는 분산 그래프 ...

Agent Learning via Early Experience

언어 에이전트가 자신의 경험을 통해 스스로 학습하고 발전하는 것, 이는 오랫동안 인공지능 분야의 목표였습니다. 하지만 실제 환경에서는 보상 신호가 명확하지 않거나, 멀티턴 태스크처럼 긴 시퀀스가 필요한 경우가 많아 강화학습을 적용하기 어려웠죠. 그래서 대부분의 현재 에...

FAST-DLLM V2 Efficient Block-Diffusion LLM

대규모 언어 모델(LLM)은 자연어 처리 분야에서 놀라운 성능을 보여주고 있지만, 기존의 자기회귀(Autoregressive, AR) 방식은 토큰을 순차적으로 하나씩 생성하기 때문에 추론 속도에 제약이 있습니다. 이러한 한계를 극복하기 위해 확산 기반 언어 모델(Dif...

Less is More Recursive Reasoning with Tiny Networks

LLM이 잘 못하는 문제가 몇 가지 있습니다. 바로 스도쿠나 미로 찾기 같은 복잡한 퍼즐 문제입니다. 이런 문제를 해결하기 위해 최근 등장한 Hierarchical Reasoning Model(HRM)은 27M 파라미터로 대형 모델보다 좋은 성능을 보였습니다. 그런데 ...

CoDA Agentic Systems for Collaborative Data Visualization

개인적으로 데이터 분석 분야에서 시각화가 제일 어렵습니다. 시각화 작업은 현업 데이터 과학자도 많은 시간을 소모하는 작업이라고 하네요. LLM은 자연어 쿼리를 통한 자동화가 가능합니다. 가능은 하지만 아무래도 시각화가 사람이 이해하기 쉽고 만족할 만한 결과를 내야 의미...

Video models are zero-shot learners and reasoners

원래 자연어 처리 분야는 번역, 질의응답, 요약 등 각각의 작업마다 별도의 전용 모델이 필요했습니다. 불과 몇 년 전의 일입니다. 대규모 언어 모델의 출현으로 모든게 바뀌기 전이죠. 그 시작은 GPT-3였습니다. 이제는 하나의 범용 모델이 프롬프트만으로 다양한 언어 작...

Soft Tokens, Hard Truths

언어 모델은 텍스트를 숫자로 바꾸기 위해 토큰화 작업을 거칩니다. 보통은 discrete token이라는 단위로 처리합니다. 이 방식은 토큰을 명확하게 구분되는 하나의 단위로 처리합니다. 예를 들어 "안녕하세요"는 ["안녕", "하세", "요"]처럼 바뀝니다. 각 토큰...

Sharing is Caring Efficient LM Post-Training with Collective RL Experience Sharing

강화학습을 통한 언어모델 후훈련이 점점 중요해지고 있습니다. LLM 훈련에 필요한 비용은 천문학적입니다. DeepSeek-R1-Zero처럼 지도학습 없이도 복잡한 추론 능력을 향상시킨 경우도 있습니다만 대부분의 상위 모델은 수많은 컴퓨터 자원을 훈련에 투입합니다. 그러...

Why Language Models Hallucinate

대형 언어모델(LLM)이 점점 더 우리 일상에 자리잡고 있지만 여전히 해결되지 않은 문제가 있습니다. 바로 **환각(hallucination)** 입니다. 그럴듯해 보이지만 사실과 다른 정보를 확신에 차서 제공하는 현상입니다. OpenAI의 Adam Kalai와 동료들...

Hunyuan3D Studio End-to-End AI Pipeline for Game-Ready 3D Asset Generation

고품질 3D 에셋을 만드는 일은 정말 어렵고 시간이 많이 드는 작업입니다. 굳이 설명하지 않아도 모두 아는 사실이죠. 모델링, UV 매핑, 텍스처링, 리깅까지 - 하나의 캐릭터나 아이템을 완성하기 위해서는 여러 전문 소프트웨어를 오가며 복잡한 파이프라인을 거칩니다.

DINOv3

라벨링 없이 특징을 학습하는 컴퓨터 비전 백본 모델이 나왔습니다. 나오자마자 유명세를 탄 논문입니다. Meta AI가 발표한 **DINOv3**는 자기지도학습(Self-Supervised Learning) 모델입니다. 라벨 없이 순수하게 이미지만으로 학습했으며 객체 탐...

Prefix-Tuning Optimizing Continuous Prompts for Generation

대형 언어모델이 다양한 NLP 태스크에서 놀라운 성능을 보이고 있지만, 각 태스크마다 전체 모델을 파인튜닝해야 한다는 비효율적인 문제가 있었습니다. 스탠포드 대학의 연구진이 2021년 발표한 Prefix-Tuning은 이러한 문제에 대한 혁신적인 해결책을 제시합니다.

ImageNet Classification with Deep Convolutional Neural Networks

2012년, 딥러닝 대부 제프리 힌턴과 두 명의 대학원생은 컴퓨터 비전 분야에 혁명을 일으킬 논문을 발표합니다. 이 논문은 ImageNet 대회에서 기존 방법들을 압도적으로 뛰어넘는 성능을 보여주며 대 딥러닝 시대를 열었습니다. 논문에서 제안한 모델은 **AlexNet...

You Only Look Once, Unified Real-Time Object Detection

이미지 내에서 객체를 식별하고 위치를 파악하는 작업은 오랫동안 컴퓨터 비전의 핵심 과제였습니다. 2015년 이전에는 지배적인 접근 방식들이 복잡하고 다단계적인 파이프라인을 요구했으며, 이는 계산 비용이 많이 들고 실시간 애플리케이션에는 너무 느렸습니다. Joseph R...

Attention Is All You Needs

이 논문이 소개하는 트랜스포머 아키텍처는 시퀀스-투-시퀀스 모델링의 한계를 해결합니다. 원래 이 분야는 순환 신경망(RNN), LSTM, GRU 등이 유명합니다. 모두 토큰별로 시퀀스를 순차적으로 처리하는 구조입니다. 이런 RNN 기반 모델은 기계 번역에서 강력한 성능...

군중 상황에서 정확한 다중 사람의 자세 인식을 위한 군중 자세 주석 데이터 세트

"밀집된 사람들이 등장하는 이미지는 어떻게 객체탐지를 수행해야 하는가?" 이 문제는 객체 탐지 분야의 넘어야 할 산 중 하나입니다. 일반적으로 군중 상황은 해상도에 비해 객체의 크기가 작고 그 수가 많습니다. 더욱 곤란한 점은 사람이 다른 사람이나 장애물에 의해 가려져...