역전파를 두 번의 순전파로 대체하는 Forward-Forward 알고리즘. 각 층이 자체 목적함수로 학습하며 생물학적 타당성 향상
태그: 논문
74개의 게시물
-
-
부분-전체 계층 구조를 신경망으로 표현하는 GLOM 모델 제안. 동일 벡터들의 '섬'으로 구문 구조를 인코딩하는 사변적 아키텍처
-
SimCLR 개선판. 자기지도 사전훈련 + 소량 라벨 미세조정의 강력함을 대규모로 검증. 반지도 학습의 새 기준
-
부정 샘플 없이 자기지도 학습하는 방법. SimCLR과 달리 음의 예가 필요 없으며, 온라인-타겟 네트워크 구조로 표현 학습 수행
-
자기지도 대조 학습(contrastive learning) 프레임워크. 데이터 증강과 대조 손실로 라벨 없이 강력한 표현 학습. 10,000+ 인용
-
Dynamic Routing Between Capsules 2026-04-18CNN의 공간 계층 무시 문제를 캡슐 네트워크와 동적 라우팅으로 해결하는 접근. 구조 정보 기반 신경망 설계
-
Layer Normalization 2026-04-17배치 대신 레이어 단위로 정규화하는 방법. RNN과 Transformer에서 핵심 구성요소가 된 기법
-
Deep Learning (Nature 2015) 2026-04-16LeCun, Bengio, Hinton 3대 거장이 함께 쓴 딥러닝 분야 정의 논문으로, 이 분야의 핵심 개념과 이전 60년의 발전사를 종합한 이정표입니다.
-
Distilling the Knowledge in a Neural Network 2026-04-15지식 증류는 큰 모델의 '소프트 타겟'으로 작은 모델을 훈련하는 기법으로, 현대 모델 압축과 배포의 표준이 되었습니다.
-
훈련 시 뉴런을 확률적으로 끄는 Dropout은 단순하면서도 강력한 정규화 기법으로, 딥러닝의 표준 도구가 되었습니다.
-
모멘텀 기반 최적화의 중요성을 입증. Nesterov 모멘텀과 적절한 초기화의 조합이 SGD를 크게 개선함을 보인 논문.
-
Dropout의 원조 논문. 특징 탐지기의 공동적응을 방지하여 일반화 성능 개선. 2014 JMLR 논문의 전신
-
Google, Microsoft, IBM, Toronto 4개 연구팀의 공동 논문으로, 딥러닝을 음성인식 산업에 처음 성공적으로 적용한 기념비적 논문입니다.
-
ImageNet 대회에서 압도적으로 우승한 AlexNet은 GPU 활용, ReLU, Dropout을 결합하여 딥러닝의 실용성을 처음 증명한 논문입니다.
-
메타는 이미지의 세밀한 속성을 표현하기 위해 이미지 생성을 한 번에 하지 않고, 계획-스케치-검수-수정의 반복 루프로 분해합니다.
-
Transforming Auto-encoders 2026-04-09캡슐 신경망 아이디어의 첫 등장. 변환에 등변(equivariant)한 표현을 학습하여 기하학적 불변성 추구
-
ReLU 활성화 함수를 RBM에 도입. 이후 거의 모든 딥러닝의 표준 활성화 함수가 되어 신경망 실무를 크게 단순화한 논문.
-
Visualizing Data using t-SNE 2026-04-07확률적 근이웃 임베딩의 개선된 버전 t-SNE. 고차원 데이터의 시각화에 특화된 알고리즘으로 ML 연구에서 가장 널리 사용되는 방법.
-
깊은 오토인코더로 비선형 차원 축소를 수행. PCA보다 우수한 성능을 보여 신경망 기반 차원 축소의 실용성을 입증한 논문.
-
층별 사전훈련으로 심층 신경망 학습을 가능하게 한 논문. 깊은 신경망 학습의 문제를 해결하고 '딥러닝'이라는 용어를 탄생시킨 획기적 연구.
-
대조 발산 알고리즘으로 전문가 혼합 모델을 훈련하는 실용적 방법, RBM 훈련의 핵심 기법
-
계층적 생성 모델을 비지도 학습하는 구체적 방법: 깨어 있을 때는 인식을 배우고 자는 동안 생성을 배운다
-
The Helmholtz Machine 2026-04-02생성 모델과 인식 모델을 분리하고, 변분 추론의 신경망 구현을 제시한 선구적 작업
-
최소 설명 길이(MDL) 원칙으로 신경망의 가중치 복잡도를 줄여 과적합을 방지. 베이지안 딥러닝의 초기 연구
-
다층 신경망을 훈련하는 오차역전파 알고리즘을 대중화하고 내부 표현 학습의 가능성을 입증
-
REPA가 잠재 공간 디퓨전에서는 잘 작동하지만 픽셀 공간 디퓨전(JiT)에서는 오히려 성능을 악화시킨다는 걸 밝혔습니다. 원인은 정보 비대칭으로 인한 feature hacking. 이를 해결하는 PixelREPA를 제안하여 JiT-B/16 FID를 3.66에서 3.17로, JiT-H/16은 1.81까지 낮췄습니다. KAIST AI.
-
A Learning Algorithm for Boltzmann Machines 2026-03-30병렬 신경망이 제약 만족 문제를 어떻게 해결하는지 보여준 에너지 기반 모델의 시작
-
MA-EgoQA는 여러 구현체(embodied agent)가 동시에 촬영한 1인칭(egocentric) 영상을 종합적으로 이해하고 질의응답하는 최초의 벤치마크입니다. 6명이 7일간 공유 주택에서 생활하며 촬영한 총 266시간의 영상을 기반으로, 1,741개의 다중 에이전트 고유 질문을 제공합니다. 현재 최고 성능 모델인 Gemini-2.5-Flash조차 평균 정확도 36.93%에 그쳤고, 함께 제안된 EgoMAS는 학습 없이(training-free) 공유 메모리 + 에이전트별 동적 검색만으로 Gemini-2.5-Flash를 4.48%p 앞섰습니다.
-
실시간 대화를 강화학습 신호로 전환하는 비동기 RL 프레임워크. 서빙 중단 없이 에이전트를 지속 개선하며, 개인화와 범용 에이전트를 하나의 파이프라인으로 훈련.
-
추론(reasoning)이 수학이나 코딩이 아닌 단순 사실 질문에서도 도움이 되는 이유를 밝힌 논문입니다. 두 가지 메커니즘을 발견했는데, 하나는 추론 토큰이 추가 연산 버퍼로 작용하는 것이고, 다른 하나는 관련 사실을 생성하면서 정답 회상을 촉진하는 factual priming입니다. 다만 중간에 할루시네이션된 사실이 끼면 최종 답도 틀릴 확률이 크게 올라갑니다. Google Research + Technion.
-
-
텍스트, 이미지, 영상에서 Lottie 벡터 애니메이션을 생성하는 최초의 멀티모달 프레임워크입니다. Lottie JSON을 파라미터화된 토큰으로 변환하는 토크나이저가 핵심이고, Qwen2.5-VL 기반 4B 모델로 88~93%의 생성 성공률을 달성했습니다. CVPR 2026 accept.
-
Kimi k2.5 - 200만 토큰의 멀티모달 에이전트 2026-02-10200만 토큰 컨텍스트에 멀티모달 처리, 에이전틱 추론을 갖추고 나온 Kimi의 새로운 논문입니다. 핵심은 강화학습 기반의 2단계 훈련입니다. Agentic RL로 계획-실행-검증 루프를 학습하고, RLVR로 수학/코딩에서 자가 검증 능력을 키웠습니다. 파라미터 수도, 구체적 알고리즘도, 데이터셋 구성도 전부 미공개입니다.
-
벌써 4.5가 나온다구요? 두 달 정도밖에 안 지났습니다. 아직 4.5는 테크니컬 리포트가 없습니다. 대신 4.0 테크니컬 리포트를 가져왔습니다. 2K 해상도 이미지를 1.4~1.8초 만에 생성하며, T2I 생성과 이미지 편집 작업을 단일 모델에서 공동 학습합니다. 특히 복잡한 텍스트 렌더링, 다중 이미지 참조, 인컨텍스트 추론 생성 등 기존 모델들이 취약했던 영역에서 강점을 보입니다.
-
여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.
-
교사 모델의 내부를 전혀 들여다볼 수 없는 상황에서, 어떻게 효과적으로 지식을 전달받을 수 있을까요? Microsoft Research가 제안한 GAD(Generative Adversarial Distillation)는 이 문제에 대한 신선한 해법을 제시합니다.
-
또이트댄스입니다. Depth Anything 3는 한 장의 이미지든 여러 장의 영상이든, 카메라 포즈 정보가 있든 없든 상관없이 3D 기하 정보를 예측하는 모델입니다. 평범한 트랜스포머 하나와 단순한 깊이-광선(depth-ray) 표현으로 이전 최고 성능을 44% 능가하는 성능을 달성했으며, 모든 데이터를 공개 학술 데이터셋으로만 학습했습니다.
-
얀 르쿤과 바렐스트리에로의 최신 연구입니다! 자기 지도 학습(Self-Supervised Learning)에서 표현 붕괴(representation collapse)를 막기 위해 쓰던 여러 임시방편(stop-gradient, teacher-student network 등)들을 이론적으로 정당화하고 이를 단 50줄의 코드로 구현한 LeJEPA 논문입니다. 핵심은 '임베딩이 등방성 가우시안 분포를 따라야 한다'는 수학적 증명에 있습니다.
-
AI 과학자 Kosmos를 소개합니다. 데이터와 연구 목표를 주면 자동으로 논문을 읽고, 데이터를 분석하고, 가설을 생성해 과학 보고서를 작성합니다. 6개월간 인간 연구자가 수행할 작업을 하루에 끝내고 모든 단계가 투명하게 공개됩니다. 신경생물학, 재료과학, 통계유전학등 다양한 분야에서 실제 발견을 만들어냈습니다.
-
-
LLM의 일상화로 컨텍스트 엔지니어링이라는 개념이 떠오르고 있습니다. 많은 사람들이 이것을 최신 에이전트 시대의 산물로 생각하곤 하는데, 실은 20년 이상의 역사를 가진 분야입니다. 이 논문의 핵심 통찰은 바로 여기에 있습니다.기계가 인간의 의도를 이해하려면, 결국 정보 엔트로피를 줄여야 한다는 것이죠.
-
최신 멀티모달 모델의 화두는 세계를 이해하고 행동하는 모델입니다. BAAI(Beijing Academy of Artificial Intelligence)가 최근 공개한 Emu3.5는 이런 흐름을 타고 비전과 언어를 동시에 예측하는 '멀티모달 월드 모델'을 표방하며 장시간 순차적 추론과 실제 로봇 조작까지 가능하게 한다고 주장합니다.
-
이번에는 네이버에서 제안한 논문을 들고왔습니다. 팔이 또 안으로 굽는다고, 저는 우리나라 논문을 보면 이렇게 가져오고싶네요. 확산 모델의 조건화를 로보틱스 분야에 적용하고 도메인 갭을 메우는 흥미로운 내용입니다.
-
|-
-
현재 시장에는 "단순 쿼리 응답 도구"부터 "엔드-투-엔드 자동 분석 시스템"까지 모두 "데이터 에이전트"라고 불리고 있습니다. 이 논문은 자동주행 기술의 레벨 분류처럼, 데이터 에이전트의 자율성을 6단계로 명확히 정의합니다.
-
A Definition of AGI 2025-10-27|-
-
The Free Transformer 2025-10-27|-
-
FineVision Open Data Is All You Need 2025-10-25인공지능 연구에서 가장 중요한 것은 데이터! 두 말하면 입아픈 이야기입니다. 최대 규모의 AI 플랫폼, 이제는 연구 커뮤니티의 역할을 톡톡히 하는 허깅페이스에서 최대 규모의 오픈 데이터 리소스를 발표했습니다. 오염이 심한 공개 데이터셋에서 세심하게 큐레이션해 2,400만 샘플 데이터셋을 통합하여 품질을 끌어올렸습니다. 기존 오픈 데이터셋 대비최대 46%의 벤치마크 성능 향상을 보입니다.
-
DeepSeek-OCR Contexts Optical Compression 2025-10-24|-
-
Detect Anything via Next Point Prediction 2025-10-22|-
-
Dragon Hatchling(BDH)은 트랜스포머와 뇌 모델 사이의 연결고리를 찾습니다. 생물학적으로 그럴듯한 그래프 기반 뉴런 네트워크로 설계되어, 헤비안 학습과 스파이킹 뉴런을 사용하면서도 GPT-2 수준의 성능을 달성했습니다. 핵심은 attention을 시냅스 가소성으로, feed-forward를 국소적 그래프 동역학으로 재해석한 것입니다.
-
여러분은 MCP를 자주 활용하나요? 저는 매일 사용해서 없으면 안 될 수준입니다. 가끔은 내가 필요한 MCP를 직접 만들고 싶은 때도 있죠. 그렇다면 실제로 MCP가 얼마나 유용한지, 어떤 MCP 서버가 좋은 MCP 서버인지 구별하려면 어떤 기준을 세우면 좋을까요? 이번 논문은 MCP가 실제 업무의 복잡성을 평가하는 벤치마크를 제안하고 MCP 활용 능력을 종합적으로 평가합니다.
-
서울과학기술대학의 VFF-Net을 소개합니다. 딥러닝은 역전파라는 방식으로 학습하는 것이 기본입니다. 역전파 알고리즘을 제안한 제프리 힌턴은 딥러닝 대부로 불리며 모든 현대 AI의 기초를 마련한 인물입니다. 제프리 힌턴은 역전파가 아닌 새로운 학습 알고리즘을 2022년에 발표했습니다. 이것이 FFN인데요, 실제 학습에 적용하기에는 복잡한 네트워크에 잘 맞지 않고, 특히 CNN과 어울리지 않았습니다. 이 문제를 한국에서 해결합니다. 방대한 계산량이 필요한 역전파 대신 FFN의 성능을 끌어올려 실제로 사용할 수 있는 알고리즘으로 만든 것입니다.
-
최근 이미지 생성 분야에서 Diffusion Transformer(DiT)는 픽셀 공간이 아닌 사전 학습된 오토인코더가 만든 잠재 공간(latent space)에서 확산 과정을 수행하는 것이 표준이 되었습니다. 하지만 대부분의 DiT는 여전히 원래의 VAE 인코더에 의존하고 있고, 이는 몇 가지 한계를 가지고 있습니다. 이 논문은 VAE를 사전 학습된 표현 인코더(DINO, SigLIP, MAE 등)와 학습된 디코더로 구성된 Representation Autoencoder(RAE)로 대체하는 새로운 접근을 제안합니다.
-
LLM의 성능 향상을 위해 강화 학습을 흔히 사용하죠. 강화 학습 훈련을 위해서는 높은 학습 비용이 필요합니다. 이 논문은 훈련 없이 프롬프트만으로 훈련 없이 강화 학습 정책을 변경합니다.
-
우리에게 익숙한 많은 언어 모델은 영어 중심입니다. 저처럼 글을 많이 쓰는 분이라면 언어 모델의 한국어 처리 결과를 그대로 어디에 내놓을 수 없다는 아쉬움을 공감하시리라 생각합니다. 다국어 추론 모델의 한국어 성능을 높이려면 어떻게 해야 할까요? 한글날을 맞아 우리의 멋진 연구자들이 새로이 발표한 한국어 추론 모델과 데이터셋을 소개합니다.
-
대한민국 KAIST에서 제안하는 추론 모델의 메타 인지(meta-awareness) 능력 향상 방법입니다. 이 논문은 모델이 예측한 메타 정보와 실제 추론 과정 사이의 정렬(alignment)을 통해 메타 인지 능력을 향상시키는 MASA(Meta-Awareness via Self-Alignment) 프레임워크를 제안합니다. Qwen3를 기반으로 외부 소스 없이 메타 인지를 학습합니다.
-
Agent Learning via Early Experience 2025-10-12스스로 학습하고 발전하는 인공지능을 위한 새로운 학습 패러다임, 초기 경험(Early Experience)을 제안합니다. 보상 신호 없이도 에이전트가 자신의 행동으로 생성된 미래 상태를 학습 신호로 활용할 수 있습니다. 이제 인공지능이 정답만 보고 배우는 게 아니라 직접 시도한 경험으로 학습한다는 겁니다.
-
FAST-DLLM V2 Efficient Block-Diffusion LLM 2025-10-09NVIDIA의 힘은 GPU가 다가 아니죠. 명실상부 LLM 선두주자의 새로운 논문입니다. 자연어 처리 모델이 토큰을 생성하는 기본적인 방법인 자기회귀(AR)의 한계를 극복하는 병렬 텍스트 생성 모델입니다. 적은 토큰으로도 파인 튜닝이 가능하고 500배 적은 학습 데이터로 기존 Dream 모델과 동일한 성능을 달성합니다.
-
삼성에서 한 건 했습니다. LLM 추론 방식에 대한 근본적인 의문을 제시하고 Claude 3.7, GPT의 o3-mini, Gemini 2.5 Pro, Deepseek R1을 능가하는 추론 성능을 달성합니다. 심지어 0.01%에 불과한 파라미터로 말이죠. 삼성 SAIL AI 연구소가 제안한 TRM을 소개합니다.
-
더 효율적인 멀티모달 LLM을 위한 다양한 시도가 이어집니다. 이미지와 텍스트를 동시에 다루는 모델은 이미지 처리에서 계산 비용이 많이 들어갑니다. 이 문제를 해결하기 위해 시각 토큰을 압축하는 방법이 중요합니다. 효율적인 시각 토큰 압축을 위한 학습 프레임워크를 제안한 논문을 소개합니다.
-
저는 예전부터 데이터 시각화가 어려웠습니다. 함수 이름이랑 파라미터도 잘 안 외워지고 어떤 그래프가 가장 효과적인가 판단하는 것이 쉽지 않습니다. 구글에서 시각화 시스템을 제안한 논문을 발표한 것은 굉장히 재밌습니다. 아마 Opal과 관련이 있지 않을까요?
-
자연어 처리가 변화한 이유가 대규모 언어 모델이라면 컴퓨터 비전이 변화한 이유는 비디오 모델입니다. 믿고 보는 Google DeepMind의 최신 비디오 모델 연구 논문입니다. Veo 3가 명시적으로 학습하지 않은 다양한 시각적 작업을 제로샷 방식으로 해결할 수 있다고 제안합니다.
-
Soft Tokens, Hard Truths 2025-09-23대형 언어 모델(LLM)의 추론 능력은 Chain-of-Thought(CoT) 기법을 통해 크게 향상되었지만, 기존의 discrete token 기반 접근법은 여러 추론 경로를 동시에 탐색하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 continuous token을 사용한 새로운 강화학습 기반 훈련 방법을 제안합니다.
-
Gensyn AI의 SAPO 논문을 요약합니다. 분산된 노드들이 각자 생성한 경험을 공유하며 언어모델을 집단적으로 훈련하는 비동기 강화학습 후훈련 알고리즘을 설명합니다. 중앙 서버 없이 효율적인 협력 훈련이 가능한 원리와 그 효과를 다룹니다.
-
Why Language Models Hallucinate 2025-09-17언어 모델의 환각(Hallucination) 현상을 통계적 관점에서 분석한 논문을 요약합니다. 환각이 사전훈련의 필연적 결과이며, '모르겠다'를 처벌하는 현재의 평가 방식 때문에 사후훈련 후에도 지속되는 구조적 문제를 지적하고 해결책을 제시합니다.
-
텐센트의 Hunyuan3D Studio 논문을 요약합니다. 단일 이미지나 텍스트에서 게임 엔진에 바로 사용할 수 있는 3D 에셋을 생성하는 7단계 AI 파이프라인을 설명합니다. 지오메트리 생성, UV 언래핑, 텍스처링, 애니메이션까지 전 과정을 자동화한 기술을 다룹니다.
-
DINOv3 2025-09-15Meta AI의 70억 파라미터 자기지도학습 모델 DINOv3 논문을 요약합니다. 라벨 없이 이미지 특징을 학습하는 이 모델의 거대한 아키텍처, 데이터 큐레이션 전략, 그리고 패치 일관성을 유지하는 혁신 기술 'Gram Anchoring'을 중심으로 설명합니다.
-
Prefix-Tuning 논문을 요약하며, 대형 언어모델의 파라미터를 고정한 채 작은 연속적 프롬프트(prefix)만 최적화하는 효율적인 튜닝 방법을 설명합니다. 전체 파인튜닝 대비 적은 파라미터로 경쟁력 있는 성능을 내는 원리와 장점을 다룹니다.
-
딥러닝 혁명을 일으킨 AlexNet 논문을 요약합니다. 8개 층으로 구성된 CNN 아키텍처와 함께, ReLU 활성화 함수, 드롭아웃, 데이터 증강 등 당시 혁신적이었던 기법들을 도입하여 ImageNet 대회에서 압도적인 성능을 달성한 과정을 설명합니다.
-
실시간 객체 탐지의 시대를 연 YOLO(You Only Look Once) 논문을 요약합니다. 전체 이미지를 단일 신경망에 한 번만 통과시켜 객체의 경계 상자와 클래스를 동시에 예측하는 혁신적인 통합 아키텍처의 원리와 성능을 설명합니다.
-
Attention Is All You Needs 2025-09-01'Attention Is All You Need' 논문을 요약하며 RNN의 한계를 극복한 트랜스포머 아키텍처를 설명합니다. Multi-Head Self-Attention을 중심으로 순환 구조를 완전히 배제하고 병렬 처리를 가능하게 한 혁신적인 모델의 구조와 원리를 다룹니다.
-
LG AI Research의 EXAONE 4.0 논문을 요약합니다. 빠른 응답의 'Non-reasoning' 모드와 깊은 사고의 'Reasoning' 모드를 통합한 하이브리드 아키텍처가 특징입니다. 모델 구조, 훈련 데이터, 혁신적인 AGAPO 강화학습 알고리즘을 중심으로 설명합니다.
-
군중 상황에서 정확한 다중 사람의 자세 인식을 위한 군중 자세 주석 데이터 세트 2025-04-05군중 상황에서의 객체 탐지와 포즈 추정의 어려움을 다룹니다. CrowdPose 데이터셋과 Crowd Index를 분석하고, 객체 수까지 고려한 새로운 데이터셋 'HuPoAnt'와 전용 라벨링 도구를 개발한 경험과 추후 연구 방향을 공유합니다.