Souper-Model How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.
41개의 게시물
여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.
대규모 언어 모델의 지식 증류는 거대한 교사 모델의 능력을 작고 효율적인 학생 모델로 압축하는 핵심 기술입니다. 하지만 GPT-5나 Gemini 같은 최신 모델들은 API로만 접근 가능하고, 내부 확률 분포나 히든 스테이트를 공개하지 않습니다. 이런 블랙박스 환경에서는...
Depth Anything 3는 한 장의 이미지든 여러 장의 영상이든, 카메라 포즈 정보가 있든 없든 상관없이 3D 기하 정보를 예측하는 모델입니다. 평범한 트랜스포머 하나와 단순한 깊이-광선(depth-ray) 표현으로 이전 최고 성능을 44% 능가하는 성능을 달성했...
![[1-LeJEPA.png]]
오늘날 거의 모든 대규모 언어 모델은 두 단계로 작동합니다. 첫 번째는 대량의 텍스트로 "보편적인 언어 능력"을 학습하는 사전학습 단계이고, 두 번째는 지도학습이나 강화학습을 통해 추론과 문제 해결 능력을 갖추는 사후학습 단계입니다.
과학 연구는 직선적이지 않습니다. 일단 문헌을 뒤져 선행 연구를 찾아야죠. 틈새를 발견하고, 가설을 세우고, 데이터를 분석합니다. 그리고 다시 문헌으로 돌아갑니다. 훌륭하고 멋진 작업이죠. 정말, 정말 오래 걸린다는 점만 빼면요. 지난 몇 년간 LLM 기반의 AI 에이...
![[1-Emu.png]]
> Hua, Q., Ye, L., Fu, D., Xiao, Y., Cai, X., Wu, Y., Lin, J., Wang, J., & Liu, P. (2025). Context Engineering 2.0: The Context of Context Engineering...
> **Kimi Team et al., 2025** ([arXiv:2510.26692](http://arxiv.org/abs/2510.26692))
> Shin et al., "Exploring Conditions for Diffusion Models in Robotic Control", arXiv:2510.15510, 2025
> Zhu et al., arXiv preprint arXiv:2510.23587, 2025
RDR은 embedding 기반의 자동화된 분석 파이프라인으로, 논문 수집, 콘텐츠 분석, embedding 기반 클러스터링, 추세 분석을 통해 연구 분야를 종합적으로 파악합니다. Foundation Models과 Robotics를 중심으로 적용되었으며, Compute...
> F. Fleuret, "The Free Transformer", arXiv preprint arXiv:2510.17558, 2025.
> D. Hendrycks, D. Song, C. Szegedy, H. Lee, Y. Gal, E. Brynjolfsson, S. Li, A. Zou, L. Levine, B. Han, J. Fu, Z. Liu, J. Shin, K. Lee, M. Mazeika, L....
![[1-FineVision.png]]
대규모 언어 모델(LLM)이 긴 텍스트를 처리할 때 시퀀스 길이에 따라 연산량이 제곱으로 증가하는 문제가 있습니다. 이 논문은 흥미로운 질문을 던집니다. 텍스트를 이미지로 변환하면 더 효율적으로 압축할 수 있지 않을까요? 하나의 문서 이미지가 실제 텍스트 토큰보다 훨씬...
객체 검출은 오랫동안 YOLO, DETR, Grounding DINO와 같은 회귀 기반 모델이 주도해왔습니다. 최근 MLLM(Multimodal Large Language Model)을 활용한 시도들이 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면...
> Z. Wu, X. Liu, X. Zhang, L. Chen, F. Meng, L. Du, Y. Zhao, F. Zhang, Y. Ye, J. Wang, Z. Wang, J. Ni, Y. Yang, A. Xu, and M. Q. Shieh, "MCPMark: A Be...
"트랜스포머는 어떻게 작동하는가?"와 "뇌는 어떻게 사고하는가?"는 각각 AI와 신경과학의 핵심 질문입니다. 하지만 이 둘을 동시에 답하려는 시도는 많지 않았습니다. 트랜스포머는 밀집 텐서 연산에 기반한 중앙집중식 시스템이고, 뇌는 국소적으로 상호작용하는 분산 그래프 ...
![[1-vff.png]]
> B. Zheng, N. Ma, S. Tong and S. Xie, "Diffusion Transformers with Representation Autoencoders", Preprint, 2025, DOI: 10.48550/arXiv.2510.11690.
> Y. Cai, S. Cai, Y. Shi, Z. Xu, L. Chen, Y. Qin, X. Tan, G. Li, Z. Li, H. Lin, Y. Mao, K. Li and X. Sun, "Training-Free Group Relative Policy Optimiz...
최근 언어 모델의 추론 능력이 급격히 발전하면서, 영어권 모델들은 긴 사고 과정(chain-of-thought)을 통해 놀라운 성능을 보여주고 있습니다. 하지만 한국어를 비롯한 중간 규모 언어(mid-resource language)에서는 어떻게 이런 추론 능력을 구현...
> Y. Kim, D. Jang and E. Yang, "Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning", arXiv preprint arXiv:2510.03259, 202...
언어 에이전트가 자신의 경험을 통해 스스로 학습하고 발전하는 것, 이는 오랫동안 인공지능 분야의 목표였습니다. 하지만 실제 환경에서는 보상 신호가 명확하지 않거나, 멀티턴 태스크처럼 긴 시퀀스가 필요한 경우가 많아 강화학습을 적용하기 어려웠죠. 그래서 대부분의 현재 에...
대규모 언어 모델(LLM)은 자연어 처리 분야에서 놀라운 성능을 보여주고 있지만, 기존의 자기회귀(Autoregressive, AR) 방식은 토큰을 순차적으로 하나씩 생성하기 때문에 추론 속도에 제약이 있습니다. 이러한 한계를 극복하기 위해 확산 기반 언어 모델(Dif...
LLM이 잘 못하는 문제가 몇 가지 있습니다. 바로 스도쿠나 미로 찾기 같은 복잡한 퍼즐 문제입니다. 이런 문제를 해결하기 위해 최근 등장한 Hierarchical Reasoning Model(HRM)은 27M 파라미터로 대형 모델보다 좋은 성능을 보였습니다. 그런데 ...
멀티모달 대규모 언어 모델(MLLM)은 텍스트와 이미지를 동시에 이해할 수 있는 강력한 능력을 보여주고 있습니다. 하지만 이미지를 처리하기 위해 사용되는 시각 토큰(visual token)이 너무 많아 계산 비용이 크게 증가하는 문제가 있습니다. 이 논문은 시각 토큰을...
개인적으로 데이터 분석 분야에서 시각화가 제일 어렵습니다. 시각화 작업은 현업 데이터 과학자도 많은 시간을 소모하는 작업이라고 하네요. LLM은 자연어 쿼리를 통한 자동화가 가능합니다. 가능은 하지만 아무래도 시각화가 사람이 이해하기 쉽고 만족할 만한 결과를 내야 의미...
원래 자연어 처리 분야는 번역, 질의응답, 요약 등 각각의 작업마다 별도의 전용 모델이 필요했습니다. 불과 몇 년 전의 일입니다. 대규모 언어 모델의 출현으로 모든게 바뀌기 전이죠. 그 시작은 GPT-3였습니다. 이제는 하나의 범용 모델이 프롬프트만으로 다양한 언어 작...
언어 모델은 텍스트를 숫자로 바꾸기 위해 토큰화 작업을 거칩니다. 보통은 discrete token이라는 단위로 처리합니다. 이 방식은 토큰을 명확하게 구분되는 하나의 단위로 처리합니다. 예를 들어 "안녕하세요"는 ["안녕", "하세", "요"]처럼 바뀝니다. 각 토큰...
강화학습을 통한 언어모델 후훈련이 점점 중요해지고 있습니다. LLM 훈련에 필요한 비용은 천문학적입니다. DeepSeek-R1-Zero처럼 지도학습 없이도 복잡한 추론 능력을 향상시킨 경우도 있습니다만 대부분의 상위 모델은 수많은 컴퓨터 자원을 훈련에 투입합니다. 그러...
대형 언어모델(LLM)이 점점 더 우리 일상에 자리잡고 있지만 여전히 해결되지 않은 문제가 있습니다. 바로 **환각(hallucination)** 입니다. 그럴듯해 보이지만 사실과 다른 정보를 확신에 차서 제공하는 현상입니다. OpenAI의 Adam Kalai와 동료들...
고품질 3D 에셋을 만드는 일은 정말 어렵고 시간이 많이 드는 작업입니다. 굳이 설명하지 않아도 모두 아는 사실이죠. 모델링, UV 매핑, 텍스처링, 리깅까지 - 하나의 캐릭터나 아이템을 완성하기 위해서는 여러 전문 소프트웨어를 오가며 복잡한 파이프라인을 거칩니다.
라벨링 없이 특징을 학습하는 컴퓨터 비전 백본 모델이 나왔습니다. 나오자마자 유명세를 탄 논문입니다. Meta AI가 발표한 **DINOv3**는 자기지도학습(Self-Supervised Learning) 모델입니다. 라벨 없이 순수하게 이미지만으로 학습했으며 객체 탐...
대형 언어모델이 다양한 NLP 태스크에서 놀라운 성능을 보이고 있지만, 각 태스크마다 전체 모델을 파인튜닝해야 한다는 비효율적인 문제가 있었습니다. 스탠포드 대학의 연구진이 2021년 발표한 Prefix-Tuning은 이러한 문제에 대한 혁신적인 해결책을 제시합니다.
2012년, 딥러닝 대부 제프리 힌턴과 두 명의 대학원생은 컴퓨터 비전 분야에 혁명을 일으킬 논문을 발표합니다. 이 논문은 ImageNet 대회에서 기존 방법들을 압도적으로 뛰어넘는 성능을 보여주며 대 딥러닝 시대를 열었습니다. 논문에서 제안한 모델은 **AlexNet...
이미지 내에서 객체를 식별하고 위치를 파악하는 작업은 오랫동안 컴퓨터 비전의 핵심 과제였습니다. 2015년 이전에는 지배적인 접근 방식들이 복잡하고 다단계적인 파이프라인을 요구했으며, 이는 계산 비용이 많이 들고 실시간 애플리케이션에는 너무 느렸습니다. Joseph R...
이 논문이 소개하는 트랜스포머 아키텍처는 시퀀스-투-시퀀스 모델링의 한계를 해결합니다. 원래 이 분야는 순환 신경망(RNN), LSTM, GRU 등이 유명합니다. 모두 토큰별로 시퀀스를 순차적으로 처리하는 구조입니다. 이런 RNN 기반 모델은 기계 번역에서 강력한 성능...
LG AI Research가 공개한 EXAONE 4.0은 언어모델 설계에서 새로운 접근을 시도했습니다. Non-reasoning 모드와 Reasoning 모드를 하나의 모델에 통합하여, 일상적인 대화에서는 빠른 응답을, 복잡한 문제에서는 깊은 사고를 제공하는 실용적인 ...
"밀집된 사람들이 등장하는 이미지는 어떻게 객체탐지를 수행해야 하는가?" 이 문제는 객체 탐지 분야의 넘어야 할 산 중 하나입니다. 일반적으로 군중 상황은 해상도에 비해 객체의 크기가 작고 그 수가 많습니다. 더욱 곤란한 점은 사람이 다른 사람이나 장애물에 의해 가려져...