Souper-Model How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.
25개의 게시물
여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.
대규모 언어 모델의 지식 증류는 거대한 교사 모델의 능력을 작고 효율적인 학생 모델로 압축하는 핵심 기술입니다. 하지만 GPT-5나 Gemini 같은 최신 모델들은 API로만 접근 가능하고, 내부 확률 분포나 히든 스테이트를 공개하지 않습니다. 이런 블랙박스 환경에서는...
![[1-LeJEPA.png]]
오늘날 거의 모든 대규모 언어 모델은 두 단계로 작동합니다. 첫 번째는 대량의 텍스트로 "보편적인 언어 능력"을 학습하는 사전학습 단계이고, 두 번째는 지도학습이나 강화학습을 통해 추론과 문제 해결 능력을 갖추는 사후학습 단계입니다.
![[1-Emu.png]]
> Hua, Q., Ye, L., Fu, D., Xiao, Y., Cai, X., Wu, Y., Lin, J., Wang, J., & Liu, P. (2025). Context Engineering 2.0: The Context of Context Engineering...
> **Kimi Team et al., 2025** ([arXiv:2510.26692](http://arxiv.org/abs/2510.26692))
> D. Hendrycks, D. Song, C. Szegedy, H. Lee, Y. Gal, E. Brynjolfsson, S. Li, A. Zou, L. Levine, B. Han, J. Fu, Z. Liu, J. Shin, K. Lee, M. Mazeika, L....
대규모 언어 모델(LLM)이 긴 텍스트를 처리할 때 시퀀스 길이에 따라 연산량이 제곱으로 증가하는 문제가 있습니다. 이 논문은 흥미로운 질문을 던집니다. 텍스트를 이미지로 변환하면 더 효율적으로 압축할 수 있지 않을까요? 하나의 문서 이미지가 실제 텍스트 토큰보다 훨씬...
객체 검출은 오랫동안 YOLO, DETR, Grounding DINO와 같은 회귀 기반 모델이 주도해왔습니다. 최근 MLLM(Multimodal Large Language Model)을 활용한 시도들이 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면...
> Z. Wu, X. Liu, X. Zhang, L. Chen, F. Meng, L. Du, Y. Zhao, F. Zhang, Y. Ye, J. Wang, Z. Wang, J. Ni, Y. Yang, A. Xu, and M. Q. Shieh, "MCPMark: A Be...
"트랜스포머는 어떻게 작동하는가?"와 "뇌는 어떻게 사고하는가?"는 각각 AI와 신경과학의 핵심 질문입니다. 하지만 이 둘을 동시에 답하려는 시도는 많지 않았습니다. 트랜스포머는 밀집 텐서 연산에 기반한 중앙집중식 시스템이고, 뇌는 국소적으로 상호작용하는 분산 그래프 ...
![[1-vff.png]]
> B. Zheng, N. Ma, S. Tong and S. Xie, "Diffusion Transformers with Representation Autoencoders", Preprint, 2025, DOI: 10.48550/arXiv.2510.11690.
> Y. Cai, S. Cai, Y. Shi, Z. Xu, L. Chen, Y. Qin, X. Tan, G. Li, Z. Li, H. Lin, Y. Mao, K. Li and X. Sun, "Training-Free Group Relative Policy Optimiz...
최근 언어 모델의 추론 능력이 급격히 발전하면서, 영어권 모델들은 긴 사고 과정(chain-of-thought)을 통해 놀라운 성능을 보여주고 있습니다. 하지만 한국어를 비롯한 중간 규모 언어(mid-resource language)에서는 어떻게 이런 추론 능력을 구현...
> Y. Kim, D. Jang and E. Yang, "Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning", arXiv preprint arXiv:2510.03259, 202...
언어 에이전트가 자신의 경험을 통해 스스로 학습하고 발전하는 것, 이는 오랫동안 인공지능 분야의 목표였습니다. 하지만 실제 환경에서는 보상 신호가 명확하지 않거나, 멀티턴 태스크처럼 긴 시퀀스가 필요한 경우가 많아 강화학습을 적용하기 어려웠죠. 그래서 대부분의 현재 에...
대규모 언어 모델(LLM)은 자연어 처리 분야에서 놀라운 성능을 보여주고 있지만, 기존의 자기회귀(Autoregressive, AR) 방식은 토큰을 순차적으로 하나씩 생성하기 때문에 추론 속도에 제약이 있습니다. 이러한 한계를 극복하기 위해 확산 기반 언어 모델(Dif...
LLM이 잘 못하는 문제가 몇 가지 있습니다. 바로 스도쿠나 미로 찾기 같은 복잡한 퍼즐 문제입니다. 이런 문제를 해결하기 위해 최근 등장한 Hierarchical Reasoning Model(HRM)은 27M 파라미터로 대형 모델보다 좋은 성능을 보였습니다. 그런데 ...
멀티모달 대규모 언어 모델(MLLM)은 텍스트와 이미지를 동시에 이해할 수 있는 강력한 능력을 보여주고 있습니다. 하지만 이미지를 처리하기 위해 사용되는 시각 토큰(visual token)이 너무 많아 계산 비용이 크게 증가하는 문제가 있습니다. 이 논문은 시각 토큰을...
개인적으로 데이터 분석 분야에서 시각화가 제일 어렵습니다. 시각화 작업은 현업 데이터 과학자도 많은 시간을 소모하는 작업이라고 하네요. LLM은 자연어 쿼리를 통한 자동화가 가능합니다. 가능은 하지만 아무래도 시각화가 사람이 이해하기 쉽고 만족할 만한 결과를 내야 의미...
언어 모델은 텍스트를 숫자로 바꾸기 위해 토큰화 작업을 거칩니다. 보통은 discrete token이라는 단위로 처리합니다. 이 방식은 토큰을 명확하게 구분되는 하나의 단위로 처리합니다. 예를 들어 "안녕하세요"는 ["안녕", "하세", "요"]처럼 바뀝니다. 각 토큰...
고품질 3D 에셋을 만드는 일은 정말 어렵고 시간이 많이 드는 작업입니다. 굳이 설명하지 않아도 모두 아는 사실이죠. 모델링, UV 매핑, 텍스처링, 리깅까지 - 하나의 캐릭터나 아이템을 완성하기 위해서는 여러 전문 소프트웨어를 오가며 복잡한 파이프라인을 거칩니다.
LG AI Research가 공개한 EXAONE 4.0은 언어모델 설계에서 새로운 접근을 시도했습니다. Non-reasoning 모드와 Reasoning 모드를 하나의 모델에 통합하여, 일상적인 대화에서는 빠른 응답을, 복잡한 문제에서는 깊은 사고를 제공하는 실용적인 ...