여러 개의 언어 모델을 평균화하는 방식만으로 새로운 모델을 훈련시키지 않고도 성능을 높일 수 있습니다. 단순 평균이 아니라 각 모델의 강점이 나타나는 부분을 찾아 비율을 다르게 섞는 SoCE를 제안합니다. 함수 호출 벤치마크에서 새로운 최고 성능을 달성했습니다.
차진우
컴퓨터 정보학을 전공하고 딥러닝 영상처리를 연구했습니다. 지금은 IT 기술 도서 기획·편집 일을 합니다. 경험을 공유하기 위해 글을 쓰고 책을 만듭니다.
주인장은 기술 동향과 인공지능에 관심이 많은 IT애호가입니다. 개발자도 전문가도 아니기 때문에 틀린 내용이 있을 수 있습니다. 콘텐츠에 대한 의견과 피드백을 환영합니다.
Channel
개발자를 위한 커뮤니티를 운영중입니다!
최신 업계 동향과 취업 정보를 제공합니다!
다른 현업 개발자와 소통하세요!
Contect
- Email : chajinwoo.chajinwoo@gmail.com
출판 관련 문의는 아래 메일로 보내주세요!
- Company Email : jwcha@goldenrabbit.co.kr
Links
Headline
-
-
또이트댄스입니다. Depth Anything 3는 한 장의 이미지든 여러 장의 영상이든, 카메라 포즈 정보가 있든 없든 상관없이 3D 기하 정보를 예측하는 모델입니다. 평범한 트랜스포머 하나와 단순한 깊이-광선(depth-ray) 표현으로 이전 최고 성능을 44% 능가하는 성능을 달성했으며, 모든 데이터를 공개 학술 데이터셋으로만 학습했습니다.
-
얀 르쿤과 바렐스트리에로의 최신 연구입니다! 자기 지도 학습(Self-Supervised Learning)에서 표현 붕괴(representation collapse)를 막기 위해 쓰던 여러 임시방편(stop-gradient, teacher-student network 등)들을 이론적으로 정당화하고 이를 단 50줄의 코드로 구현한 LeJEPA 논문입니다. 핵심은 '임베딩이 등방성 가우시안 분포를 따라야 한다'는 수학적 증명에 있습니다.
-
AI 과학자 Kosmos를 소개합니다. 데이터와 연구 목표를 주면 자동으로 논문을 읽고, 데이터를 분석하고, 가설을 생성해 과학 보고서를 작성합니다. 6개월간 인간 연구자가 수행할 작업을 하루에 끝내고 모든 단계가 투명하게 공개됩니다. 신경생물학, 재료과학, 통계유전학등 다양한 분야에서 실제 발견을 만들어냈습니다.
-
LLM의 일상화로 컨텍스트 엔지니어링이라는 개념이 떠오르고 있습니다. 많은 사람들이 이것을 최신 에이전트 시대의 산물로 생각하곤 하는데, 실은 20년 이상의 역사를 가진 분야입니다. 이 논문의 핵심 통찰은 바로 여기에 있습니다.기계가 인간의 의도를 이해하려면, 결국 정보 엔트로피를 줄여야 한다는 것이죠.
-
-
무분별, 저품질 논문과 싸우는 arXiv 2025-10-31지난 몇 년간 생성형 AI와 대규모 언어모델이 논문 작성 난이도를 크게 낮췄습니다. arXiv는 원래도 논문의 저품질 문제를 안고있었죠. 하지만 '빠른 논문'이 arXiv의 존재 이유인 만큼 좋은 논문을 찾는 것은 독자의 몫으로 돌리는 것에 모두가 암묵적으로 동의했습니다. 하지만 그것도 한계인가봅니다. 새로운 연구 성과를 담지 않은 리뷰 논문들이 폭주하면서, arXiv는 결국 결정을 내렸습니다. 앞으로 CS 카테고리에 리뷰 논문과 포지션 페이퍼를 올리려면, 먼저 저널이나 학회에서 심사를 통과해야 합니다
-
Cursor 2.0과 Composer 2025-10-30커서 2.0이 발표되었습니다. 기대만큼 엄청난 변화는 아니지만 생각지 못한 변화네요. 자체 모델 발표와 에이전트 중심의 인터페이스 개편이 핵심입니다.
-
DeepSeek-OCR Contexts Optical Compression 2025-10-24|-
-
PDF 번역 혁신 2025-09-29여러분이 굉장히 놀랄만한 PDF 번역 도구입니다. PDF로 작업을 자주 하거나 저처럼 외국 자료를 볼 일이 많은 분께 강력 추천합니다. PDF의 복잡한 구조를 어떻게 처리하는지 내부 코드도 뜯어보고 싶네요. Zotero와 연동할 수 있어 더욱 편리합니다.
-
자연어 처리가 변화한 이유가 대규모 언어 모델이라면 컴퓨터 비전이 변화한 이유는 비디오 모델입니다. 믿고 보는 Google DeepMind의 최신 비디오 모델 연구 논문입니다. Veo 3가 명시적으로 학습하지 않은 다양한 시각적 작업을 제로샷 방식으로 해결할 수 있다고 제안합니다.
-
아주 다양한 어텐션 매커니즘 2025-09-18인공지능의 핵심 기술인 어텐션(Attention) 메커니즘의 다양한 종류를 알기 쉽게 설명합니다. 기본적인 어텐션 함수부터 Self/Cross, Multi-Head, 그리고 효율성을 높인 Sparse/Linear 어텐션까지, 각 방식의 발전 과정과 특징을 체계적으로 정리합니다.