Cursor가 공개한 코딩 에이전트 모델 Composer 2.5의 학습 방법과 벤치마크를 정리합니다
태그: 강화학습
29개의 게시물
-
Composer 2.5 2026-05-19 -
19B 규모 joint audio-video diffusion 모델 LTX-2 위에 RL fine-tuning을 얹어 영상 품질·음향 품질·립싱크를 동시에 끌어올린 OmniNFT를 정리합니다. modality-wise advantage routing, layer-wise gradient surgery, region-wise loss reweighting 세 디자인이 multi-modal RL의 reward hacking 양상을 어떻게 바꾸는지, 그리고 한국 비디오 생성 스타트업·후반 작업 도구 관점에서 어떤 의미를 갖는지 봅니다.
-
멀티에이전트 LLM 시스템의 chain·star·mesh 토폴로지를 추론을 돌리기 전에 단 세 개의 고윳값으로 진단하자는 제안. successor representation을 통신 그래프에 얹어 drift·consensus·robustness를 closed-form으로 풉니다.
-
부분 관측 마르코프 결정 과정 2026-04-10에이전트가 환경의 완전한 상태를 관측할 수 없는 강화 학습 프레임워크
-
적합 가치 반복 2026-04-10연속 상태 공간에서 가치 함수를 함수 근사기로 표현하는 강화 학습 알고리즘
-
이산화 2026-04-10연속 상태 공간을 유한한 이산 격자로 나눠 표 형태의 강화 학습을 적용하는 기법
-
가치 반복 2026-04-10벨만 방정식을 반복 적용하여 최적 가치 함수를 구하는 동적 프로그래밍 알고리즘
-
정책 반복 2026-04-10정책 평가와 정책 개선을 교대로 수행하여 최적 정책을 찾는 강화 학습 알고리즘
-
벨만 방정식 2026-04-10현재 상태의 가치를 즉각 보상과 다음 상태 가치의 합으로 재귀적으로 표현하는 방정식
-
마르코프 결정 과정 2026-04-10상태, 행동, 전이 확률, 보상으로 구성되는 강화 학습의 수학적 프레임워크
-
강화 학습 2026-04-10환경과 상호작용하며 보상을 최대화하는 정책을 학습하는 머신러닝 패러다임
-
RLHF 2026-04-10인간의 선호도 피드백으로 훈련된 보상 모델을 사용해 LLM을 정렬하는 기법
-
가치 함수 2026-04-10강화 학습에서 특정 상태 또는 상태-행동 쌍의 장기적인 기댓값을 나타내는 함수
-
선형 이차 조절기 2026-04-10선형 동역학 시스템에서 이차 비용 함수를 최소화하는 최적 제어기
-
직접 정책 탐색 2026-04-10가치 함수를 거치지 않고 정책 매개변수를 직접 최적화하는 강화 학습 접근법
-
LLM의 성능 향상을 위해 강화 학습을 흔히 사용하죠. 강화 학습 훈련을 위해서는 높은 학습 비용이 필요합니다. 이 논문은 훈련 없이 프롬프트만으로 훈련 없이 강화 학습 정책을 변경합니다.
-
대한민국 KAIST에서 제안하는 추론 모델의 메타 인지(meta-awareness) 능력 향상 방법입니다. 이 논문은 모델이 예측한 메타 정보와 실제 추론 과정 사이의 정렬(alignment)을 통해 메타 인지 능력을 향상시키는 MASA(Meta-Awareness via Self-Alignment) 프레임워크를 제안합니다. Qwen3를 기반으로 외부 소스 없이 메타 인지를 학습합니다.
-
Soft Tokens, Hard Truths 2025-09-23대형 언어 모델(LLM)의 추론 능력은 Chain-of-Thought(CoT) 기법을 통해 크게 향상되었지만, 기존의 discrete token 기반 접근법은 여러 추론 경로를 동시에 탐색하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 continuous token을 사용한 새로운 강화학습 기반 훈련 방법을 제안합니다.
-
LG AI Research의 EXAONE 4.0 논문을 요약합니다. 빠른 응답의 'Non-reasoning' 모드와 깊은 사고의 'Reasoning' 모드를 통합한 하이브리드 아키텍처가 특징입니다. 모델 구조, 훈련 데이터, 혁신적인 AGAPO 강화학습 알고리즘을 중심으로 설명합니다.
-
-
-
-
-
-
USTC 박사과정. masked image generation·autoregressive image generation에 GRPO 계열 정책 최적화를 적용해온 1저자로, OmniNFT에서는 joint audio-video diffusion으로 RL 프레임워크를 확장.
-
미국 수학자·전산학자. 노스이스턴대 교수. 역전파 1986 Nature 논문 3저자이자 REINFORCE 정책 그래디언트의 창시자.
-
DrLIM·연속 학습·로봇 RL의 권위자, Google DeepMind VP of Research, 인문학 학부에서 ML 박사로 전환한 이력
-
UC Berkeley 교수, 로봇공학 및 강화학습 분야 세계적 전문가
-