Cha Jinwoo - 태그: 추론

Verbalizable Representations Form a Global Workspace in Language Models 2026-07-07

Anthropic이 언어모델 내부에서 인간의 의식 접근(access consciousness)과 유사한 기능을 하는 신경 표상 집합을 발견했습니다. J-space라 이름 붙인 이 표상은 Claude가 무엇을 생각하고 있는지 겉으로 드러나지 않는 순간에도 읽어낼 수 있게 해주며, 안전성 모니터링에도 실제로 활용되고 있습니다.

JetSpec - Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting 2026-06-29

투기적 디코딩의 스케일링 한계를 해결합니다. 드래프트 예산을 늘릴수록 속도가 오르려면 수락률은 높고 드래프팅 비용은 낮아야 하는데, JetSpec은 트리-인과 어텐션 마스크 하나로 두 조건을 동시에 만족해 MATH-500에서 9.64배 가속을 달성합니다.

LoopCoder-v2 - Only Loop Once for Efficient Test-Time Computation Scaling 2026-06-21

파라미터 공유 트랜스포머 블록을 병렬로 여러 번 돌리는 PLT 아키텍처에서, 루프를 딱 두 번만 돌릴 때 SWE-bench Verified 43.0% → 64.4%로 최적 성능이 나옵니다. 세 번째 루프부터는 오히려 퇴보합니다.

VibeThinker-3B - Exploring the Frontier of Verifiable Reasoning in Small Language Models 2026-06-19

Sina Weibo의 9인 연구팀이 3B 파라미터만으로 DeepSeek V3.2(671B), Kimi K2.5(1T) 수준의 수학 추론 성능을 달성한 방법. Spectrum-to-Signal Principle 기반 5단계 포스트트레이닝 레시피와, 검증 가능한 추론이 지식 저장보다 파라미터 효율이 높다는 Parametric Compression-Coverage Hypothesis를 제안합니다.

Optical Reasoning - Rethinking Images as an Expressive Reasoning Medium Beyond Text 2026-06-14

추론 과정을 텍스트 대신 이미지 공간에 그려 넣는다. 수식·그래프를 시각적 스크래치패드로 쓰면 텍스트 추론과 동등한 정확도를 유지하면서 토큰을 평균 28.57% 아낄 수 있다는 논문.

When AI Builds Itself - Anthropic의 재귀적 자기개선 경고 2026-06-10

5월 자사 프로덕션 코드의 80%를 Claude가 짰다고 밝히며, 재귀적 자기개선이 통제를 벗어나기 전에 미·중 프런티어랩이 검증 가능한 규칙 아래 함께 멈출 장치를 만들자고 제안한 Anthropic Institute 문서를 짚어봅니다.

Recursive Language Models 2026-06-09

긴 프롬프트를 신경망에 통째로 밀어넣지 않고 REPL 환경의 변수로 두는 추론 패러다임. 모델이 코드를 써서 컨텍스트를 들여다보고 자기 자신을 재귀 호출합니다. 컨텍스트 창을 한 자리 수 배가 아니라 10M 토큰 단위로 넘기면서도 비용은 비슷하게 유지합니다.

The Self-Correction Illusion - LLMs Correct Others but Not Themselves 2026-06-08

LLM 에이전트가 자기 추론 속 오류는 못 고치면서 같은 주장이 외부 출처로 붙으면 잘 고치는 현상을, 국립성공대 연구진이 통제 실험으로 파헤쳤습니다. 결론은 자기 교정 실패가 능력 결함이 아니라 채팅 템플릿의 역할 라벨 아티팩트라는 것. 틀린 주장을 바이트 단위로 똑같이 둔 채 감싸는 역할만 self에서 external로 바꾸면 명시적 교정률이 23~93%p 뛰었습니다.

ReasoningFlow - Discourse Structures for Understanding LLM Reasoning Traces 2026-06-08

추론 모델이 토해내는 길고 비선형적인 사고 트레이스를, UIUC 연구진이 8종 노드와 14종 엣지의 방향성 비순환 그래프로 파싱하는 프레임워크 ReasoningFlow를 내놨습니다. 1,260개 트레이스(24만 7천 스텝)를 분석한 결과 중 충격적인 하나. LRM이 만든 오류 스텝의 14.4%만이 실제로 틀린 최종 답에 인과적으로 기여했고, 79.6%는 아예 최종 답과 연결조차 안 됐습니다.

The Deterministic Horizon - When Extended Reasoning Fails and Tool Delegation Becomes Necessary 2026-06-07

긴 chain-of-thought가 어느 지점부터 오히려 정확도를 무너뜨리는지를 디코더 어텐션의 정보이론적 용량 한계로 증명한 ICML 2026 논문. 19~31스텝의 Deterministic Horizon을 넘으면 신경 추론 대신 도구에 위임하라는 결론을 뜯어봅니다.

Quantized Reasoning Models Think They Need to Think Longer, but They Do Not 2026-06-07

추론 모델을 양자화하면 정확도가 떨어지면서 chain-of-thought는 오히려 길어진다. 그 원인이 사고력이 아니라 "멈추지 못함"임을 KL 발산으로 진단하고, 과사고 마커에 학습 없이 로짓 페널티를 주는 처방을 제시한 메타 FAIR 논문을 뜯어봅니다.

The Era of Agentic Organization - Learning to Organize with Language Models 2026-05-22

LLM의 사고 과정을 organizer와 worker 두 역할로 분리하고 Fork-Join 액션으로 비동기 사고를 학습시키는 새로운 추론 패러다임. 단일 모델이 두 역할을 모두 수행하며, RL로 사고 구조 자체를 최적화합니다. 병렬 사고 대비 추론 지연 28% 감소에 수학 추론 정확도 동시 개선, 미학습 태스크로도 비동기 사고가 zero-shot 일반화됩니다. agentic organization 시대를 선언하는 Microsoft Research의 첫 정식 정리입니다.

Reasoner 2026-05-18

온톨로지의 형식 정의로부터 새로운 사실을 자동 도출하는 추론 엔진. HermiT·Pellet·FaCT++가 대표적입니다.

OWL DL 2026-05-18

W3C OWL 표준의 결정가능한 프로파일. Description Logic을 기반으로 하며 온톨로지 표현력과 추론 효율의 균형점입니다.

HeavySkill - Heavy Thinking as the Inner Skill in Agentic Harness 2026-05-07

복잡한 에이전틱 하네스의 성능을 실제로 끌어올리는 건 뭘까요? 이 논문은 답이 '병렬 추론 + 순차적 종합'이라는 두 단계 패턴에 있다고 봅니다. Best-of-N의 이론적 상한을 넘는 Heavy Thinking의 구조와 실험 결과를 정리합니다.

KisMATH - Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning 2026-05-04

CoT가 왜 되는지 아무도 몰랐습니다. KisMATH는 추론 트레이스에서 인과 그래프를 자동으로 추출하고, 그 그래프 경로를 억제했을 때 모델이 실제로 붕괴하는지 실험으로 확인했습니다. "중간 토큰이 장식이냐 실제 계산이냐"는 질문에 처음으로 엄밀한 인과 답변을 내놓은 연구입니다.

연쇄 사고 2026-04-10

LLM이 최종 답변 전에 중간 추론 단계를 명시적으로 출력하게 하는 프롬프팅 기법

6장 - LLM 추론 2026-04-08

추론 능력을 강화학습으로 확장하는 GRPO 알고리즘과 PPO의 차이, 길이 편향 문제, DeepSeek R1의 훈련 레시피를 다룹니다

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought 2025-10-14

우리에게 익숙한 많은 언어 모델은 영어 중심입니다. 저처럼 글을 많이 쓰는 분이라면 언어 모델의 한국어 처리 결과를 그대로 어디에 내놓을 수 없다는 아쉬움을 공감하시리라 생각합니다. 다국어 추론 모델의 한국어 성능을 높이려면 어떻게 해야 할까요? 한글날을 맞아 우리의 멋진 연구자들이 새로이 발표한 한국어 추론 모델과 데이터셋을 소개합니다.

Meta-Awareness Enhances Reasoning Models Self-Alignment Reinforcement Learning 2025-10-13

대한민국 KAIST에서 제안하는 추론 모델의 메타 인지(meta-awareness) 능력 향상 방법입니다. 이 논문은 모델이 예측한 메타 정보와 실제 추론 과정 사이의 정렬(alignment)을 통해 메타 인지 능력을 향상시키는 MASA(Meta-Awareness via Self-Alignment) 프레임워크를 제안합니다. Qwen3를 기반으로 외부 소스 없이 메타 인지를 학습합니다.

Less is More Recursive Reasoning with Tiny Networks 2025-10-08

삼성에서 한 건 했습니다. LLM 추론 방식에 대한 근본적인 의문을 제시하고 Claude 3.7, GPT의 o3-mini, Gemini 2.5 Pro, Deepseek R1을 능가하는 추론 성능을 달성합니다. 심지어 0.01%에 불과한 파라미터로 말이죠. 삼성 SAIL AI 연구소가 제안한 TRM을 소개합니다.

Soft Tokens, Hard Truths 2025-09-23

대형 언어 모델(LLM)의 추론 능력은 Chain-of-Thought(CoT) 기법을 통해 크게 향상되었지만, 기존의 discrete token 기반 접근법은 여러 추론 경로를 동시에 탐색하는 데 한계가 있습니다. 이러한 한계를 극복하기 위해 continuous token을 사용한 새로운 강화학습 기반 훈련 방법을 제안합니다.

EXAONE 4.0 Unified Large Language Models Integrating Non-reasoning and Reasoning Modes 2025-08-10

LG AI Research의 EXAONE 4.0 논문을 요약합니다. 빠른 응답의 'Non-reasoning' 모드와 깊은 사고의 'Reasoning' 모드를 통합한 하이브리드 아키텍처가 특징입니다. 모델 구조, 훈련 데이터, 혁신적인 AGAPO 강화학습 알고리즘을 중심으로 설명합니다.

이진우

미국 일리노이대 어배너섐페인(UIUC) 컴퓨터과학 박사과정. 추론의 의미론과 뉴로심볼릭 추론을 연구하며 Julia Hockenmaier가 지도합니다.

볜위통

홍콩 이공대학교 NLP 그룹 박사 연구원. 멀티모달 추론 효율화를 주제로 연구하며 Optical Reasoning(2026)의 제1저자.

Muse Spark

Meta가 2026년 4월 공개한 첫 사유 AI 모델, Llama 라인업을 대체하는 Meta Superintelligence Labs의 첫 결과물

궈둥신

홍콩대(HKU) 박사과정 최종학년. LLM 추론의 아키텍처적 한계를 증명하고 그 한계를 우회하는 시스템을 짓는 연구자. Betty Guo로도 알려져 있습니다.

주환

베이징대학교 소속 AI 연구자. 귀납 추론 단계를 독립 API 호출로 격리하는 Hourglass Reasoning 프레임워크를 제안했다.

장쥔린

Sina Weibo AI 시니어 연구원. VibeThinker 시리즈 co-correspondence author. WeiboAI 팀의 연구 방향을 이끄는 리더.

션 웰렉

수학 LLM·자동 증명 분야 핵심 연구자, CMU LTI 조교수, DARPA expMath PI

쉬썬

Sina Weibo AI 연구원. VibeThinker 시리즈(1.5B, 3B) 1저자. 소형 언어 모델의 검증 가능한 추론 한계를 탐구하는 Spectrum-to-Signal Principle 설계자.