Andrej Karpathy의 LLM Knowledge Base 워크플로우

원문 요약

2026년 4월 2일, 전 Tesla AI / OpenAI 출신의 Andrej Karpathy가 X(구 트위터)에 올린 스레드입니다. LLM을 코드 작성이 아닌 지식 관리 도구로 활용하는 자신의 워크플로우를 공유했습니다. 옵시디언(Obsidian)을 프론트엔드로, LLM을 백엔드 엔진으로 쓰는 구조입니다.

원문: Thread by @karpathy (2026-04-02)

핵심 아이디어

Karpathy는 최근 토큰 사용량의 상당 부분이 코드 조작이 아니라 지식 조작에 쓰이고 있다고 말합니다. 마크다운과 이미지로 저장된 지식을 LLM이 컴파일하고, 질의하고, 유지보수하는 구조입니다.

워크플로우 상세

1단계: 데이터 수집 (Data Ingest)

원본 자료(논문, 기사, 레포, 데이터셋, 이미지 등)를 raw/ 디렉토리에 저장합니다.

웹 기사 → Obsidian Web Clipper 확장으로 .md 변환
관련 이미지 → 단축키로 로컬 다운로드 (LLM이 참조할 수 있도록)

이후 LLM이 이 원본 데이터를 점진적으로 "컴파일"하여 위키를 구축합니다. 위키는 디렉토리 구조의 .md 파일 모음이며, 다음을 포함합니다:

모든 원본 데이터의 요약
백링크
개념별 분류 및 문서 작성
문서 간 상호 링크

2단계: IDE (편집 환경)

Obsidian을 "IDE 프론트엔드"로 사용합니다.

원본 데이터, 컴파일된 위키, 파생된 시각화를 모두 Obsidian에서 조회
중요한 점: LLM이 위키의 모든 데이터를 작성하고 유지보수합니다. 사람이 직접 편집하는 경우는 드뭅니다
Marp 플러그인 등으로 슬라이드 등 다양한 형태로 렌더링

3단계: Q&A (질의응답)

위키가 충분히 커지면(Karpathy의 경우 ~100개 문서, ~40만 단어) 복잡한 질문이 가능해집니다.

LLM 에이전트가 위키를 리서치하여 답변을 생성
별도의 RAG 시스템이 필요 없었습니다 — LLM이 인덱스 파일과 요약을 자동 유지하고, 관련 문서를 스스로 찾아 읽는 방식으로 충분했습니다
현재 규모(~소규모)에서는 이 방식이 잘 작동한다고 합니다

4단계: 출력 (Output)

텍스트/터미널 대신 시각적 출력물을 생성합니다:

마크다운 문서
슬라이드쇼 (Marp 포맷)
matplotlib 이미지
모두 Obsidian에서 바로 조회 가능

핵심: 출력물을 다시 위키에 "파일링"하여 후속 질의를 강화합니다. 탐색과 질의가 항상 지식 베이스에 누적되는 구조입니다.

5단계: 린팅 (Linting)

LLM으로 위키의 "건강 검진"을 수행합니다:

일관성 없는 데이터 탐지
누락 데이터 보충 (웹 검색 활용)
새로운 문서 후보가 될 흥미로운 연결 발견
위키의 전체적인 데이터 무결성 점진적 개선

Karpathy는 "LLM이 추가로 조사할 질문을 잘 제안한다"고 언급했습니다.

6단계: 추가 도구 (Extra Tools)

데이터 처리를 위한 부가 도구도 개발했습니다:

위키 전체를 대상으로 하는 소형 검색 엔진 (바이브 코딩으로 제작)
웹 UI로 직접 사용하거나, CLI로 LLM에게 도구로 제공

향후 탐구 방향

레포가 커지면 합성 데이터 생성 + 파인튜닝으로 LLM이 컨텍스트 윈도우가 아닌 가중치 자체에 지식을 담는 방향을 고려하고 있다고 합니다.

TLDR (Karpathy 원문)

여러 소스의 원본 데이터를 수집 → LLM이 .md 위키로 컴파일 → 다양한 CLI로 LLM이 Q&A 수행 및 위키 점진적 강화 → 모든 것을 Obsidian에서 조회. 위키를 직접 편집하는 일은 거의 없으며, 그건 LLM의 영역입니다. 여기에 스크립트 모음이 아닌 제대로 된 새 제품이 나올 여지가 있다고 생각합니다.

시사점

왜 주목해야 하는가

코드에서 지식으로의 전환: LLM 활용의 무게중심이 코딩 보조에서 지식 관리로 이동하고 있습니다
RAG 없는 지식 관리: 소규모(~40만 단어)에서는 인덱스 + 요약만으로 RAG 파이프라인이 불필요합니다
누적형 시스템: 질의 결과가 다시 지식 베이스를 강화하는 선순환 구조입니다
Obsidian + LLM 조합: 마크다운 기반 도구와 LLM의 궁합이 매우 좋다는 실증 사례입니다