Andrej Karpathy의 LLM Knowledge Base 워크플로우
원문 요약
2026년 4월 2일, 전 Tesla AI / OpenAI 출신의 Andrej Karpathy가 X(구 트위터)에 올린 스레드입니다. LLM을 코드 작성이 아닌 지식 관리 도구로 활용하는 자신의 워크플로우를 공유했습니다. 옵시디언(Obsidian)을 프론트엔드로, LLM을 백엔드 엔진으로 쓰는 구조입니다.
핵심 아이디어
Karpathy는 최근 토큰 사용량의 상당 부분이 코드 조작이 아니라 지식 조작에 쓰이고 있다고 말합니다. 마크다운과 이미지로 저장된 지식을 LLM이 컴파일하고, 질의하고, 유지보수하는 구조입니다.
워크플로우 상세
1단계: 데이터 수집 (Data Ingest)
원본 자료(논문, 기사, 레포, 데이터셋, 이미지 등)를 raw/ 디렉토리에 저장합니다.
- 웹 기사 → Obsidian Web Clipper 확장으로
.md변환 - 관련 이미지 → 단축키로 로컬 다운로드 (LLM이 참조할 수 있도록)
이후 LLM이 이 원본 데이터를 점진적으로 "컴파일"하여 위키를 구축합니다. 위키는 디렉토리 구조의 .md 파일 모음이며, 다음을 포함합니다:
- 모든 원본 데이터의 요약
- 백링크
- 개념별 분류 및 문서 작성
- 문서 간 상호 링크
2단계: IDE (편집 환경)
Obsidian을 "IDE 프론트엔드"로 사용합니다.
- 원본 데이터, 컴파일된 위키, 파생된 시각화를 모두 Obsidian에서 조회
- 중요한 점: LLM이 위키의 모든 데이터를 작성하고 유지보수합니다. 사람이 직접 편집하는 경우는 드뭅니다
- Marp 플러그인 등으로 슬라이드 등 다양한 형태로 렌더링
3단계: Q&A (질의응답)
위키가 충분히 커지면(Karpathy의 경우 ~100개 문서, ~40만 단어) 복잡한 질문이 가능해집니다.
- LLM 에이전트가 위키를 리서치하여 답변을 생성
- 별도의 RAG 시스템이 필요 없었습니다 — LLM이 인덱스 파일과 요약을 자동 유지하고, 관련 문서를 스스로 찾아 읽는 방식으로 충분했습니다
- 현재 규모(~소규모)에서는 이 방식이 잘 작동한다고 합니다
4단계: 출력 (Output)
텍스트/터미널 대신 시각적 출력물을 생성합니다:
- 마크다운 문서
- 슬라이드쇼 (Marp 포맷)
- matplotlib 이미지
- 모두 Obsidian에서 바로 조회 가능
핵심: 출력물을 다시 위키에 "파일링"하여 후속 질의를 강화합니다. 탐색과 질의가 항상 지식 베이스에 누적되는 구조입니다.
5단계: 린팅 (Linting)
LLM으로 위키의 "건강 검진"을 수행합니다:
- 일관성 없는 데이터 탐지
- 누락 데이터 보충 (웹 검색 활용)
- 새로운 문서 후보가 될 흥미로운 연결 발견
- 위키의 전체적인 데이터 무결성 점진적 개선
Karpathy는 "LLM이 추가로 조사할 질문을 잘 제안한다"고 언급했습니다.
6단계: 추가 도구 (Extra Tools)
데이터 처리를 위한 부가 도구도 개발했습니다:
- 위키 전체를 대상으로 하는 소형 검색 엔진 (바이브 코딩으로 제작)
- 웹 UI로 직접 사용하거나, CLI로 LLM에게 도구로 제공
향후 탐구 방향
레포가 커지면 합성 데이터 생성 + 파인튜닝으로 LLM이 컨텍스트 윈도우가 아닌 가중치 자체에 지식을 담는 방향을 고려하고 있다고 합니다.
TLDR (Karpathy 원문)
여러 소스의 원본 데이터를 수집 → LLM이
.md위키로 컴파일 → 다양한 CLI로 LLM이 Q&A 수행 및 위키 점진적 강화 → 모든 것을 Obsidian에서 조회. 위키를 직접 편집하는 일은 거의 없으며, 그건 LLM의 영역입니다. 여기에 스크립트 모음이 아닌 제대로 된 새 제품이 나올 여지가 있다고 생각합니다.
시사점
왜 주목해야 하는가
- 코드에서 지식으로의 전환: LLM 활용의 무게중심이 코딩 보조에서 지식 관리로 이동하고 있습니다
- RAG 없는 지식 관리: 소규모(~40만 단어)에서는 인덱스 + 요약만으로 RAG 파이프라인이 불필요합니다
- 누적형 시스템: 질의 결과가 다시 지식 베이스를 강화하는 선순환 구조입니다
- Obsidian + LLM 조합: 마크다운 기반 도구와 LLM의 궁합이 매우 좋다는 실증 사례입니다