Andrej Karpathy의 LLM Knowledge Base 워크플로우

🏷️ 정보 Headliner

원문 요약

2026년 4월 2일, 전 Tesla AI / OpenAI 출신의 Andrej Karpathy가 X(구 트위터)에 올린 스레드입니다. LLM을 코드 작성이 아닌 지식 관리 도구로 활용하는 자신의 워크플로우를 공유했습니다. 옵시디언(Obsidian)을 프론트엔드로, LLM을 백엔드 엔진으로 쓰는 구조입니다.

원문: Thread by @karpathy (2026-04-02)


핵심 아이디어

Karpathy는 최근 토큰 사용량의 상당 부분이 코드 조작이 아니라 지식 조작에 쓰이고 있다고 말합니다. 마크다운과 이미지로 저장된 지식을 LLM이 컴파일하고, 질의하고, 유지보수하는 구조입니다.


워크플로우 상세

1단계: 데이터 수집 (Data Ingest)

원본 자료(논문, 기사, 레포, 데이터셋, 이미지 등)를 raw/ 디렉토리에 저장합니다.

이후 LLM이 이 원본 데이터를 점진적으로 "컴파일"하여 위키를 구축합니다. 위키는 디렉토리 구조의 .md 파일 모음이며, 다음을 포함합니다:

2단계: IDE (편집 환경)

Obsidian을 "IDE 프론트엔드"로 사용합니다.

3단계: Q&A (질의응답)

위키가 충분히 커지면(Karpathy의 경우 ~100개 문서, ~40만 단어) 복잡한 질문이 가능해집니다.

4단계: 출력 (Output)

텍스트/터미널 대신 시각적 출력물을 생성합니다:

핵심: 출력물을 다시 위키에 "파일링"하여 후속 질의를 강화합니다. 탐색과 질의가 항상 지식 베이스에 누적되는 구조입니다.

5단계: 린팅 (Linting)

LLM으로 위키의 "건강 검진"을 수행합니다:

Karpathy는 "LLM이 추가로 조사할 질문을 잘 제안한다"고 언급했습니다.

6단계: 추가 도구 (Extra Tools)

데이터 처리를 위한 부가 도구도 개발했습니다:

향후 탐구 방향

레포가 커지면 합성 데이터 생성 + 파인튜닝으로 LLM이 컨텍스트 윈도우가 아닌 가중치 자체에 지식을 담는 방향을 고려하고 있다고 합니다.


TLDR (Karpathy 원문)

여러 소스의 원본 데이터를 수집 → LLM이 .md 위키로 컴파일 → 다양한 CLI로 LLM이 Q&A 수행 및 위키 점진적 강화 → 모든 것을 Obsidian에서 조회. 위키를 직접 편집하는 일은 거의 없으며, 그건 LLM의 영역입니다. 여기에 스크립트 모음이 아닌 제대로 된 새 제품이 나올 여지가 있다고 생각합니다.


시사점

왜 주목해야 하는가

  1. 코드에서 지식으로의 전환: LLM 활용의 무게중심이 코딩 보조에서 지식 관리로 이동하고 있습니다
  2. RAG 없는 지식 관리: 소규모(~40만 단어)에서는 인덱스 + 요약만으로 RAG 파이프라인이 불필요합니다
  3. 누적형 시스템: 질의 결과가 다시 지식 베이스를 강화하는 선순환 구조입니다
  4. Obsidian + LLM 조합: 마크다운 기반 도구와 LLM의 궁합이 매우 좋다는 실증 사례입니다