Microsoft GraphRAG
Microsoft GraphRAG는 마이크로소프트 리서치가 2024년 2월 논문, 7월 코드를 공개한 Graph RAG 오픈소스 구현체입니다. MIT 라이선스로 GitHub에 공개됐습니다.
핵심 차별점은 다음 두 가지입니다.
- LLM 기반 자동 그래프 구축 — 문서 청크에 LLM을 돌려 엔티티와 관계를 추출하고, 자동으로 그래프를 구성
- 커뮤니티 탐지와 계층적 요약 — Leiden 알고리즘으로 그래프를 커뮤니티(클러스터)로 묶고, 각 커뮤니티마다 LLM 요약을 미리 생성. 사용자 질문에는 관련 커뮤니티 요약을 컨텍스트로 제공
이 구조 덕분에 단순 Vector RAG가 약한 "글로벌 질문"("이 문서 컬렉션의 핵심 주제는?")에 강합니다. 단점은 LLM 토큰 비용이 큽니다. 대규모 문서 인덱싱에 LLM 호출이 수천~수만 번 들어갑니다.
Neo4j 연동, Azure 통합 등 산업 적용을 가정한 옵션이 잘 갖춰져 있어 Graph RAG 사실상 레퍼런스 구현으로 자리잡았습니다.