Databricks Genie Ontology - RAG를 넘어선 엔터프라이즈 지식 레이어

🏷️ 정보 LLM 에이전트 KMS

개인이 LLM Wiki를 쓰는 건 마크다운 파일 몇 개면 됩니다. 하지만 팀이 100명, 데이터베이스가 수백 개로 커지면 이야기가 달라집니다. "우리 팀에서 '전환율'이 뭘 의미하는지"를 AI가 알게 하려면, 누군가가 그걸 위키에 써야 합니다. 그리고 그 위키가 틀렸을 때 어떻게 알 수 있을까요.

Databricks가 2026년 6월 공개한 Genie Ontology는 이 문제를 정면으로 다룹니다. 사람이 직접 쓰지 않아도 됩니다. 시스템이 기존 테이블, 쿼리, 대시보드, 파이프라인에서 비즈니스 맥락을 자동으로 추출합니다.

RAG의 천장: 수동 큐레이션 문제

RAG는 검색 기반 접근입니다. 문서를 벡터화하고, 질문과 유사한 청크를 가져와서 LLM에 넣습니다. 잘 동작하지만 전제가 있습니다. 좋은 문서가 있어야 합니다.

엔터프라이즈 환경에서 이 전제는 자주 무너집니다. 비즈니스 용어 정의가 팀마다 다릅니다. 메트릭 계산 방식이 대시보드마다 조금씩 다릅니다. 어떤 정의가 "공식"인지 문서에 없습니다. RAG가 가져오는 청크가 옳은지 그른지 모델이 판단할 방법이 없습니다.

Databricks가 InfoWorld에서 한 말이 이 문제를 잘 요약합니다. "RAG는 내용을 가져오지만, 그 내용이 신뢰할 만한지는 모른다."

Genie Ontology: 살아있는 맥락 그래프

Genie Ontology는 "living context graph"입니다. 자동으로 조직의 데이터 자산에서 지식을 추출하고 구조화합니다.

세 가지 핵심 기능이 있습니다.

첫째, 지식 추출. 메트릭 정의, 비즈니스 용어, 계산 방식, 개념 간 관계를 기존 테이블, 쿼리, 대시보드, 파이프라인에서 자동으로 파악합니다. "전환율"이 세 군데 대시보드에서 다르게 정의되어 있으면, 그 차이를 감지합니다.

둘째, 권위성 결정 (OntoRank). 이것이 핵심입니다. 여러 정의가 충돌할 때, 어느 것이 "공식"인지 판단해야 합니다. Genie Ontology는 PageRank와 유사한 방식으로 출처의 신뢰도를 가중합니다.

이 정의를 얼마나 많은 사람이 쓰는가
이 정의를 작성한 사람의 권한은 무엇인가
이 정의가 얼마나 광범위하게 검증된 자산과 연결되어 있는가
이 정보는 얼마나 최신인가

검색 점수가 아니라 비즈니스 권위성으로 순위를 매깁니다.

셋째, 권한 강제. 소스별 ACL(접근 제어 목록)을 자동으로 적용합니다. 마케팅팀 데이터를 재무팀 에이전트가 읽지 못하게 합니다.

Genie One과 Genie Agents

Genie Ontology는 단독으로 쓰이지 않습니다. Genie One, Genie Agents와 함께 하나의 스택을 이룹니다.

Genie One은 기업 데이터 기반 AI 동료입니다. Slack, Microsoft Teams, 모바일 앱에 네이티브로 통합됩니다. Lakehouse federation과 Lakeflow Connect로 여러 데이터 소스를 연결하고, MCP 기반 커스텀 어시스턴트를 지원합니다.

Genie Agents는 단일 프롬프트에서 다단계 워크플로우를 자율적으로 완료합니다. 스케줄된 작업, 문서 생성, 외부 시스템 쓰기까지 가능합니다.

2026년 6월 내부 벤치마크(28개 실제 데이터 분석 문제)에서 Genie는 84.5%의 첫 시도 성공률을 기록했습니다. 최강 경쟁 코딩 에이전트가 52.4%, 최약이 25%였습니다. 속도는 최강 경쟁사 대비 2배 빠릅니다. Databricks 자체 벤치마크라는 점은 감안해야 합니다.

개인 LLM Wiki와의 비교

항목	개인 LLM Wiki	Genie Ontology
지식 작성	사람이 직접	기존 자산에서 자동 추출
정의 충돌 처리	없음	OntoRank로 권위성 결정
업데이트	수동	지속적 자동 갱신
권한 관리	없음	ACL 자동 적용
적합 규모	개인, 소팀	팀, 조직

개인 LLM Wiki의 가장 큰 약점이 유지보수 부담이라면, Genie Ontology는 그 문제를 자동화로 우회합니다. 하지만 트레이드오프가 있습니다. 자동 추출은 기존 데이터 자산이 충분히 구조화되어 있어야 작동합니다. 데이터 자산이 엉망인 조직에서는 쓰레기를 자동으로 정리하는 셈이 됩니다.

KMS 사다리에서의 위치

이 시리즈에서 정리한 KMS 방법론들을 규모 기준으로 줄 세우면 이렇습니다.

개인    →  LLM Wiki (마크다운 + 수동 작성)
소팀    →  GraphRAG (그래프 구조 + 관계 기반 검색)
조직    →  Genie Ontology (자동 추출 + 권위성 결정 + 권한 관리)

Genie Ontology가 흥미로운 이유는 "조직의 지식을 AI가 이해하게 만드는 것"이 단순히 문서를 벡터화하는 문제가 아님을 보여주기 때문입니다. 어떤 정의가 옳은지를 판단하는 것이 핵심입니다. 그리고 그 판단을 사람이 일일이 내리지 않아도 되게 만드는 것이 엔터프라이즈 KMS의 방향입니다.

참고: Databricks 공식 블로그 (2026-06-16) / InfoWorld — From RAG to ontology