Elephant Alpha 스텔스 모델

지난주 OpenRouter에 **코드명 "Elephant Alpha"**라는 모델이 조용히 올라왔습니다. 제작사 미공개, 모델 카드 없음, 무료 공급. 그런데 환각 억제 벤치마크에서 1위를 찍었습니다.

개발자 커뮤니티가 술렁이고 있습니다. DeepSeek일까, Qwen일까, 새로운 Llama 계열일까. 확인된 건 **"유명한 오픈 모델 랩의 스텔스 릴리즈"**라는 한 줄뿐입니다.

모델 접속: openrouter.ai/openrouter/elephant-alpha OpenRouter 공식 트윗: @OpenRouter

기본 스펙

항목	내용
출시일	2026년 4월 13일
파라미터	100B
컨텍스트	256K 토큰
출력 최대	32K 토큰
지원 기능	Function calling, Structured output, Prompt caching
입력 양식	텍스트 전용 (이미지·오디오·비디오 미지원)
가격	입력·출력 모두 $0 (알파 기간)
공급자	비공개 ("a prominent open model lab")

256K 컨텍스트는 100B급 모델에서 상위권입니다. 다만 멀티모달이 빠진 점은 요즘 모델들 흐름과 다릅니다. 텍스트·코드 워크로드에만 집중한 설계로 보입니다.

벤치 수치 — 환각 억제 1위

benchable.ai 독립 벤치 기준입니다.

카테고리	점수	평가
Hallucination Prevention	100%	🥇 전체 1위 (정확도·비용효율 모두)
General Knowledge	98.0%	최상위권
Ethics	96.0%	—
Email Classification	96.0%	—
Coding	82.0%	강점 영역
Reasoning	78.0%	평균
Instruction Following	54.0%	⚠️ 약점
전체 성공률	99%	—
속도	67 백분위	상위권

해석: - 환각 100%는 드문 수치입니다. 상위 프론티어 모델들도 대부분 95% 전후에서 맴돕니다. 학습·RLHF 파이프라인이 "모르면 모른다고 말한다"는 축에 상당한 자원을 투입한 흔적입니다. - 코딩 82%는 100B급 평균 이상. 공식 공급자가 강조한 "code completion, debugging" 포지셔닝과 일치합니다. - 지시 이행 54%는 명백한 약점입니다. 복잡한 다단계 지시를 처리해야 하는 에이전트 워크로드에 쓰려면 주의가 필요합니다.

포지셔닝: "Intelligence Efficiency"

공급자의 핵심 메시지는 *"같은 정확도를 더 적은 토큰으로"입니다. OpenRouter 공식 설명은 *"100B급 SOTA 매칭하면서 극도로 토큰 효율적".

공식 타깃 용도: - Rapid code completion / debugging - Long document 단일 패스 처리 (256K 컨텍스트 활용) - Lightweight agent loops (토큰 예산 중요한 상황)

Claude 토큰 소모와 성능 저하에서 다뤘듯, 요즘 모델들은 토큰 효율이 점점 중요한 축이 되고 있습니다. Elephant Alpha는 이 흐름을 정면으로 잡겠다는 메시지입니다.

정체는 누구인가

가장 재밌는 부분입니다. 아무도 모릅니다.

커뮤니티 추측: - David Hendrickson (X)은 DeepSeek V3.3 또는 "V4 Lite" 가능성을 제기. 100B + 256K + 토큰 효율 강조는 DeepSeek 시리즈의 특성과 맞아떨어집니다. - "prominent open model lab" 표현은 오픈 가중치를 공개하는 랩을 시사합니다. 후보군: DeepSeek, Qwen(Alibaba), Meta(Llama), Mistral, Kimi. - OpenAI나 Anthropic은 오픈 모델 랩이 아니므로 제외됩니다.

단정할 수 없는 이유: - 공식 모델 카드 없음 - 학습 세부정보 없음 - 표준 벤치(SWE-bench, MMLU, HumanEval) 랩 측 공표 없음 - 아키텍처 상세 미공개

흥미로운 단서 하나: Kilo 블로그가 **이전 스텔스 모델 "Giga Potato"**를 언급했습니다. OpenRouter가 동물·사물 코드명으로 스텔스 모델을 시리즈로 운영하고 있다는 뜻입니다. Sonoma Dusk, Sonoma Sky(둘 다 나중에 Grok 4 계열로 밝혀짐) 같은 사례도 있었습니다. 알파 기간이 끝나면 정체가 공개되는 패턴이 유력합니다.

왜 무료로 풀었나

이유는 단순합니다. 학습 데이터 수집입니다.

공식 고지:

"Prompts and completions may be logged by the provider and used to improve the model."

100B 모델을 전 세계에 무료로 푸는 랩은 자선 사업이 아닙니다. 이용자의 프롬프트·완성 결과가 다음 버전 학습 데이터로 쓰입니다. 그래서:

민감 정보·사내 코드는 절대 입력 금지
프로덕션 의존 금지 — 알파는 언제든 종료 가능
datanorth.ai와 Kilo 공식 블로그가 공통으로 권고한 포지셔닝: "평가 채널". 성능 평가용으로만 쓰고, 실제 서비스는 공식 공급자로 돌려야 합니다.

스텔스 모델 생태계는 **"무료 벤치 공유 vs 프롬프트 로깅"**이라는 딜 구조 위에 서 있습니다. 유용하지만, 이해하고 써야 합니다.

정리 — 써볼 만한가

써볼 만한 경우: - 새 모델 평가 / 벤치마크 실험 - 민감하지 않은 대용량 문서 요약·번역 - 개인 프로젝트의 빠른 코드 자동완성

쓰면 안 되는 경우: - 사내 비공개 코드 입력 - 고객 데이터 처리 - 복잡 다단계 지시 기반 에이전트 (IF 54%가 발목을 잡습니다) - 서비스 운영 경로 (공급 종료 리스크)

핵심 요약: 환각 잘 안 내고, 코딩 적당히 잘하고, 지시는 좀 잘 못 듣는 100B 모델. 토큰을 아껴주는 게 강점, 복잡한 문맥에서 무너지는 게 약점입니다. 정체가 공개되는 2~3주 후가 진짜 평가의 시작일 겁니다.