Baseten 1.5B 시리즈 F 펀딩 분석
AI 추론 인프라 스타트업 Baseten이 2026년 6월 22일 15억 달러 규모의 시리즈 F 라운드를 완료했습니다. Altimeter Capital, Conviction, Spark Capital이 공동 리드를 맡았고, Sands Capital, Wellington Management가 공동 리드로 참여했습니다. IVP, Greylock, 01A, D.E. Shaw 등도 포함됐습니다. 기업가치는 두 트랜치로 나뉘어 각각 110억 달러와 130억 달러로 평가됐습니다.
Baseten이 하는 일
Baseten은 AI 모델을 프로덕션 API로 전환하는 서버리스 추론 플랫폼입니다. ML 모델 운영에서 반복되는 작업들, GPU 오케스트레이션, 오토스케일링, 캐싱, 모니터링을 추상화해서 개발자가 모델 코드에만 집중할 수 있게 합니다.
실제 사용 방식은 세 갈래입니다.
첫 번째는 Dedicated Deployments입니다. 특정 GPU 인스턴스를 선택하고 오토스케일링 파라미터를 직접 설정합니다. 커스텀 파인튜닝 모델이나 독점 워크로드에 적합합니다.
두 번째는 Model APIs입니다. Llama, DeepSeek 같은 오픈소스 모델을 원클릭으로 배포하고 OpenAI 호환 엔드포인트로 바로 씁니다. 자체 인프라 없이 오픈소스 모델을 쓰고 싶을 때 선택하는 경로입니다.
세 번째는 Chains SDK입니다. 여러 모델을 파이프라인으로 연결하는데, 각 스텝이 서로 다른 GPU에서 실행되고 포인트-투-포인트 통신으로 결과를 전달합니다. 멀티모달 워크플로우나 에이전트 파이프라인 구성에 씁니다.
Truss라는 오픈소스 프레임워크로 모델을 패키징하면, 이후 배포부터 스케일링까지 플랫폼이 처리합니다.
왜 지금 이 규모인가
이번 라운드의 배경에는 오픈소스 모델 성숙이라는 구조적 변화가 있습니다.
Baseten은 투자 발표에서 "선도적인 앱 레이어 회사들이 모델 지출의 30~50%를 커스텀·파인튜닝 모델로 돌리고 있다"고 밝혔습니다. 1년 전까지 ChatGPT API 하나로 해결하던 팀들이, 이제 특정 태스크에 최적화된 오픈소스 모델을 골라 배포하는 방식으로 옮겨가고 있습니다. 클로즈드 소스와 오픈소스의 성능 격차가 좁혀질수록 이 흐름은 가속됩니다.
수치로 보면 성장 속도가 분명합니다. 전년 대비 매출은 약 20배 증가했고, 현재 하루 10억 건 이상의 추론 요청을 처리합니다. 글로벌 87개 클러스터, 18개 클라우드에 분산돼 있습니다.
이 성장은 모델 공급자(OpenAI, Anthropic 등)의 성장과는 다릅니다. 파운데이션 모델이 상품화될수록, 그 위에서 돌리는 추론 인프라의 경쟁력이 부각됩니다. Baseten의 포지션은 이 구조에 맞춰져 있습니다.
자금의 쓰임새
Baseten은 이번 자금을 인재, 컴퓨트, 엔터프라이즈 영업에 쓸 계획입니다. 올해 인원을 세 배로 늘리고 있으며, 엔지니어링, 리서치, 운영, GTM 팀을 모두 확장 중입니다.
87개 클러스터와 18개 클라우드를 유지하려면 컴퓨트 비용이 상당합니다. 하루 10억 건의 추론 트래픽이 예고 없이 몰리는 상황에서 99.99% 이상의 가동률을 유지하는 인프라를 운영하는 데는 지속적인 투자가 필요합니다.
AI 추론 인프라 투자 경쟁
Baseten의 이번 라운드는 단독이 아닙니다. TechTimes 보도에 따르면, 같은 주에 AI 추론·세계 모델 스타트업들이 이틀 만에 총 18억 달러를 조달했습니다. 파운데이션 모델 레이어의 경쟁이 일단락되면서 투자 자금이 추론 인프라와 애플리케이션 레이어로 이동하는 흐름이 보입니다.
오픈소스 LLM을 직접 배포하는 팀이라면, 이런 플랫폼이 자체 GPU 인프라 대비 어느 시점에서 경제적으로 유리한지 따져볼 시점입니다. 하루 수백만 건 이하의 요청이라면 직접 관리 비용이 오히려 클 수 있습니다.
출처: BusinessWire, SiliconANGLE