NVIDIA B200

NVIDIA B200은 차세대 Blackwell 아키텍처를 기반으로 한 데이터센터용 AI 가속기이다. H100 대비 훈련 성능 2.5배 향상을 달성하며, FP4/FP6 등 새로운 저정밀도 연산을 지원한다.

주요 사양

아키텍처: Blackwell
메모리: 192GB HBM3e
메모리 대역폭: 8TB/s
지원 정밀도: FP4, FP6, FP8, FP16 등
인터커넥트: NVLink 5.0 (1.8TB/s)
성능 대비 비용: $8~12/TFLOP

특징

NVIDIA Vera Rubin이 후속 칩으로 예정되어 있다. B200은 FP4와 FP6 연산을 새롭게 지원하여 추론 효율을 극대화했다. 낮은 정밀도에서도 모델 품질을 유지할 수 있는 기법이 발전하면서, FP4 지원은 실질적인 추론 처리량 향상으로 이어진다.

NVLink 5.0을 통해 GPU 간 1.8TB/s의 초고속 인터커넥트를 제공하며, 이는 대규모 모델의 분산 훈련과 추론에서 통신 병목을 해소하는 핵심 요소이다. H100 대비 훈련 성능이 2.5배 향상되었고, TFLOP당 비용은 $8~12 수준으로 성능 대비 가성비도 개선되었다.