뉴스피드 큐레이션 SNS 대시보드 저널

NVIDIA, Blackwell Ultra 플랫폼으로 MLPerf 추론 v6.0 기록 경신 - StorageReview.com

[AI] suse ai factory | | 🖥️ 하드웨어
#하드웨어/반도체 #ai 데이터센터 #ai데이터센터 #arm #cpu·npu #npu #skt #sk텔레콤 #리벨리온

요약

SK텔레콤은 영국 Arm 및 국내 AI 반도체 스타트업 리벨리온과 업무협약(MOU)을 체결하고, Arm의 'AGI CPU'와 리벨리온의 '리벨카드(NPU)'를 단일 서버에 탑재하는 차세대 AI 추론 최적화 솔루션을 공동 개발합니다. 이는 CPU가 범용 연산과 시스템 제어를 담당하고 NPU가 AI 추론을 전담하는 이종 컴퓨팅 방식으로, 기존 GPU 대비 전력 효율은 높이고 비용은 낮추는 것이 핵심입니다. SK텔레콤은 이 솔루션을 자사 AI 데이터센터에 도입해 실증할 계획이며, 자체 파운데이션 모델인 'A.X K1'과 결합해 저전력·고효율의 AI 데이터센터 사업 경쟁력을 대폭 강화하기로 했습니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

NVIDIA가 결과를 발표했습니다. MLPerf Inference v6.0은 하드웨어, 소프트웨어 및 모델 전반에 걸친 긴밀한 공동 설계를 통해 시스템 수준의 성능 향상을 달성했다고 강조합니다. 이 회사는 추론 처리량과 토큰 경제성을 AI 팩토리 성능의 주요 지표로 제시하며, 최고 가속기 사양을 넘어 실제 워크로드에서 측정된 출력을 중점적으로 평가합니다. 이번 라운드에서는 NVIDIA Blackwell Ultra GPU 기반 시스템이 제출된 모든 모델과 시나리오에서 가장 높은 처리량을 기록했습니다. 또한, 플랫폼을 둘러싼 생태계가 확장되어 ASUS, Cisco, CoreWeave, Dell Technologies, GigaComputing, Google Cloud, HPE, Lenovo, Nebius, Netweb Technology, QCT, Red Hat, Supermicro, Lambda 등 주요 OEM, 클라우드 제공업체 및 시스템 통합업체를 포함한 14개 파트너사가 결과를 제출했습니다. 확장된 벤치마크 범위는 새롭게 부상하는 워크로드를 반영합니다. MLPerf Inference v6.0은 최신 AI 배포 환경을 더 잘 반영하는 여러 가지 새로운 벤치마크를 도입했습니다. NVIDIA는 대규모 언어 모델, 멀티모달 시스템, 생성형 비디오 및 추천 엔진을 포함한 모든 새로운 테스트에 데이터를 제출한 유일한 공급업체입니다. 주요 추가 기능으로는 DeepSeek-R1 Interactive가 있습니다. 이 모델은 이전 서버 시나리오에 비해 더 빠른 토큰 전달과 첫 번째 토큰 획득 시간 단축을 통해 더 높은 상호작용성을 제공합니다. 또한 MLPerf 추론에 최초로 포함된 멀티모달 비전-언어 모델인 Qwen3-VL-235B-A22B와 오프라인, 서버 및 대화형 시나리오에서 테스트된 전문가 혼합 추론 모델인 GPT-OSS-120B도 추가되었습니다. | 시나리오 | DeepSeek-R1 | GPT-OSS-120B | 웬3-VL | 완 2.2 | DLRMv3 | |---|---|---|---|---|---| | 오프라인 | 2,494,310 토큰/초* | 1,046,150개 토큰/초 | 79 샘플 / 초 | 0.059 샘플 / 초 | 104,637 샘플 / 초 | | 서버 | 1,555,110 토큰/초* | 1,096,770개 토큰/초 | 초당 68건의 쿼리 | 21초** (싱글 스트림) | 초당 99,997건의 쿼리 | | 대화 형 | 250,634개 토큰/초 | 677,199개 토큰/초 | *** | *** | *** | * MLPerf Inference v6.0에서 새로운 시나리오는 아닙니다. ** WAN 2.2는 서버 시나리오 대신 종단 간 요청 지연 시간을 측정하는 단일 스트림 시나리오를 제공합니다. 값이 낮을수록 좋습니다. ***MLPerf Inference v6.0에서는 테스트되지 않았습니다. 이제 생성형 미디어 및 추천 워크로드가 포함됩니다. WAN 2.2 텍스트-비디오 변환 모델은 지연 시간에 민감한 테스트와 처리량에 초점을 맞춘 테스트를 모두 제공하며, DLRMv3는 기존 추천 벤치마크를 연산 강도와 모델 복잡성을 향상시키는 트랜스포머 기반 아키텍처로 대체합니다. 소프트웨어 최적화는 측정 가능한 성과를 가져옵니다. 이번 발표의 주목할 만한 점은 소프트웨어 업데이트를 통해 기존 하드웨어에서 성능 향상을 달성했다는 것입니다. NVIDIA는 GB300 NVL72 플랫폼에서 DeepSeek-R1 서버 시나리오에 대해 6개월 전 결과 대비 최대 2.7배 높은 토큰 처리량을 기록했다고 밝혔습니다. 이러한 개선은 토큰당 비용을 크게 절감하고 구축된 인프라의 활용도를 높이는 데 기여합니다. 이러한 성능 향상은 TensorRT-LLM 스택 및 관련 프레임워크의 업데이트 덕분입니다. 커널 수준 최적화 및 융합 기술은 실행 오버헤드를 줄여주고, 향상된 어텐션 데이터 병렬 처리는 GPU 간 워크로드를 더욱 효율적으로 분산합니다. 또한 Dynamo 분산 추론 프레임워크의 추가적인 개선 사항은 분산형 서빙을 가능하게 하여 사전 채우기 및 디코딩 단계를 독립적으로 최적화할 수 있도록 합니다. 전문가 혼합 모델의 경우, Wide Expert Parallel과 같은 기술은 메모리 병목 현상을 줄이기 위해 전문가 가중치를 GPU에 분산합니다. 다중 토큰 예측은 여러 토큰을 한 번에 생성하고 검증함으로써 배치 처리량이 적고 지연 시간에 민감한 시나리오에서 컴퓨팅 효율성을 향상시킵니다. 키-값 인식 라우팅은 예상 컴퓨팅 비용을 기반으로 추론 요청을 처리하여 스케줄링을 더욱 개선합니다. | 기준 | GB300 NVL72 v5.1 | GB300 NVL72 v6.0 | 속도 향상 | |---|---|---|---| | DeepSeek-R1 (섬기는 사람) | GPU당 초당 2,907 토큰 | GPU당 초당 8,064 토큰 | SR 2.77x | | DeepSeek-R1 (오프라인) | GPU당 초당 5,842 토큰 | GPU당 초당 9,821 토큰 | SR 1.68x | | 라마 3.1 405B (섬기는 사람) | GPU당 초당 170 토큰 | GPU당 초당 259 토큰 | SR 1.52x | | 라마 3.1 405B (오프라인) | GPU당 초당 224 토큰 | GPU당 초당 271 토큰 | SR 1.21x | NVIDIA는 기존 모델에서도 지속적인 확장성을 입증했습니다. Llama 3.1 405B에서 GB300 NVL72 플랫폼은 서버 시나리오에서 1.5배의 성능 향상을 달성했는데, 이는 새로운 아키텍처와 더불어 고밀도 LLM에 대한 지속적인 최적화가 이루어지고 있음을 보여줍니다. 개방형 생태계 및 프레임워크 통합 새로운 워크로드 전반에 걸친 제출물들은 NVIDIA 프레임워크와 오픈 소스 프레임워크를 혼합하여 활용했습니다. Qwen3-VL 벤치마크는 vLLM 프레임워크를 사용했는데, 이는 멀티모달 추론 최적화 분야의 빠른 발전을 반영합니다. Wan 2.2 텍스트-비디오 변환 결과는 GPU 기반 확산 파이프라인을 목표로 하는 TensorRT-LLM VisualGen을 사용하여 구현되었습니다. DLRMv3에서 NVIDIA는 자사의 recsys-example 프레임워크를 GPU 가속 임베딩 조회 기술과 결합하여 트랜스포머 기반 추천 모델의 증가된 요구 사항을 처리했습니다. 이러한 통합은 하드웨어에서 성능을 최대한 끌어내는 데 있어 광범위한 소프트웨어 생태계의 역할을 강조합니다. InfiniBand를 활용한 확장성 성능 NVIDIA는 Quantum-X800 InfiniBand로 연결된 4개의 GB300 NVL72 시스템을 사용하여 대규모 추론 성능을 선보였습니다. 총 288개의 Blackwell Ultra GPU로 구성된 이 시스템은 현재까지 MLPerf 추론 제출 중 가장 큰 규모이며, DeepSeek-R1에서 초당 수백만 개의 토큰을 처리하는 시스템 수준의 처리량을 달성했습니다. | DeepSeek-R1 | 4x GB300 NVL72 | 토큰/초 | |---|---| | 오프라인 | 2,494,310 | | 서버 | 1,555,110 | 이번 결과는 특히 분산형 LLM 서비스 및 고처리량 배치 처리와 같은 추론 워크로드 확장에 있어 고성능 인터커넥트가 중요하다는 점을 강조합니다. 서비스 수준 벤치마킹을 향하여 앞으로 NVIDIA는 MLCommons 컨소시엄 내에서 MLPerf 엔드포인트 개발을 지원할 예정입니다. 이 벤치마크는 실제 API 트래픽을 사용하여 배포된 추론 서비스를 측정함으로써 구성 요소 수준이 아닌 서비스 수준에서 지연 시간, 처리량 및 효율성에 대한 통찰력을 제공하는 것을 목표로 합니다. AI 워크로드가 더 긴 컨텍스트 창을 가진 에이전트 시스템으로 발전함에 따라, 엔드투엔드 서비스 성능을 측정하는 벤치마크는 클라우드 제공업체와 기업 배포 모두에서 더욱 중요해질 것으로 예상됩니다.

관련 저널 읽기

전체 보기 →