NVIDIA와 Google Cloud는 Next 2026에서 AI 하이퍼컴퓨터 플랫폼을 확장합니다. - StorageReview.com
[AI] suse ai factory
|
|
🖥️ 하드웨어
#하드웨어/반도체
요약
엔비디아와 구글 클라우드는 Google Cloud Next 행사에서 협력을 확장하여, 차세대 AI 하이퍼컴퓨터 플랫폼을 발표했습니다. 양사는 자율 에이전트와 로봇 공학을 지원하기 위해 엔비디아의 ‘베라 루빈(Vera Rubin)’ 기반 A5X 인프라와 ‘블랙웰’ 기반 다양한 인스턴스를 공동 설계했습니다. 이 플랫폼은 이전 세대 대비 토큰당 비용을 최대 10배 낮추고 효율을 극대화하며, 단일 사이트 내에서 최대 8만 개의 GPU로 확장이 가능합니다. 아울러 기업의 민감한 데이터 보호를 위한 기밀 컴퓨팅 기능과 물리적 AI 시뮬레이션 도구를 통합하여 상용화 환경을 지원합니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
NVIDIA와 Google Cloud는 라스베이거스에서 열린 Google Cloud Next 행사에서 오랜 기간 이어져 온 엔지니어링 파트너십의 새로운 단계를 발표하고, 프로덕션 환경에서 에이전트형 및 물리적 AI를 확장할 수 있도록 Google Cloud AI 하이퍼컴퓨터 플랫폼을 업데이트했습니다. 양사는 자율 에이전트, 로봇 공학, 디지털 트윈을 포함한 점점 더 복잡해지는 AI 워크로드를 지원하기 위해 실리콘, 시스템, 네트워킹 및 소프트웨어에 걸쳐 인프라를 공동 설계하고 있습니다. Vera Rubin 기반 A5X 인프라는 대규모 AI 팩토리를 목표로 합니다. Google Cloud는 A5X 베어메탈 인스턴스를 출시했습니다. 엔비디아 베라 루빈 NVL72 랙 규모 시스템. 이러한 시스템은 추론 경제성과 효율성을 크게 향상시키도록 설계되어 이전 세대 대비 토큰당 비용을 최대 10배 낮추고 메가와트당 토큰 처리량을 최대 10배 높입니다. A5X 플랫폼은 통합됩니다. NVIDIA ConnectX-9 SuperNIC이 아키텍처는 Google의 차세대 Virgo 네트워킹 스택을 사용합니다. 이를 통해 단일 사이트 내에서 최대 80,000개의 Rubin GPU, 여러 사이트에 걸쳐 배포할 경우 최대 960,000개의 GPU로 클러스터 확장이 가능합니다. 이 설계는 네트워크 성능과 시스템 수준 최적화가 중요한 하이퍼스케일 AI 학습 및 추론 환경을 목표로 합니다. 구글 클라우드는 차세대 AI 워크로드를 지원하기 위해서는 긴밀하게 통합된 인프라와 관리형 AI 서비스가 필수적이라고 강조했습니다. 이러한 통합 스택을 통해 고객은 성능, 효율성 및 운영 확장성을 중시하며 모델을 학습, 미세 조정 및 배포할 수 있습니다. 블랙웰의 폭넓은 포트폴리오를 통해 적정 규모의 가속화를 실현합니다. 구글 클라우드는 또한 다양한 배포 규모와 성능 프로필을 아우르는 NVIDIA Blackwell 기반 인스턴스 포트폴리오를 공개했습니다. 제공되는 제품에는 NVIDIA HGX B200 시스템 기반의 A4 VM, GB200 및 GB300 NVL72 플랫폼 기반의 A4X 및 A4X Max 구성, 그리고 G4 인스턴스를 통한 부분 GPU 액세스가 포함됩니다. RTX PRO 6000 블랙웰 서버 에디션 GPUs. 이 제품군은 조직이 워크로드 요구 사항에 맞춰 인프라를 조정할 수 있도록 지원합니다. 구성은 가벼운 추론 작업을 위한 부분 GPU부터 5세대 NVLink 및 NVLink 스위치 기술로 상호 연결된 72개의 GPU로 구성된 전체 NVL72 랙까지 다양합니다. 최고 수준의 경우, 대규모 모델 학습 및 분산 추론을 위해 수만 개의 GPU로 확장할 수 있습니다. 이러한 시스템은 전문가 혼합 모델(MoE), 다중 모달 추론, 대규모 데이터 처리, 로봇 공학 및 물리적 AI를 위한 시뮬레이션 워크로드 등 다양한 AI 워크로드를 지원하도록 설계되었습니다. 초기 사용자들은 이미 플랫폼을 활용하고 있습니다. Thinking Machines Lab도 이를 사용하고 있습니다. GB300 NVL72Google은 Tinker API 학습 확장을 위해 A4X Max 인스턴스를 사용하고 있으며, OpenAI는 ChatGPT를 포함한 대규모 추론 워크로드를 Google Cloud의 GB200 및 GB300 기반 인스턴스에서 실행하고 있습니다. 기밀 AI 기술이 블랙웰 GPU까지 확장됩니다 Google Cloud는 AI 인프라에 기밀 컴퓨팅 기능을 확장하고 있습니다. NVIDIA Blackwell 및 Blackwell Ultra GPU에서 실행되는 Gemini 모델이 이제 Google 분산 클라우드에서 미리 보기로 제공되어 기업들이 민감한 데이터 소스에 더 가까운 곳에 모델을 배포할 수 있게 되었습니다. NVIDIA 기밀 컴퓨팅은 암호화된 실행 환경을 제공하여 프롬프트 및 세부 조정 데이터를 클라우드 운영자를 포함한 무단 액세스로부터 보호합니다. 이 기능은 RTX PRO 6000 Blackwell GPU가 탑재된 기밀 G4 VM을 통해 멀티테넌트 환경에서도 사용할 수 있게 됩니다. 이는 블랙웰 GPU를 활용한 퍼블릭 클라우드 환경에서의 첫 번째 기밀 컴퓨팅 구현 사례로, 고성능 AI 인프라에 대한 접근성을 유지하면서 엄격한 데이터 보호가 요구되는 규제 산업 분야를 대상으로 합니다. 에이전트형 AI를 위한 오픈 모델 및 관리형 강화 학습 파이프라인 이 플랫폼은 Google의 Gemini 및 Gemma 모델과 NVIDIA의 Nemotron 오픈 모델을 포함한 광범위한 모델 생태계를 지원합니다. NVIDIA 네모트론 3 Super는 이제 Gemini Enterprise Agent Platform과 통합되어 개발자가 추론 기반 에이전트 워크플로를 구축하고 배포할 수 있게 되었습니다. Google Cloud는 NVIDIA NeMo 기반의 강화 학습 API를 갖춘 관리형 학습 클러스터도 출시합니다. 이 서비스는 클러스터 프로비저닝, 작업 오케스트레이션 및 오류 처리를 자동화하여 대규모 강화 학습을 가능하게 합니다. 목표는 운영 복잡성을 줄이고 팀이 모델 동작 및 최적화에 집중할 수 있도록 하는 것입니다. CrowdStrike는 NVIDIA NeMo 도구(Data Designer, Automodel, Megatron Bridge 포함)를 사용하여 합성 데이터를 생성하고 도메인별 사이버 보안 모델을 세밀하게 조정합니다. 이러한 워크플로는 Blackwell 기반 인프라에서 실행되어 위협 탐지 및 대응 파이프라인을 가속화합니다. 산업 및 물리적 AI 워크로드 확장 이 공동 플랫폼은 산업 및 물리적 AI 활용 사례를 목표로 합니다. Cadence와 Siemens Digital Industries Software의 애플리케이션은 이제 NVIDIA 가속 기능을 통해 Google Cloud에서 사용할 수 있으며, 반도체, 자동차, 항공우주 및 중장비와 같은 다양한 산업 분야의 설계, 시뮬레이션 및 제조 워크플로우를 지원합니다. NVIDIA Omniverse 라이브러리와 Isaac Sim은 Google Cloud Marketplace에서 이용 가능하며, 이를 통해 물리적으로 정확한 디지털 트윈과 로봇 시뮬레이션 파이프라인을 개발할 수 있습니다. 이러한 도구를 활용하면 기업은 시스템을 배포하기 전에 시뮬레이션하고 검증할 수 있습니다. 또한 NVIDIA NIM 마이크로서비스는 Vertex AI 및 Google Kubernetes Engine에 배포하여 비전 AI 및 로봇 공학 워크로드를 지원할 수 있습니다. 이러한 서비스를 통해 실시간 비디오 분석, 로봇 계획 수립, 자동 데이터 처리와 같은 기능을 구현할 수 있습니다. 플랫폼 집중 분석: 실험에서 생산까지 이번 업데이트를 통해 Google Cloud AI Hypercomputer는 연구 단계에서 실제 운영 단계로 AI 워크로드를 이전할 수 있는 풀 스택 플랫폼으로 자리매김하게 되었습니다. 긴밀하게 통합된 컴퓨팅, 네트워킹, 소프트웨어 및 보안 기능을 갖춘 이 플랫폼은 대규모 에이전트 시스템, 산업 자동화 및 실시간 AI 애플리케이션을 지원하도록 설계되었습니다.