VDURA, GTC 2026에서 AI 데이터 플랫폼을 위한 RDMA 및 컨텍스트 인식 계층화 기술 소개 - StorageReview.com
[AI] suse ai factory
|
|
🔬 연구
#review
#ai
#ai 가이드라인
#llm
#머신러닝
#머신러닝/연구
#벤치마크
#연구
#저널리즘
요약
저널리스트들이 참여한 워크숍을 통해 뉴스 제작 환경에 특화된 대규모 언어 모델(LLM) 벤치마크 설계 지침인 '벤치마크 요리책'이 마련되었습니다. 이 가이드라인은 저널리즘의 핵심 가치를 존중하도록 설계되었으나, 향후 과제로 남은 모델의 일반화 가능성, 데이터 접근성, 그리고 결과의 유효성 검증과 관련된 난제들도 함께 식별되었습니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
VDURA는 GTC 2026에서 AI 환경에서 GPU 활용률과 스토리지 효율성을 향상시키는 데이터 플랫폼 업데이트를 선보였습니다. 이번 발표에는 RDMA(원격 직접 메모리 액세스)의 정식 출시, 컨텍스트 인식 계층화 기술의 미리보기, AMD EPYC Turin CPU와 NVIDIA ConnectX-7 네트워킹 기반의 검증된 인프라 구성 등이 포함됩니다. 이번 업데이트는 GPU 클러스터와 스토리지 간의 데이터 이동 병목 현상을 제거하고 대규모 AI 학습 및 추론 워크로드를 위해 스토리지 계층 전반에 걸쳐 데이터 배치를 최적화하는 것을 목표로 합니다. RDMA는 GPU 직접 데이터 경로를 지원합니다. VDURA는 플랫폼 전반에 걸쳐 RDMA 지원을 추가하여 GPU 서버가 CPU 개입 없이 네트워크를 통해 스토리지에 직접 액세스할 수 있도록 했습니다. 이를 통해 기존의 커널 및 CPU 매개 경로를 우회하는 GPU-스토리지 데이터 전송이 가능해져 지연 시간이 줄어들고 처리량이 증가합니다. 이 구현은 VDURA의 데이터 전송 계층인 DirectFlow와 통합되어 모든 GPU 서버 트래픽이 RDMA를 사용하도록 합니다. 데이터 경로에서 CPU 오버헤드를 제거함으로써 컴퓨팅 리소스는 모델 학습 및 추론 작업에 집중될 수 있습니다. 이러한 접근 방식은 분산 AI 클러스터에서 파이프라인 지연 시간을 최소화하면서 더 높은 GPU 활용률을 유지하는 것을 목표로 합니다. VDURA는 또한 올해 말 출시 예정인 컨텍스트 인식 계층화 기능의 첫 번째 단계에 대한 자세한 내용을 공개했습니다. 이 기능은 워크로드 동작 및 액세스 패턴에 따라 스토리지 계층 전반에 걸쳐 데이터를 자동으로 배치합니다. 초기 단계에서는 DirectFlow 버퍼를 로컬 NVMe SSD로 확장하여 자주 액세스하는 데이터를 컴퓨팅 리소스에 더 가까운 위치에 저장할 수 있습니다. 이를 통해 자주 액세스하는 데이터에 대한 공유 스토리지 또는 네트워크 연결 스토리지 의존도를 줄이고 활성 워크로드의 응답 시간을 개선할 수 있습니다. 또한 이 플랫폼은 KVCache 쓰기 제어 기능을 도입하여 중요한 추론 데이터만 선택적으로 영구 저장소에 저장합니다. 이를 통해 불필요한 쓰기 작업을 줄이면서 프로덕션 추론 파이프라인에 필요한 영구성 보장을 유지할 수 있습니다. 또한 VDURA는 DRAM과 로컬 SSD에 걸쳐 있는 통합 컨텍스트 캐시 계층화 프레임워크를 구현하고 있습니다. 이를 통해 LMCache급 성능에 부합하는 고속 읽기 및 쓰기 액세스가 가능하며, 장문 컨텍스트 LLM 추론 및 검색 증강 생성과 같은 사용 사례를 지원합니다. VDURA는 향후 컨텍스트 인식 계층화 기능이 애플리케이션 인식 데이터 배치, 노드 간 캐시 일관성 향상, NVIDIA BlueField-4 DPU와 같은 새로운 인프라 구성 요소 지원 등으로 확장될 것이라고 밝혔습니다. 또한, 이 회사는 AMD EPYC Turin 프로세서와 NVIDIA ConnectX-7 네트워크 어댑터를 결합한 최적화된 플랫폼 구성을 선보였습니다. 이러한 구성은 RDMA 지원 데이터 경로를 보완하고 GPU 클러스터와 스토리지 시스템 간의 고처리량, 저지연 통신을 지원하도록 설계되었습니다. VDURA의 CEO인 켄 클라피는 메모리부터 장기 저장소까지 전체 데이터 계층 구조를 아우르는 자사의 AI 스토리지 플랫폼을 소개하며 그 성능을 강조했습니다. 그는 이 플랫폼이 CPU 부하 없이 직접 데이터에 접근할 수 있도록 RDMA 기술을 사용하고, 스토리지 계층 전반에 걸쳐 데이터를 효율적으로 배치할 수 있도록 컨텍스트 인식 계층화(Context-Aware Tiering) 기능을 탑재했다고 설명했습니다. 클라피 CEO는 이러한 혁신 기술들이 기업들이 더 큰 규모의 모델을 지원하고, 더 많은 추론 요청을 처리하며, AI 인프라를 확장하는 동시에 프로덕션 AI의 안정성 요구 사항을 충족하는 데 도움이 된다고 언급했습니다. 이러한 통합 접근 방식은 더 큰 모델 크기를 지원하고, 추론 처리량을 높이며, 인프라 효율성을 개선하는 동시에 프로덕션 AI 배포에 필요한 신뢰성 요구 사항을 유지하는 것을 목표로 합니다. RDMA는 이제 VDURA V5000 및 V7000 플랫폼에서 사용할 수 있습니다. 컨텍스트 인식 계층화 1단계는 2026년 하반기에 정식 출시될 예정이며, 현재 얼리 액세스 프로그램이 진행 중입니다.