뉴스피드 큐레이션 SNS 대시보드 저널

추론 제공업체, NVIDIA Blackwell을 활용하여 토큰 비용 10배 절감 - StorageReview.com

[AI] ai 토큰 비용 | | 🔬 연구
#하드웨어/반도체 #ai 에이전트 #claude #gemini #openai #review #취약점 대응 #코드 커버리지

요약

2026년형 AI 코딩 워크플로우를 구축하여 코드의 90%를 AI로 작성하는 저자는 샌드박스와 Git 워크트리를 결합해 생산성과 보안을 극대화했습니다. macOS 샌드박스 기반의 'sandvault'로 격리된 환경에서 에이전트를 안전하게 실행하고, 'Superset' 도구를 활용해 여러 브랜치를 동시에 작업함으로써 토큰 사용 속도에 맞는 병렬 처리를 가능하게 했습니다. 또한 회사 목표나 회의록을 담은 개인 비서용 프로젝트를 운영하여 업무 맥락을 효율적으로 관리합니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

현대 AI 상호작용의 핵심 지능 단위는 토큰입니다. 임상 진단, 인터랙티브 게임 대화, 자율 고객 서비스 에이전트 등 어떤 분야에서든 이러한 애플리케이션의 확장성은 토큰 경제학에 크게 좌우됩니다. 최근 MIT 데이터에 따르면 인프라 및 알고리즘 효율성 향상으로 추론 비용이 매년 최대 10배까지 절감되고 있습니다. Baseten, DeepInfra, Fireworks AI, Together AI 등 주요 추론 서비스 제공업체들은 NVIDIA Blackwell 플랫폼을 활용하여 이러한 효율성을 달성하고 있으며, 이전 세대 Hopper 플랫폼보다 성능이 한 자릿수 이상 향상된 경우가 많습니다. Baseten과 Sully.ai를 통한 의료 효율성 향상 의료 분야에서 의료 코딩 및 문서화와 같은 행정적 부담은 환자 치료에 상당한 지장을 초래합니다. Sully.ai는 AI 에이전트를 활용하여 이러한 일상적인 작업을 자동화함으로써 이 문제를 해결합니다. 이전에는 자체 개발한 폐쇄형 모델을 사용하면서 예측 불가능한 지연 시간과 매출 성장을 앞지르는 추론 비용과 같은 병목 현상에 직면했습니다. Sully.ai는 NVIDIA Blackwell GPU에서 오픈 소스 모델을 사용하는 Baseten의 모델 API로 마이그레이션하여 추론 비용을 90% 절감했습니다. Baseten은 NVFP4 데이터 형식, TensorRT-LLM 및 NVIDIA Dynamo 추론 프레임워크를 사용하여 스택을 최적화했습니다. 이러한 전환을 통해 Hopper 대비 비용 대비 처리량이 2.5배 증가했으며 응답 시간은 65% 향상되었습니다. 현재까지 이 구현을 통해 의사들은 수동 데이터 입력을 자동화하여 30천만 분 이상의 시간을 절약했습니다. DeepInfra와 Latitude를 활용한 게임 성능 향상 AI Dungeon과 Voyage RPG 플랫폼을 개발한 Latitude는 모든 플레이어 행동에 추론 요청이 필요하기 때문에 고유한 확장성 문제에 직면해 있습니다. 원활한 게임 플레이를 유지하려면 낮은 지연 시간과 비용 효율적인 토큰 전달이 필수적입니다. Latitude는 DeepInfra의 Blackwell 기반 인프라에서 대규모 MoE(Mixture-of-Experts) 모델을 실행함으로써 상당한 비용 절감을 달성했습니다. DeepInfra는 Hopper에서 백만 토큰당 20센트였던 비용을 Blackwell에서는 10센트로 줄였습니다. Blackwell의 기본 저정밀 NVFP4 포맷을 활용함으로써 비용을 백만 토큰당 5센트로 더욱 절반으로 낮췄습니다. 이러한 4배 개선 덕분에 Latitude는 더욱 정교한 모델을 배포하고 사용자 경험이나 정확도를 저하시키지 않고 트래픽 급증을 처리할 수 있게 되었습니다. Fireworks AI 및 Sentient를 사용하여 에이전트 기반 워크플로 확장 Sentient Labs는 Sentient Chat과 같은 오픈 소스 추론 AI 시스템을 개발하여 여러 에이전트 워크플로우를 조율합니다. 이러한 복잡한 상호 작용은 종종 자율 작업의 연쇄 반응을 일으켜 상당한 인프라 오버헤드를 발생시킵니다. Sentient는 NVIDIA Blackwell 기반의 Fireworks AI 추론 플랫폼을 활용하여 Hopper 기반 구축 대비 25~50%의 비용 효율성을 달성했습니다. GPU당 처리량 증가 덕분에 Sentient는 대규모 동시 접속을 처리할 수 있었습니다. 출시 초기 폭발적인 인기를 얻으며 24시간 내에 대기자 명단에 등록된 사용자 1.8만 명을 처리했고, 단 일주일 만에 5.6만 건의 쿼리를 처리했습니다. Blackwell에 최적화된 스택은 높은 쿼리량에도 불구하고 일관되게 낮은 지연 시간을 유지했습니다. Together AI와 Decagon을 통한 기업 음성 지원 데카곤은 기업 고객 지원을 위한 AI 에이전트를 제공하며, 음성 상호 작용에서 1초 미만의 응답 시간이 필수적인 환경에 적합합니다. Together AI는 NVIDIA Blackwell 플랫폼에서 데카곤의 멀티모델 음성 스택을 호스팅하고, 예측 디코딩 및 반복되는 대화 요소 캐싱과 같은 최적화를 구현합니다. 이러한 기술적 개선을 통해 수천 개의 토큰이 관련된 쿼리에서도 응답 시간을 400밀리초 미만으로 단축했습니다. 오픈 소스 모델과 자체 개발 모델을 블랙웰의 하드웨어-소프트웨어 공동 설계와 결합함으로써, 데카곤은 독점적인 폐쇄형 소스 대안 대비 쿼리당 비용을 6배 절감했습니다. 토큰경제의 미래 NVIDIA Blackwell, 특히 GB200 NVL72 시스템으로의 전환은 추론 MoE 모델을 대규모로 배포하는 방식에 있어 획기적인 변화를 가져왔습니다. 이 플랫폼이 토큰당 비용을 10배 절감할 수 있었던 것은 컴퓨팅, 네트워킹 및 소프트웨어 계층 간의 긴밀한 통합 덕분입니다. 앞으로 출시될 NVIDIA Rubin 플랫폼은 이러한 추세를 이어가며 Blackwell 아키텍처 대비 성능과 토큰 비용 효율성을 10배 더 향상시킬 것으로 기대됩니다.

관련 저널 읽기

전체 보기 →