NVIDIA Cosmos 월드 파운데이션 모델 플랫폼으로 피지컬 AI 발전 - NVIDIA Developer
[AI] ai model rankings
|
|
🔬 연구
#cosmos
#nvidia
#review
#로봇공학
#월드 파운데이션 모델
#피지컬 ai
원문 출처: [AI] ai model rankings · Genesis Park에서 요약 및 분석
요약
NVIDIA는 Cosmos 월드 파운데이션 모델 플랫폼을 통해 피지컬 AI 기술 발전을 촉진합니다. 이 플랫폼은 AI 모델을 실제 세계에 적용하고, 물리적 시스템과 상호작용하는 AI 개발을 가능하게 합니다. 이를 통해 AI와 물리 세계 간의 연결성을 강화하고, 다양한 산업 분야에 혁신적인 솔루션을 제공할 수 있습니다. NVIDIA는 Cosmos 플랫폼을 통해 AI 기술의 실용적인 응용을 확대하고, 피지컬 AI 분야의 새로운 가능성을 열어갈 것입니다.
본문
로봇공학과 자율 주행 차량이 발전함에 따라 자율 머신이 물리적 세계를 인식하고 이해하고 복잡한 작업을 수행할 수 있도록 하는 피지컬 AI의 개발 가속화가 필수적인 요소가 되었습니다. 이러한 시스템의 중심에는 물리 인식 비디오를 통해 물리적 상태를 시뮬레이션하는 AI 모델인 월드 파운데이션 모델(WFM)이 있으며, 기계가 정확한 결정을 내리고 주변 환경과 원활하게 상호 작용할 수 있도록 지원합니다. NVIDIA Cosmos는 개발자가 대규모로피지컬 AI 시스템을 위한 맞춤형 월드 모델을 구축할 수 있도록 지원하는 플랫폼입니다. 데이터 큐레이션부터 트레이닝, 커스터마이징에 이르기까지 모든 개발 단계를 위한 오픈 월드 파운데이션 모델과 툴을 제공합니다. 이 게시물에서는 피지컬 AI 개발을 가속화하는 Cosmos와 그 주요 기능에 대해 설명합니다. 피지컬 AI를 구축하려면 정밀한 시뮬레이션과 실제 동작을 이해하고 예측하는 능력이 필수적입니다. 이를 해결하는 핵심 도구가 바로 월드 모델인데, 이는 과거 관측과 현재 입력을 바탕으로 미래 환경을 예측하는 역할을 합니다. 월드 모델을 활용하면 제어된 환경에서 시스템을 시뮬레이션하고 훈련하며 개선할 수 있어, 피지컬 AI 개발에 큰 도움이 됩니다. 하지만 효과적인 월드 모델을 만들려면 방대한 데이터, 높은 계산 능력, 그리고 실제 테스트가 필요합니다. 이는 안전 위험, 물류상의 어려움, 막대한 비용 같은 문제를 유발할 수 있습니다. 이런 한계를 극복하기 위해 개발자들은 3D 시뮬레이션에서 생성한 합성 데이터를 활용해 모델을 훈련하는 경우가 많습니다. 합성 데이터는 강력한 도구지만, 생성 과정에서 많은 리소스를 소모하며, 특히 복잡한 상황이나 예외적인 사례에서는 실제 물리 법칙을 완벽하게 반영하지 못할 수도 있습니다. 엔드투엔드 NVIDIA Cosmos 플랫폼은 피지컬 AI 시스템을 위한 월드 모델 개발을 가속화합니다. CUDA를 기반으로 구축된 Cosmos는 최첨단 월드 파운데이션 모델, 비디오 토큰라이저, AI 가속 데이터 처리 파이프라인을 결합합니다. 개발자는 Cosmos 월드 파운데이션 모델을 fine-tuning하거나 처음부터 새로운 모델을 구축하여 월드 모델 개발을 가속화할 수 있습니다. 이 플랫폼에는 Cosmos 월드 파운데이션 모델 외에도 다음이 포함됩니다: - 효율적인 비디오 데이터 큐레이션을 위한 NVIDIA NeMo Curator - 효율적이고 컴팩트한 고충실도 비디오 토큰화를 위한 Cosmos Tokenizer - 로보틱스 및 자율주행 애플리케이션을 위해 사전 훈련된 Cosmos 월드 파운데이션 모델 - 모델 트레이닝 및 최적화를 위한 NVIDIA NeMo 프레임워크 Cosmos 월드 파운데이션 모델은 자율주행, 로봇 공학, 합성 환경 및 기타 관련 도메인의 2천만 시간 분량의 데이터를 포함한 9,000조 개의 토큰으로 사전 훈련된 대규모 생성형 AI 모델입니다. 이러한 모델은 환경과 상호 작용에 대한 사실적인 합성 비디오를 생성하여 고급 동작을 수행하는 휴머노이드 로봇 시뮬레이션부터 엔드투엔드 자율 주행 모델 개발에 이르기까지 복잡한 시스템을 훈련할 수 있는 확장 가능한 파운데이션을 제공합니다. Cosmos 모델은 자동 회귀와 확산이라는 두 가지 아키텍처를 사용합니다. 두 방식 모두 트랜스포머 아키텍처를 기반으로 하며, 복잡한 시간적 종속성을 처리할 때 확장성과 효율성을 극대화할 수 있도록 설계되었습니다. 자동 회귀 모델(Autoregressive Model) Cosmos 자동 회귀 모델은 비디오 생성에 최적화되어 있으며, 입력된 텍스트와 이전 비디오 프레임을 바탕으로 다음 토큰을 예측하는 방식으로 작동합니다. 트랜스포머 디코더 아키텍처를 기반으로 하지만, 월드 모델 개발을 위해 몇 가지 중요한 개선이 적용되었습니다 - 3D RoPE(Rotary Position Embeddings)는 공간 차원과 시간 차원을 개별적으로 인코딩하여 비디오 시퀀스를 보다 정확하게 표현할 수 있도록 합니다. - 크로스 어텐션 레이어는 텍스트 입력을 처리할 수 있게 하여, 생성되는 환경을 더욱 정밀하게 제어할 수 있도록 돕습니다. - QK 정규화(QK-normalization)는 학습 안정성을 높이는 역할을 합니다. 이 모델의 사전 훈련은 점진적으로 진행되며, 먼저 단일 입력 프레임에서 최대 17개의 미래 프레임을 예측하는 방식으로 시작한 후, 34프레임, 최종적으로는 최대 121프레임(또는 50,000개 토큰)까지 확장됩니다. 이후 텍스트 입력을 추가하여 영상 프레임과 설명을 결합하고, 고품질 데이터로 정밀하게 튜닝하여 더욱 견고한 성능을 갖추게 됩니다. 이러한 구조적인 접근 방식 덕분에, 이 모델은 텍스트 입력이 포함되든 아니든 다양한 길이와 복잡도의 비디오를 생성할 수 있습니다. 확산 모델(Diffusion Model) 확산 모델은 학습 데이터를 분석하고 이를 사용자 입력에 맞춰 재구성하는 능력 덕분에, 이미지, 비디오, 오디오 생성에 널리 사용됩니다. 이를 통해 높은 품질의 현실적인 출력을 만들어낼 수 있습니다. 확산 모델은 두 가지 과정으로 작동합니다. - 역방향 확산 과정(Reverse Diffusion Process) 모델이 이 노이즈를 단계별로 제거하면서 원본 데이터를 복원하는 방식으로 학습합니다. - 순방향 확산 과정(Forward Diffusion Process) 학습 데이터에 여러 단계에 걸쳐 가우시안 노이즈를 점진적으로 추가해 데이터를 완전히 무작위 노이즈로 변환합니다. 모델이 충분히 학습되면, 새로운 데이터를 생성할 때 무작위 가우시안 노이즈를 샘플링한 뒤, 학습된 디노이징 과정을 거쳐 결과물을 만들어냅니다. Cosmos 확산 모델은 피지컬 AI 개발에 최적화된 몇 가지 핵심 기능이 추가되었습니다. - 3D 패치화(3D Patchification): 비디오를 작은 패치 단위로 분할하여 시공간 시퀀스를 보다 효율적으로 표현합니다. - 하이브리드 위치 임베딩(Hybrid Positional Embeddings): 공간과 시간 정보를 함께 처리하여 다양한 해상도와 프레임 속도의 비디오를 지원합니다. - 크로스 어텐션 레이어(Cross-Attention Layers): 텍스트 입력을 반영해 설명을 기반으로 비디오 생성의 정밀한 제어가 가능합니다. - LoRA 기반 적응형 레이어 정규화(Adaptive Layer Normalization with LoRA): 모델 크기를 36% 줄이면서도 적은 리소스로 높은 성능을 유지할 수 있도록 최적화되었습니다. 다양한 요구에 맞춘 모델 크기 개발자는 성능, 품질, 배포 환경에 따라 다음 세 가지 모델 크기 중에서 선택할 수 있습니다. - Nano: 실시간 저지연 추론과 엣지 배포에 최적화된 모델 - Super: 기본 성능을 보장하는 표준 모델 - Ultra: 최상의 품질과 디테일을 제공하며, 맞춤형 모델을 구축하는 데 적합한 모델 강점과 한계 Cosmos 월드 파운데이션 모델은 실제 환경을 정밀하게 재현하는 저해상도 합성 비디오를 생성하며, 이는 로봇 및 자율주행 시스템 학습에 필수적입니다. 예술적인 표현력은 부족하지만, 물리적 세계를 사실적으로 모사하기 때문에 정확한 객체 영속성(object permanence)과 현실적인 시나리오가 중요한 피지컬 AI 모델 훈련에 최적화되어 있습니다. AI 모델이 신뢰성을 갖추려면, 환각(hallucination) 완화, 유해한 출력 방지, 개인정보 보호, AI 안전 기준 준수 등이 필요합니다. Cosmos는 이러한 요소를 보장하기 위해 맞춤형 이중 단계 가드레일 시스템을 적용하며, 이는 NVIDIA의 신뢰할 수 있는 AI 원칙과도 일치합니다. Cosmos 가드레일 시스템은 두 단계로 작동합니다. Pre-guard (사전 보호 단계) 이 단계에서는 텍스트 프롬프트 기반의 안전 조치를 적용하며, 두 가지 레이어로 구성됩니다. - 키워드 차단(Keyword Blocking): 블록리스트 검사기가 프롬프트에서 안전하지 않은 키워드를 검색합니다. 어간 분석(lemmatization)을 활용해 다양한 형태의 표현을 감지하며, 비영어 단어나 철자 오류도 차단합니다. - Aegis 가드레일(Aegis Guardrail): NVIDIA가 fine-tuning한 Aegis AI 콘텐츠 안전 모델이 폭력, 괴롭힘, 비속어 등의 위험한 프롬프트를 탐지하고 차단합니다. 안전하지 않은 프롬프트는 비디오 생성이 중단되며, 오류 메시지가 반환됩니다. Post-guard (사후 보호 단계) 이 단계에서는 생성된 비디오의 안전성을 검증하기 위해 다음과 같은 조치를 취합니다. - 비디오 콘텐츠 안전 분류기(Video Content Safety Classifier): 다중 클래스 분류기를 활용해 각 비디오 프레임을 평가하며, 하나라도 안전하지 않은 프레임이 감지되면 전체 비디오가 거부됩니다. - 얼굴 블러 필터(Face Blur Filter): RetinaFace 모델을 사용해 생성된 비디오 속 모든 인간 얼굴을 자동으로 흐리게 처리합니다. 이를 통해 개인정보를 보호하고, 연령, 성별, 인종에 따른 편향을 줄입니다. 또한, NVIDIA 전문가들은 10,000개 이상의 프롬프트-비디오 페어를 분석하고, 다양한 극단적 예제(adversarial examples)로 테스트하여 시스템을 지속적으로 개선하고 엣지 케이스를 해결합니다. Cosmos 벤치마크는 피지컬 AI 애플리케이션을 위해 실제 물리학을 정확하고 효율적으로 시뮬레이션하는 월드 파운데이션 모델의 능력을 평가하는데 중요한 역할을 합니다. 공개적으로 사용 가능한 비디오 생성 벤치마크는 생성된 비디오의 충실도, 시간적 일관성, 속도에 중점을 두는 반면, Cosmos 벤치마크는 새로운 차원을 추가하여 제너럴리스트 모델을 평가합니다: 3D 일관성 및 물리 정렬이라는 새로운 차원을 추가하여 피지컬 AI 시스템에 필요한 정확도를 기준으로 동영상을 평가합니다. 3D 일관성(3D Consistency) Cosmos 모델은 공개 데이터 세트에서 선별된 500개의 동영상 하위 집합에서 정적 장면에 대해 3D 일관성을 테스트했습니다. 모션과 관련된 복잡성을 피하기 위해 동영상을 설명하는 텍스트 프롬프트가 생성되었습니다. 기준 생성형 모델인 VideoLDM
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유