NVIDIA RTX 50 시리즈용 DLSS 4.5 동적 프레임 생성 기술에 대한 자세한 분석입니다. - GameGPU

[AI] dlss 4.5 | | 🔬 연구
#dlss 4.5 #nvidia #rtx 50 시리즈 #반도체 #프레임 생성 #하드웨어/반도체 #review #패스 트레이싱
원문 출처: [AI] dlss 4.5 · Genesis Park에서 요약 및 분석

요약

NVIDIA가 새롭게 준비 중인 RTX 50 시리즈 그래픽 카드에 적용될 'DLSS 4.5' 기술과 동적 프레임 생성 기능에 대한 상세한 분석 자료가 GameGPU를 통해 공개되었습니다. 이번 분석은 다가오는 차세대 하드웨어 출시에 발맞춰 업그레이드된 인공지능 기반의 프레임 생성 기술이 기존 대비 어떠한 구체적인 성능 향상과 그래픽 처리 방식의 변화를 가져올지에 대한 핵심적인 내용을 다루고 있습니다. 해당 보고서는 새로운 DLSS 기술이 게임 환경에서 체감 성능과 매끄러운 화면 전환에 미칠 실질적인 영향을 심층적으로 조명합니다.

본문

현대 PC 게임은 중대한 기로에 섰습니다. 한편으로는 영화 같은 사실감을 구현하는 궁극의 렌더링 방식인 패스 트레이싱이 업계에 빠르게 확산되고 있지만, 이는 가장 강력한 그래픽 카드조차도 한계에 다다르게 만듭니다. 다른 한편으로는 240Hz 및 360Hz의 초고속 모니터가 게이머들 사이에서 새로운 표준으로 자리 잡았습니다. 이 두 가지 추세의 충돌은 근본적인 문제를 야기했습니다. 그래픽 카드의 순수 처리 능력만으로는 타협 없는 그래픽과 e스포츠 수준의 부드러움을 동시에 구현하기에 더 이상 충분하지 않게 된 것입니다. 이 리뷰에서는 GeForce RTX 50 시리즈 GPU용으로 개발된 동적 프레임 생성 기술인 NVIDIA DLSS 4.5에 대한 기술적 분석을 제공합니다. 마케팅 용어를 배제하고 아키텍처, 데이터 처리 방식 및 소프트웨어 통합에 대한 객관적인 분석을 통해 차세대 스케일링 알고리즘의 작동 원리를 자세히 살펴보겠습니다. 동적 프레임 생성(Dynamic frame generation)의 아키텍처 및 작동 원리 Multi Frame Generation) 이전 세대의 프레임 생성 기술은 정적 곱셈 알고리즘을 기반으로 했습니다. 이 기술이 활성화되면 그래픽 카드는 현재 GPU 부하와 관계없이 고정된 수의 중간 프레임(일반적으로 렌더링된 기본 프레임 하나당 생성된 프레임 하나)을 생성했습니다.GPU이 접근 방식에는 기술적인 단점이 있었습니다. 기하학적 복잡성이 낮은 장면에서는 이러한 단점이 두드러졌습니다. GPU 모니터의 새로 고침 빈도를 초과하는 과도한 프레임을 생성하는 데 리소스가 낭비되었고, 리소스 집약적인 장면에서는 고정된 프레임 배율만으로는 안정적인 프레임 페이싱을 유지하기에 충분하지 않았습니다. NVIDIA DLSS 4.5는 동적 알고리즘을 도입했습니다. Multi Frame Generation이 기술은 프레임 생성 방식을 적응형 모델로 전환합니다. 핵심은 기존 렌더링 파이프라인의 현재 성능과 연결된 디스플레이의 최대 새로 고침률 간의 차이(델타)를 지속적으로 모니터링하는 데 있습니다. 이 알고리즘은 실시간으로 작동하며 부하에 따라 승수를 변경합니다. 기술적인 관점에서 보면, 프로세스는 다음과 같습니다. 시스템은 프레임 준비 시간(frametime)을 분석합니다. 기준 성능이... GPU 복잡한 조명, 입자 물리, 또는 높은 폴리곤 밀도로 인해 프레임 속도가 저하될 경우, 알고리즘은 자동으로 생성 배율을 높입니다. 신경망은 최종 프레임 속도가 모니터의 최대 헤르츠를 유지하도록 필요한 프레임 수를 생성하여 잠재적인 성능 저하를 완화합니다. 이를 통해 컴퓨팅 부하를 줄임으로써 성능 향상을 기대할 수 있습니다. GPU (예를 들어, 폐쇄된 공간이나 정적인 장면에서) 알고리즘은 필요한 최소 수준으로 배율을 낮춥니다. 이는 그래픽 카드의 처리 능력 과용을 방지하고 모니터가 물리적으로 표시할 수 있는 프레임 수만큼만 생성하므로 전체 시스템 전력 소비를 줄입니다. 성능 확장성: 최대 6배의 성능 향상 및 시스템 지연 시간 단축 풀 패스 트레이싱과 같은 리소스 집약적인 렌더링 방식을 사용할 때 고주사율 모니터(240Hz, 360Hz 이상)에서 게임이 원활하게 실행되도록 하려면Path TracingDLSS 4.5는 최대 6배까지 확장된 다중 세대 제한을 통합합니다. 이 모드에서 렌더링 파이프라인은 실제 데이터와 생성된 데이터의 비율을 변경합니다. 게임의 그래픽 엔진이 기존 방식으로 렌더링하는 모든 프레임(지오메트리, 셰이더 및 조명 물리 포함)에 대해 신경망 모델은 최대 5개의 추가 중간 프레임을 합성할 수 있습니다. 이처럼 많은 수의 프레임을 보간하려면 각 픽셀에 대한 모션 벡터, 광학 흐름 및 장면 깊이 데이터를 분석하여 기본 프레임 사이의 공간에서 객체의 위치를 정확하게 예측해야 합니다. 다중 프레임 생성의 핵심 기술적 과제는 입력 지연입니다. 5개의 추가 프레임을 생성하는 데 버퍼링과 연산 시간이 필요하기 때문에 사용자의 물리적 동작(키 입력 또는 마우스 움직임)과 화면 응답 사이의 시간 간격이 필연적으로 증가합니다. 이러한 현상을 보정하기 위해 DLSS 4.5 프레임 생성 모델은 NVIDIA Reflex 기술과 함께 작동합니다. NVIDIA Reflex는 드라이버 및 게임 엔진 수준에서 작동하여 CPU 렌더링 대기열을 제거합니다.CPU 렌더링 대기열). 이 기술은 작업을 동기화합니다. CPU и GPU 이를 통해 프로세서는 그래픽 카드가 렌더링 데이터를 처리할 준비가 되는 정확한 시점에 데이터를 전송합니다. 결과적으로 기본(렌더링된) 프레임의 지연 시간이 최소화됩니다. 따라서 많은 수의 인위적인 프레임을 생성하더라도 전체 시스템 지연 시간은 싱글 플레이 게임에 적합한 수준으로 유지됩니다. 360Hz 디스플레이에서 1440p 해상도로 테스트한 데이터에 따르면, 4배 또는 6배의 배율을 활성화했을 때 평균 시스템 지연 시간은 게임 엔진에 따라 약 29~33밀리초 정도입니다. 사전 설정 B: 인터페이스 격리를 위해 깊이 버퍼 데이터를 통합합니다. 기존의 업스케일링 및 프레임 생성 알고리즘의 근본적인 문제점 중 하나는 3D 장면 위에 겹쳐진 정적인 2D 사용자 인터페이스(HUD/UI) 요소를 제대로 처리하지 못한다는 것이었습니다. 카메라를 빠르게 패닝할 때 3D 객체는 모션 벡터를 생성하는 반면, UI 요소(미니맵, 텍스트, 조준선)는 정적인 상태를 유지합니다. 신경망은 종종 움직이는 배경과 함께 인터페이스 픽셀을 보간하여 시각적 오류, 깜빡임, 잔상 등의 문제를 야기했습니다. 이 문제를 해결하기 위해 DLSS 4.5에서는 Preset B라는 특수 처리 프로파일을 도입했습니다. 이 프리셋의 구조적 특징은 게임 엔진과 스케일링 알고리즘 간의 공간 데이터 교환을 향상시켰다는 점입니다. Preset B는 엔진으로부터 UI 깊이 버퍼에 접근 권한을 요청합니다. 깊이 버퍼(Z 버퍼)에는 가상 카메라에서 화면의 각 픽셀까지의 거리에 대한 정보가 포함되어 있습니다. 인터페이스 요소는 특정한 깊이 좌표를 가지며(일반적으로 가장 앞쪽에 위치하며 Z=0입니다), DLSS 4.5 알고리즘은 이 데이터에 접근하여 2D 인터페이스를 3D 세계에서 알고리즘적으로 분리하는 정밀한 마스크를 생성합니다. 이 분할된 데이터 스트림을 처리하기 위해 Transformer Super Resolution 아키텍처 기반의 2세대 신경망 모델이 사용됩니다. Transformer의 특징인 어텐션 메커니즘을 활용하여 신경망은 프레임 컨텍스트를 분석하고 UI 레이어에 속하는 요소를 분리하여 모션 보간 과정에서 제외합니다. 인터페이스에는 샤프닝 알고리즘만 적용됩니다. 이를 통해 배경의 동적 변화와 관계없이 정적 요소는 세밀하고 안정적으로 유지됩니다. DLSS 오버라이드 메커니즘 및 소프트웨어 튜닝 DLSS 4.5 통합은 최종 제품 소프트웨어에서 스케일링 기술을 업데이트하는 방식에도 변화를 가져왔습니다. 이전에는 새로운 프레임 생성기 버전 지원을 추가하려면 게임 개발자가 직접 개입하여 패치를 배포하고 라이브러리를 업데이트해야 했습니다. 하지만 DLSS 4.5에서는 알고리즘 제어가 드라이버와 NVIDIA 앱 생태계로 부분적으로 이전되었습니다. DLSS 활성화의 핵심 도구는 DLSS 오버라이드 기능입니다. 이 메커니즘은 DLL 후킹을 기반으로 합니다. 이전 버전의 DLSS를 통합 지원하는 게임이 프레임 생성을 위해 표준 라이브러리에 접근할 때, NVIDIA 드라이버(RTX 50 시리즈 그래픽 카드)는 이러한 명령어, 모션 벡터 및 버퍼를 최신 DLSS 4.5 신경망 모델로 리디렉션합니다. 이를 통해 하위 호환성이 보장되어 200개 이상의 기존 게임에서 게임 스튜디오의 공식 업데이트를 기다릴 필요 없이 동적 다중 생성 및 6배속 모드를 사용할 수 있습니다. 재정의 매개변수는 NVIDIA 앱 사용자 인터페이스를 통해 중앙에서 관리됩니다. 정상적인 작동을 위해서는 기본적인 설정이 필요합니다. - 동적 프레임 생성 모드(Dynamic)를 선택하십시오. Frame Generation 다운로드 모니터링을 활성화하는 모드) GPU 그리고 적응형 승수 전환 기능. - 목표 프레임률(Target FPS)을 설정하십시오. 최적값은 모니터의 최대 주사율(Max Refresh Rate)과 관련이 있으며, 이는 디스플레이의 물리적 성능을 넘어서는 프레임률 생성을 제한합니다. - 생성 배율에 상한선(최대 6배)을 설정하여 그래픽 카드 연산 장치의 최대 부하 기간 동안 알고리즘이 최대 5개의 중간 프레임을 생성할 수 있도록 합니다. 시스템 성능 모니터링을 위한 내장 텔레메트리 오버레이(키보드 단축키 Alt+Z로 접근 가능)가 제공됩니다. 이 도구를 사용하면 초당 프레임 수, 현재 멀티 제너레이션 속도(게임 플레이 중 동적으로 변경됨), 렌더링 지연 시간 등 시스템 지표를 실시간으로 확인할 수 있으며, 이는 그래픽 하위 시스템 성능에 대한 기술적 분석에 필수적입니다. 테스트 벤치 및 테스트 방법론 모든 성능 테스트는 플래그십 그래픽 카드에서 진행되었습니다. ASUS TUF 게이밍 지포스 RTX 5090테스트된 모든 프로젝트에서 엄격한 공정성을 보장하기 위해 동일한 매개변수를 설정했습니다. NVIDIA DLSS 4.5 기술, 목표 해상도 4K(3840x2160), 프리셋 M 프로파일의 성능 기본 렌더링 모드(프리셋 B 프로파일 생성과 함께 사용). 프레임률과 시스템 지연 시간은 내장된 원격 측정 기능을 사용하여 모니터링했습니다. 테스트에는 32인치 삼성 오디세이 OLED G8 4K 240Hz 모니터를 사용했습니다. Cyberpunk 2077 설정: 울트라, 패스 트레이싱(Path Tracing / RT: 오버드라이브) 네이티브 해상도와 동적 프레임 생성(Dynamic 3x)을 비교해 보면, 차세대 칩셋에서도 4K 해상도에서 완벽한 패스 트레이싱을 구현하는 것이 얼마나 어려운 일인지 명확히 알 수 있습니다. 네이티브 해상도에서는 콘솔 게임과 비슷한 36 FPS를 제공하지만, 시스템 지연 시간은 79.6ms로 매우 높습니다. 이 정도 수준에서는 조작감이 둔하고, 역동적인 총격전을 벌이기 어렵습니다. 하지만 동적 프레임 생성을 활성화하면 상황이 완전히 달라집니다. 지능형

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →