AI반도체 경쟁 핵심…“가속기 기반 ‘5단계별 추상화’” - 애플경제

[AI] tpu 컴퓨팅 | | 🤖 AI 모델
#로봇 상용화 #인피니언 #피지컬 ai #하드웨어/반도체 #휴머노이드 로봇 #ai #ai 딜 #ai 모델 #gemini #사고 모드 #오작동
원문 출처: [AI] tpu 컴퓨팅 · Genesis Park에서 요약 및 분석

요약

구글의 최신 모델 '제미나이 3'이 출시되면서 챗GPT와의 기술적 격차를 크게 좁힌 것으로 평가받고 있습니다. 이로 인해 한국 시장 내에서 제미나이의 존재감과 영향력이 점차 확대되는 추세입니다.

본문

GPU·TPU·NPU 기반 시스템 소프트웨어 기술 차별화가 관건 메모리, 통신, 전력, 확장성 위해 AI연산 아키텍처 TPUㆍNPU 필수 시스템 SW, ‘하드웨어에서 앱 계층에 이르기까지 ‘추상화’ 수준 높여 [애플경제 전윤미 기자] AI 반도체 산업 변화는 단순한 하드웨어 세대교체가 아니라, 컴퓨팅 패러다임의 구조적 전환을 의미한다. AI 반도체가 발달하기까지 처음 AI연산은 범용 CPU 중심의 컴퓨팅 모델에서 출발했다. 이는 다시 GPU 기반의 대규모 병렬 처리로 이동했고, 최근에는 특정 AI 워크로드에 최적화된 가속기 중심 구조로 재편되고 있다. 전자통신연구원은 최근 정보통신기획평가원을 통해 공개한 논문에서 “특히 AI반도체 소프트웨어 또한 빠르게 발달하면서, CPU 중심의 범용 구조에서 GPU 기반 병렬 연산 구조를 거쳐, AI 특화 가속기로 진화하고 있다.”며 “CPU는 범용 연산에 적합하지만, AI의 대규모 행렬ㆍ텐서 연산에는 한계가 있다. 이에 GPU는 대규모 병렬 처리로 이를 극복해 AI의 표준 인프라로 자리잡았다”고 돌이켰다. 연구원은 “그러나 초대규모 모델이 확산되면서 메모리, 통신, 전력, 확장성 등의 한계로 TPUㆍNPU와 같은 AI 연산 특화 아키텍처가 등장했다.”고 설명했다. 단계별로 고도화된 시스템 소프트웨어 추상화 이에 따라 이를 통합ㆍ제어하는 시스템 소프트웨어의 중요성이 더욱 커지고 있다. 흔히 AI 반도체 소프트웨어, 즉 시스템 소프트웨어는 하드웨어(L0)에서부터 애플리케이션(L5) 계층에 이르기까지 ‘추상화’ 수준을 높여가며 발달했다. 이 경우 최하위 계층인 L0(하드웨어)는 실제 연산을 수행하는 AI 가속기 하드웨어다. GPU, TPU, NPU 등이 여기에 해당한다. 이들은 연산 유닛 구조, 온칩ㆍ오프칩 메모리 계층, 인터커넥트 구조 등으로 전체 시스템 성능의 물리적 상한선을 결정한다. 이는 ‘연산 처리량, 메모리 대역폭, 통신 지연’과 같은 물리적 제약을 규정하는 계층이다. L1(하드웨어 추상화)는 하드웨어 자원을 소프트웨어가 활용할 수 있도록 추상화하는 계층이다, 메모리 관리, 명령 큐 제어, 디바이스 동기화, 오류 처리 등의 기능을 한다. 가상 명령 체계나, 메모리 모델, 인터커넥트 규격이 이 계층과 밀접하게 연결, 하드웨어의 기능을 소프트웨어 인터페이스로 노출, 통제한다. L2(최적화 라이브러리)는 반복적으로 사용되는 핵심 연산을 최적화된 형태로 제공하는 고성능 연산 커널 계층이다. 수치 연산 라이브러리와 집단 통신 라이브러리 등이 해당된다. L3(런타임 및 컴파일러)는 “AI 반도체 아키텍처 기반 소프트웨어 스택의 핵심 계층”으로 규정된다. 컴파일러인 구글 XLA(eXecutable Linear Algebra), 아파치 TVM(Tensor Virtual Machine), 오픈AI의 GPU 커널 컴파일러 Triton, MLIR, LLVM Backend 등은 연산 그래프를 분석, 커널을 생성하고 메모리 레이아웃을 최적화한다. 김진미 한국전자통신연구원 책임연구원은 “이 과정에서 타일링 전략, 메모리 배치, 병렬화 방식, 연산 병합과 같은 핵심 구조가 컴파일 단계에서 결정된다.”며 TensorRT, ONNX (Open Neural Network Exchange) Runtime, vLLM과 같은 런타임의 사례를 들었다. 이들 런타임은 실행 스케줄링, 메모리 재사용, 디바이스 간 통신을 조율하는 역할을 한다. 결국 “정적 최적화를 담당하는 컴파일러와, 동적 자원 관리를 수행하는 런타임이 긴밀히 결합될 때, 하드웨어의 잠재 성능이 실제 성능으로, 효과적으로 전환된다”는 것이다. L4(AI 프레임워크) 계층에는 파이토치, 텐서플로우, JAX 등 AI 프레임워크가 위치하며, 개발자는 이 단계에서 모델을 정의하고 학습 및 추론 로직을 구현한다. 최상위 L5(애플리케이션) 계층에는 챗GPT, 제미니, 클로드, 코파일럿, 스테이블 디퓨전과 같은 AI 서비스가 포함된다. 이 단계에선 사용자 경험과 서비스 품질이 결정된다. 엔비디아 ‘쿠다’ 컴퓨팅 스택 그런 점에서 수직 통합 기반의 범용 플랫폼 전략인 엔비디아 ‘쿠다’(CUDA) 스택이 대표적이다. 이는 GPU 하드웨어와 시스템 소프트웨어가 긴밀히 결합한 수직 통합 구조다. GPU의 범용성을 유지하면서도, 컴파일러와 런타임을 통해 워크로드를 하드웨어(GPU) 친화적으로 재구성하는 점이 특징이다. 이 경우 GPU마이크로아키텍처는 연산 유닛과 메모리 구성을 수행한다. 이보다 추상화 수준이 높은 ‘L2’는 이른바 최적화 라이브러리 단계다. 이는 핵심 연산을 GPU 아키텍처에 최적화된 것이다. 런타임&컴파일러 단계인 ‘L3’는 컴파일러, 런타임, 추론 엔진에 해당된다. 연산 그래프를 최적화하고 커널을 생성하며, 실행 스케줄링을 담당하는 것이다. L4는 AI 프레임워크&툴 단계로서 일종의 AI프레임워크 통합과 개발 단계다. 대표적으로 엔비디아가 주관한 최적화나,직접 프레임워크를 제공, 개발하는 도구다. L5는 엔비디아 GPU 기반 서비스로 DGX 클라우드, 엔비디아 엔터프라이즈 AI 등이 해당된다. 구글 TPU 기반 소프트웨어 플랫폼 스택 GPU가 범용 생태계 확장을 전략으로 삼는데 비해, TPU는 구글 클라우드 내 효율성과 최적화를 중시하는데 중점을 둔다. TPU 구조에서는 하드웨어 제어의 세밀함보다 컴파일러 기반 전역 최적화에 초점을 둔다. 구글 TPU 스택의 핵심 특징은 컴파일러 중심 설계다. GSPMD(General and Scalable Parallelization for ML Computation Graphs) 기반의 자동 병렬화, 그리고 드라이버와 런타임(libtpu) 등 핵심 구성 요소가 비공개인 폐쇄적 생태계를 기반으로 한다. L1 단계는 TPU마이크로 아키텍처다. 이는 AI연산에 특화된 연산 유닛 및 메모리 구조다. L2는 연산라이브러리 단계다. TPU 하드웨어 최적화가 핵심이며, 연산 구현과 함께 XLA를 자동으로 생성한다. L3는 런타임&컴파일러 단계로서, 연산 그래프를 TPU하드웨어에 최적화된 실행 코드로 변환하는 핵심 계층이다. L4는 프레임웤스 및 도구 단계로서 TPU에 최적화된 프레임워크 및 대규모 학습 인프라 단계다. 이를 거쳐 L5 단계에선 구글 TPU기반의 AI서비스 및 클라우드 인프라가 구축된다. NPU 기업의 소프트웨어 스택 전략 또한 NPU 환경에서는 기업별 하드웨어 구조와 목표 시장에 따라 자사 하드웨어에 최적화된 실행 모델을 구축한다. 범용 플랫폼을 지향하기보다는 추론 특화, 저전력 환경, 초저지연 처리 등 명확한 적용 영역에서 경쟁 우위를 확보하는 방식이다. 이 과정에서 PyTorch, ONNX, vLLM 등 표준 인터페이스와의 호환성을 확보한다. 기존 생태계와의 연결성을 유지하면서도 독자적 컴파일러와 런타임을 통해 자사 하드웨어에 최적화된 실행 모델을 구축하는 것이다. 연구원은 이에 국내외 NPU 기업의 소프트웨어 스택 전략을 비교했다. 이에 따르면 국내의 경우 퓨리오사AI는 워보이, 레니게이드 등의 NPU를 적용, 저전력, 고효율 추론을 시도한다. 파이토치, ONNX 등의 AI프레임워크로 퓨리오사 컴파일러,퓨리오사RT 등의 컴파일러 및 런타임을 구현한다. 이는 고효율 추론을 목표로 한다. 이를 위해 그래프 최적화, INT8 중심의 양자화 및 전력효율 최적화, 다중 NPU 파이프라이닝 등의 기능을 구사한다. 전력 효율과 운용의 현실성에 중점을 두고 있지만 단점도 있다. 즉 범용 학습 생태계 GPU에 비해 제한이 있고, 워크로드 범위가 추론 중심이란 점이다. 또 리벨리온사는 ATOM, ION, 리벨 등의 NPU로 LLM 추론에 특화되어있다. 파이토치, 텐서플로우, ONNX 등의 AI프레임워크에 의한 RBLN 컴파일러와 런타임을 구현한다. 이를 기반으로 에이지어텐션, 멀티칩 스케줄링 등으로 LLM추론에 집중한다. 해외의 경우 세레브라스(Cerebras)사의 경우 WSE-3 NPU를 기반으로 최대 규모의 웨이퍼 스케일의 학습을 시행한다. 파이토치 등을 통해 단일 초거대 칩에 최적화된 실행 그래프를 구현한다. CGC, 즉 세레브라스 그래프 컴파일러를 통해 초대규모 학습을 실행한다. 이를 위해 정적 병렬화 통신, 배치 결정, 런타임 복잡도 최소화 등을 기한다. ‘그래프코어’사의 경우 IPU를 기반으로 새로운 병렬 계산 모델을 제시한 케이스다. 파이토치, 텐서플로우로 포플라(Poplar) SDK 컴파일러, 런타임을 구현한다. 이를 통해 정밀 병렬 제어를 하며, 정적 스케줄링, 온칩 메모리 활용 극대화 등이 핵심 기능이다. 그록(Groq)의 경우는 LPU를 통해 초저지연 추론(결정적 실행)을 목표로 한다. 모델을 정적 컴파일로 전환하고, 그록 컴파일러 런타임을 구현하며, 초저지연 추론을 실행한다. 이를 위해 결정적 실행, 지연 및 일관성의 최적화를 시도한다.

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →