뉴스피드 큐레이션 SNS 대시보드 저널

구글, 학습용 8t·추론용 8i 등 TPU 2종 공개..."에이전트 시대를 위한 칩" - AI타임스

[AI] Google TPU | | 🔬 연구
#하드웨어/반도체 #ai 사진 보정 #app 리뷰 #relumi #review #사진 편집 #앱 리뷰 #원더쉐어

요약

체코 기술 매체 레템 스베템 애플렘이 인공지능 기반 사진 보정 애플리케이션인 '렐루미(Relumi)'에 대한 심층 리뷰를 공개했습니다. 리뷰에 따르면 이 서비스는 이미 완성도가 높아 보이는 사진의 질을 한 단계 더 끌어올리는 데 탁월한 성능을 발휘하는 것으로 평가되었습니다. 특히 복잡한 편집 기능 대신 실생활에서 즉각적으로 활용할 수 있는 실용적인 AI 보정 알고리즘을 제공하여 일상적인 이미지 편집에 있어 거의 완벽한 결과물을 선사하는 핵심 앱으로 추천되었습니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

구글이 차세대 자체 AI 칩을 기반으로 경쟁력 강화에 나섰다. 대부분 기업이 엔비디아 GPU에 의존하며 비용 부담을 안고 있는 상황과 달리, 구글은 칩부터 소프트웨어까지 전 스택을 직접 설계하는 수직 통합 전략을 통해 AI 시장 주도권 확보를 노리고 있다. 구글은 22일(현지시간) ‘구글 클라우드 넥스트(Google Cloud Next)’ 행사에서 8세대 텐서 프로세싱 유닛(TPU)을 공개했다. 이번 세대의 핵심은 단일 칩이 아닌, 목적에 따라 완전히 분리된 두가지 아키텍처다. 대규모 모델 학습을 위한 ‘TPU 8t’와, 실시간 추론 및 에이전트 실행에 최적화된 ‘TPU 8i’가 그것이다. 이 같은 이원화 전략은 2024년에 이미 결정된 것으로 알려졌다. 당시 업계는 아직 추론 중심 AI나 에이전트 모델로의 전환이 본격화하기 전이었지만, 구글은 연산 수요가 학습과 추론으로 명확히 분리될 것을 예측하고 칩 설계를 분리한 것으로 알려졌다. 우선 TPU 8t는 전 세대 대비 대폭적인 성능 향상을 이뤘다. FP4 기준 연산 성능은 2.8배 증가했으며, 칩 간 양방향 대역폭은 초당 19.2테라비트(Tb)로 두배 확대됐다. 또 네트워크 확장 속도는 4배 향상됐다. 특히 ‘버고(Virgo)’라는 새로운 인터커넥트 기술을 통해 단일 학습 작업에서 100만개 이상의 TPU 칩을 연결할 수 있는 확장성을 확보했다고 밝혔다. 여기에 저장장치에서 데이터가 CPU를 거치지 않고 직접 HBM으로 전송하는 ‘TPU 직접 저장(TPU Direct Storage)’ 기능이 도입, 대규모 학습에서 시간과 비용 효율성을 동시에 개선했다. TPU 8i는 구조적으로 큰 변화를 담고 있다. 실시간 추론과 에이전트 실행에 필요한 ‘지연 시간 최소화’에 초점을 맞춘 설계가 핵심이다. 이를 위해 구글은 기존 대역폭 중심 네트워크 구조 대신, 칩 간 거리(홉 수)를 줄이는 ‘보드플라이(Boardfly)’ 토폴로지를 새롭게 도입했다. 그 결과 실시간 LLM 샘플링과 강화 학습(RL) 작업에서 최대 5배의 지연 시간 개선 효과를 달성했다. We’re introducing our eighth generation of TPUs. This time, we’re taking a dual chip approach: TPU 8t, optimized for training, and TPU 8i, optimized for inference. TPU 8t achieves nearly three times the compute performance per pod over our previous generation, Ironwood. — Google (@Google) April 22, 2026 ⚡TPU… pic.twitter.com/SdVGBCjd4V 성능 지표도 눈에 띈다. TPU 8i는 FP8 기준 연산 성능이 약 9.8배 증가했고, HBM 메모리 용량은 6.8배 확대됐다. 포드(Pod) 단위 칩 수도 4.5배 증가해 대규모 추론 환경에서도 높은 효율을 제공한다. 이번 발표에서 강조된 또 하나의 핵심은 ‘AI 스택 통합’이다. 구글은 에너지, 데이터센터, 하드웨어, 소프트웨어, 모델, 서비스에 이르는 6개 계층을 모두 자체 설계한다. 이를 통해 각 계층이 최적화된 상태로 결합되며, 결과적으로 ‘토큰당 비용’에서 경쟁사에 비해 우위를 확보할 수 있다는 설명이다. 이는 현재 AI 시장의 구조적 문제와 직결된다. 오픈AI, 앤트로픽, 메타 등 주요 기업들은 대부분 엔비디아 GPU에 의존하고 있으며, 이 과정에서 높은 데이터센터 마진, 이른바 ‘엔비디아 세금’을 부담하고 있다. 반면 구글은 자체 TPU를 통해 제조 및 설계 비용만 부담할 뿐, 외부 마진을 지불하지 않는다. 기업 고객 입장에서도 이번 TPUv8은 중요한 전환점이 될 전망이다. 대규모 모델 학습을 고려하는 기업은 TPU 8t의 가용성과 네트워크 성능, 실제 처리 효율을 중심으로 평가해야 하며, 에이전트 기반 서비스나 추론 워크로드를 운영하는 기업은 TPU 8i의 지연 시간과 메모리 구조를 핵심 지표로 검토해야 한다. 다만 상용화는 2026년 이후로 예정돼 있어, 현재로서는 로드맵 성격이 강하다. 또 성능 수치는 구글 자체 측정 결과로, 앞으로 클라우드 고객과 외부 평가 기관의 검증이 필요하다. TPU 생태계(JAX/XLA)와 기존 GPU 기반(CUDA/PyTorch) 간의 호환성 문제도 기업 도입 시 고려해야 할 요소다. 아민 바흐다트 AI 및 인프라 담당 최고 기술책임자(CTO)는 "두 칩은 딥마인드와의 협력을 통해 가장 까다로운 AI 워크로드를 처리하고 진화하는 모델 아키텍처에 대규모로 적응할 수 있도록 설계됐다"라며 "에이전트 시대를 위한 인프라"라고 강조했다. 박찬 기자 [email protected]

관련 저널 읽기

전체 보기 →