[AI칩 지정학] ⑧ 추론 오독의 비극 : 韓 창고 팔 때, 구글·엔비디아 SRAM 전쟁 - 여성경제신문

[AI] ai 칩 경쟁 | 2026년 4월 27일 14:15 | 🖥️ 하드웨어

#ai 신경망 #신경 텍스처 압축 #엔비디아 #텍스처 압축 #하드웨어/반도체 #ai 윤리 #sk하이닉스 #기타 ai #머신러닝/연구

원문 출처: [AI] ai 칩 경쟁 · Genesis Park에서 요약 및 분석

요약

구글이 인공지능 학습과 추론을 물리적으로 분리한 8세대 TPU인 8t와 8i를 공개하며 반도체 시장 판도를 흔들고 있습니다. 특히 추론 전용 칩인 TPU 8i는 온칩 SRAM 용량을 전작 대비 3배 확대해 엔비디아와 SK하이닉스 주도의 HBM 생태계에 정면으로 맞섰습니다. 이를 통해 구글은 데이터 병목 현상을 줄여 응답 시간을 단축하고 추론 비용을 50% 절감하는 성과를 달성했습니다.

본문

구글, H100보다 7배 덩치 큰 SRAM 칩 내놔 학습 vs 추론 사이 순간이동하는 TPU 8t·8i 천재 제프딘의 귀환···허사비스는 뒷방으로 | 인공지능(AI) 시대에는 설계·제조·패키징·장비·소재 기업이 연결된 산업 네트워크가 어디에 형성되느냐에 따라 세계 공급망의 중심이 결정된다. 반도체 경쟁의 본질은 개별 기업의 기술력을 넘어선 산업 구조란 얘기다. 어느 도시에서 설계가 태어나고, 어느 공장에서 생산되며, 어떤 기업들이 후공정과 장비 생태계를 형성하는지에 따라 글로벌 반도체 권력의 흐름이 만들어진다. 여성경제신문은 이번 기획을 통해 대만 신주를 중심으로 형성된 파운드리 생태계와 베일에 가려진 중국의 공급망 체계, 미국 주도의 팹리스 산업, 반도체 특별법 아래 지자체간 클러스터 유치 전쟁에 돌입한 한국의 상황을 비교하며 AI 시대 지정학적 권력이 어떻게 움직이는지를 짚어본다. [편집자 주] | 구글이 인공지능(AI) 학습과 추론을 물리적으로 분리한 8세대 TPU(8t·8i)를 공개하며 반도체 경쟁의 축을 바꾸고 있다. 특히 추론 전용 칩 TPU 8i의 온칩 SRAM을 전작 대비 3배인 384MB로 확대한 점은, 엔비디아와 SK하이닉스가 이끄는 HBM 중심 생태계를 정면 겨냥한 전략으로 해석된다. 24일 빅테크 업계에 따르면 구글의 최신 추론용 칩인 'TPU 8i'는 384MB의 SRAM을 탑재했다. 이는 연산 칩 내부에 위치한 초고속 메모리로, 대용량 데이터를 외부 HBM(고대역폭 메모리)에서 가져올 때 발생하는 물리적 병목 현상을 최소화한다. 구글은 이를 통해 AI 에이전트의 응답 시간을 즉각적인 수준으로 단축하고 추론 비용을 50% 절감했다고 밝혔다. 그간 AI 칩 시장은 엔비디아의 GPU와 SK하이닉스의 HBM이 결합된 '물량 공세'가 주도해 왔다. 하지만 구글은 칩 내부 메모리 계층을 재설계하는 방식으로 HBM 의존도를 효율적으로 관리하며 '가성비'와 '속도'라는 두 마리 토끼를 잡겠다는 전략이다. 특히 엔비디아가 최근 공개한 '루빈'과 '그록 LPU' 칩 등에서도 SRAM 증설이 핵심 전략으로 부상하고 있어, 향후 AI 칩 전쟁의 승부처는 '외부 메모리(HBM)의 크기'가 아닌 내부 메모리(SRAM)의 제어 능력이 될 전망이다. 구글과 엔비디아는 “HBM은 느리고 멀다”는 동일한 결론에 도달했지만, 해법은 갈렸다. 구글은 TPU 8i에서 SRAM을 384MB까지 확장하며 로짓(Logit)을 칩 내부에 묶는 ‘직선 경로(Direct Path)’를 택했다. 연산에 필요한 핵심 데이터를 외부 메모리로 보내지 않고 온칩에서 즉시 처리하겠다는 선언으로, H100 대비 7~8배 수준의 KV 캐시 수용 공간 확장이다. 데이터 이동을 제거하고 지연을 0.1ns급으로 압축하는 설계, 즉 ‘로짓의 요새’를 물리적으로 구축한 접근이다. 엔비디아 역시 같은 문제를 인식하고 베라 루빈에서 SRAM 확대와 고밀도 캐시 전략을 병행한다. HBM4와 온칩 메모리를 결합한 하이브리드 구조로, NVLink와 공유 메모리를 통해 데이터 흐름을 최적화하는 방향이다. 단순한 가속기가 아니라 ‘정렬 엔진’으로 진화하려는 설계로, HBM 의존을 줄이되 완전히 버리지는 않는 절충형 접근이다. 결국 승부는 ‘얼마나 많이 계산하느냐’가 아니라 ‘얼마나 덜 움직이느냐’로 수렴한다. SRAM에 로짓을 고정해 이동을 제거하는 쪽은 지연을 구조적으로 없애고, HBM과 병행하는 쪽은 흐름을 최적화해 손실을 줄인다. 같은 문제에서 출발했지만 하나는 ‘차단’, 다른 하나는 ‘관리’다. 그리고 이 선택이 향후 AI 칩 패권의 분기점이 될 전망이다. 특히 이번에 구글이 선보인 TPU 8t는 엔비디아가 독점해 온 학습(Training) 시장의 성벽을 직접적으로 타격하는 무기다. 전작인 7세대 대비 연산 성능을 3배 끌어올려 LLM의 학습 기간을 수개월에서 수주 단위로 단축하는 압도적인 연산 밀도를 자랑한다. 또한 전력 대비 효율 역시 기존 칩보다 2배 이상 높여 대규모 데이터센터의 운영 비용(TCO) 문제를 정면으로 돌파했다. 이는 단순히 성능 경쟁을 넘어, 거대 모델의 탄생 경로인 '학습 단계'부터 구글의 하드웨어 아키텍처 아래 두겠다는 선전포고와 같다. HBM 병목 겨냥, 온칩 처리 강화 추론 지연 0.1ns급으로 압축 TPU 8t로 학습 시장까지 압박 더욱 위협적인 점은 구글이 보유한 '수직적 생태계의 결합'이 학습 시장의 문법을 바꾸고 있다는 사실이다. 구글은 자사의 대규모 모델인 '제미나이'를 TPU 8t로 학습시키며 검증된 레퍼런스를 확보함과 동시에, 전용 컴파일러인 XLA를 통해 소프트웨어와 하드웨어 사이의 최적화 수준을 극대화하고 있다. 구글이 엔비디아의 CUDA 생태계에 의존하지 않고도 최상의 학습 효율을 뽑아내고 있는 가운데, 학습 시장마저 구글의 TPU 생태계로 기울 경우 모델의 초기 설계(학습)부터 최종 발현(추론)에 이르는 전체 의사 결정 파이프라인이 구글에 완전히 장악될 가능성이 크다. 또한 구글의 최근 앤트로픽 59조 원 투자와 5GW 규모 연산 공급 약정은 하드웨어가 소프트웨어를 규정한다는 자신감의 발로로 보인다. 앤트로픽은 겉으로는 모델 기업이지만, 실제로는 구글이 제공하는 연산·메모리·전력 위에서 작동하게 될 전망이다. 두 빅테크와 달리 국내 분위기는 K-메모리 신화에 취해 역주행이다. SK하이닉스는 HBM으로 존재감을 키웠지만, 본질은 여전히 ‘멀리 있는 창고를 더 크게·더 빠르게 만드는’ 데 머물러 있다. 대역폭과 적층을 극한까지 밀어 올려도 로짓이 만들어지는 온칩 구간까지 역할이 이어지지 않으면 병목의 본질은 바뀌지 않는다. 국내 반도체사는 고객 의존형 구조 속에서 주문을 소화하는 데는 강하지만, 거래가 끝나는 지점에서 주도권을 상실한다. 이를 D램 양산으로 돌파해 온 삼성은 더 복잡하게 꼬였다. 파운드리·메모리·모바일이 각자 따로 움직이며 중심 축을 만들지 못했고, 전영현 부회장이 수조 원을 투입한 엑시노스는 퀄컴 스냅드래곤에 갤럭시폰 자리를 내줬다. 두 회사 모두 eSSD와 낸드와 같은 저장 중심 포트폴리오는 규모는 크지만, 빅테크 간 벌어지는 지능 경쟁 구조와는 거리가 멀다. 구글은 TPU에 대용량 SRAM을 밀어 넣어 로짓이 생성되는 구간을 칩 내부로 끌어당겼고, 엔비디아는 차세대 아키텍처에서 캐시와 인터커넥트를 확장해 데이터 이동 자체를 줄이는 방향으로 설계를 바꾸고 있다. 특히 구글의 TPU 8i는 이름은 TPU지만, 실제 방향은 대형 연산기보다 근접 메모리 중심의 토큰 처리 장치(LPU)에 가깝다. 384MB 온칩 SRAM을 전면에 배치해 로짓이 형성되는 경로를 칩 내부에 최대한 묶고, 외부 메모리 왕복을 줄이는 구조다. AI 칩 경쟁의 기준이 단순 연산량에서 데이터 이동 거리와 SRAM 배치로 옮겨가는 증거다. HBM vs D램 딜레마 빠진 삼성전자 李 데이터센터용 NPU 역풍 맞을 것 이런 흐름에서 HBM·D램 중심의 국내 반도체 전략은 구조적 한계를 드러낸다. 대용량 메모리 공급 능력은 여전히 중요하지만, 로짓이 만들어지는 온칩 SRAM 구간까지 역할이 이어지지 않으면 지능 경쟁에서 뒤처질 수밖에 없다. HBM은 여전히 필요하지만, 역할은 이미 보조 계층으로 밀려났다. 결정은 연산 유닛 바로 옆에서 내려지고, 나머지는 이를 지연 없이 받쳐주는 구조로 재배치된다. 같은 칩이라도 SRAM 배치와 접근 구조에 따라 지능의 체감 성능이 갈리는 국면이다. 규모에서 거리, 대역폭보다는 지연 최소화가 기준이 되는 전장이다. 빅테크의 이런 경쟁 구도는 한국 반도체 생태계와 정부 정책에 사형 선고나 다름없다. 이재명 정부와 SK텔레콤, 삼성SDS, LG U+가 연합해 수십조 원 규모로 추진 중인 인공지능 데이터센터에 라벨리온과 퓨리오사AI의 NPU를 대거 도입하는 정책 역시, 기술 경쟁의 흐름과는 결이 어긋난 방향이라는 지적이 나온다. 특히 3나노 공정은 사실상 칩 내 SRAM 공간을 두고 벌어지는 ‘부동산 전쟁’이다. SRAM 셀 면적이 약 0.02제곱마이크로미터 수준까지 내려온 초미세 영역에서는 전자 수십 개 단위의 안정적 유지와 변동성 제어가 품질을 좌우한다. 그런데 데이터센터용 NPU는 연산 유닛 규모가 커 다이 면적 대부분을 차지하기 때문에 SRAM에 할당할 수 있는 공간은 극히 제한적이다. 인공지능 구조분석 전문가는 "K-메모리가 곧 추론이라는 환상에 빠진 사이 엔비디아와 구글은 로짓이 형성되는 파이프라인 장악 전쟁을 시작했다. 이는 단순 성능 경쟁을 넘어, 지능이 드러나는 경로를 물리적으로 규정하는 단계로의 전환을 의미한다" 진단했다. 이어 "한국의 NPU 업체들은 짐 켈러가 이끄는 텐스토렌트의 그레이스컬(Grayskull) 급의 혁신을 보이지 못한다면 결국 소멸하는 운명을 맞을 것"이라고 덧붙였다. ☞그록(Groq)의 LPU(Language Processing Unit) = 특정 칩 이름이라기보다, 로짓을 연산 유닛 근처에서 바로 처리하도록 설계된 근접 메모리 중심 구조를 가리키는 개념이다. 조나선 로스는 데이터 이동을 최소화하고 지연을 줄이기 위해 HBM을 아예 제거하는 설계를 택했다. ☞구글 TPU 8i = 그록의 LPU 개념을 실제 하드웨어로 구현한 사례로 볼 수 있다. 칩 내부에 수백 MB 규모의 온칩 SRAM을 배치해, 연산 중 필요한 데이터를 외부 메모리로 보내지 않고 내부에서 처리하도록 설계됐다. 이는 단순한 캐시 확대가 아니라, 연산 흐름 자체를 온칩 SRAM 중심으로 재구성한 것으로, 데이터 이동 비용을 구조적으로 줄이는 데 목적이 있다. 또 이 과정에서 구글 내부 권력 지형에도 변화가 감지된다. 구글 수석 과학자 Jeff Dean은 TPU 8i를 통해 대규모 연산 인프라와 칩 설계 역량을 다시 한 번 입증하며 존재감을 강화했다. 반면 28일 방한해 이재명 대통령과 만남을 가질 데미스 허사비스(Demis Hassabis)식의 알고리즘 기반 추론 접근은 후순위로 밀리는 모습이다. 결국 LPU와 TPU 8i의 차이는 설계와 구현의 차이다. LPU는 ‘어디에서 계산을 끝낼 것인가’에 대한 설계 개념이고, TPU 8i는 그 방향을 온칩 SRAM 배치로 밀어붙인 실제 구현이다. AI 반도체 시장에서의 승부는 이제 거리에서 판정나 데이터의 이동을 최소화한 쪽이 모든 것을 가져간다. 여성경제신문 이상헌 기자 [email protected] *여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다. 관련기사 - [AI칩 지정학] ⑦ 지능 불임의 K-반도체 : 한국산 파라미터 '제로' - [Ψ-딧세이] 파라미터 생애주기 — 인류 멸망시킬? 초지능 정체 - 학습 능력 갖춘 90만개 SRAM 코어···세레브라스, 나스닥 상장 재추진 - '학습 vs 추론' 갈림길 선 최태원···SK브로드밴드로 쏠리는 시선 - 삼성전자 희망퇴직, AI가 불렀다··· DX 부문의 '자기 참조 오류' - 현금 7.6조 있는데 1.5조 빚 내서 데이터센터?··· 삼성SDS '창고 전쟁' 왜? - [분석] HBM? D램? 진짜 수요는 '낸드'야···AI 시대 '창고 전쟁' - AI 칩 따라잡기 급한데 노조·주주에 발목 잡힌 삼성전자 - [기자수첩] 문병로 교수가 간과한 SRAM·L3 캐시의 결정적 역할 - 삼성 파운드리, '첫 AI 가속기' 그록3로 'SRAM 영토' 넓힌다 - [분석] EUV 대수 자랑해도 HBM '빈손'···삼성 57조 영업이익의 이면 - "거기서 NPU가 왜 나와?"···정부 '학습 포기' 가까운 50조 퍼붓기 - AI 데이터센터 폭증에 '메기' 등장···삼성重, 바다에서 해법 찾는 이유

원문 보기 ([AI] ai 칩 경쟁)

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

요약

본문

관련 저널 읽기