뉴스피드 큐레이션 SNS 대시보드 저널

구글, AI 학습·추론 성능 끌어올린 8세대 TPU 공개…"달러당 전력효율 80%↑" - 네이트

[AI] Google TPU | | 🔬 연구
#하드웨어/반도체 #exaone 3.5 #huawei ascend #llama #로컬 실행 #머신러닝/연구 #이중 언어 #코딩 로직

요약

LG의 'EXAONE 3.5 32B' 모델은 파라미터 70B 급 모델들과 맞먹는 코딩 및 논리 추론 성능을 보여주며 모델 크기와 성능의 비례 상식을 깼습니다. 이 모델은 영어와 한국어를 동시에 지원하는 이중 언어 모델로서, 화웨이 Ascend NPU 환경에서도 로컬 구동이 가능합니다. 특히 Llama와 Qwen 모델들이 포화된 기업용 시장에 드문 대안을 제시하지만, 라이선스 이용에는 여전히 제한이 따르는 것으로 나타났습니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

구글이 인공지능(AI) 학습과 추론에 특화한 8세대 텐서 프로세서 유닛(TPU)을 공개했다. 업계에서 엔비디아 그래픽처리장치(GPU)의 대항마로 주목 받아온 구글 TPU는 이번 8세대 제품에서 기존보다 학습 속도를 3배, 초저지연 추론 성능을 구현했다. 구글은 22일(현지시각) 미국 라스베이거스 만달레이베이 컨벤션센터에서 열린 ‘구글 클라우드 넥스트’ 행사에서 학습, 추론에 최적화한 ‘TPU 8t’와 ‘TPU 8i’를 선보였다. TPU는 구글이 지속적으로 개발하고 있는 자체 AI 서비스에 특화한 주문형 반도체(ASIC)다. 전력 공급 구조를 최적화해 엔비디아 GPU보다 전력 효율이 높다는 평가를 받는다. 지난 2015년 초 구글 클라우드 데이터센터에 처음 배치된 이후 엔비디아의 GPU에 대한 의존도를 줄이는 데 핵심 역할을 하고 있다. 우선 TPU 8t는 높은 연산 처리량과 공유 고대역폭메모리(HBM) 등을 활용해 전작인 7세대 ‘아이언우드’와 비교해 학습 성능을 3배로 끌어올렸다. 또 칩 간 연결(ICI) 기술을 활용해 칩을 최대 9600개까지, HBM 용량을 최대 2PB(페타바이트)까지 확장했다. 구글에 따르면 해당 TPU로 최첨단 AI 모델 개발에 소요되는 시간을 몇 개월에서 몇 주로 단축할 수 있다. 추론에 최적화한 TPU 8i는 HBM 288GB에 속도가 빠른 S램 384MB를 함께 탑재한 데다 칩 간 데이터 이동 경로를 절반 이상 단축했다. AI 서비스 응답 속도를 더 빠르게 지원한다는 의미다. 일반적인 AI 챗봇의 응답을 비롯해 로봇이나 에이전트를 구동할 때 작업의 병목이 발생하는 것을 막을 수 있다는 설명이다. 전력 효율도 크게 끌어올려 이전 세대 제품보다 달러당 성능을 80% 높였다. 토머스 쿠리안 구글 클라우드 CEO는 AI 칩을 두 종류로 나눈 이유에 대해 “생성 AI가 폭넓게 확산했을 때 사람들이 학습에 최적화한 시스템과 추론에 맞춘 시스템을 각각 원할 것으로 판단했다”며 “AI 인프라 확장에서 전력이 제약 요인이 될 것을 예상하고 설계 단계부터 에너지 효율을 극대화하는 데 중점을 뒀다”고 밝혔다. [조선비즈 바로가기] - Copyrights ⓒ 조선비즈 & ChosunBiz.com, 무단 전재 및 재배포 금지 - 황민규 기자 [email protected] 구글은 22일(현지시각) 미국 라스베이거스 만달레이베이 컨벤션센터에서 열린 ‘구글 클라우드 넥스트’ 행사에서 학습, 추론에 최적화한 ‘TPU 8t’와 ‘TPU 8i’를 선보였다. TPU는 구글이 지속적으로 개발하고 있는 자체 AI 서비스에 특화한 주문형 반도체(ASIC)다. 전력 공급 구조를 최적화해 엔비디아 GPU보다 전력 효율이 높다는 평가를 받는다. 지난 2015년 초 구글 클라우드 데이터센터에 처음 배치된 이후 엔비디아의 GPU에 대한 의존도를 줄이는 데 핵심 역할을 하고 있다. 우선 TPU 8t는 높은 연산 처리량과 공유 고대역폭메모리(HBM) 등을 활용해 전작인 7세대 ‘아이언우드’와 비교해 학습 성능을 3배로 끌어올렸다. 또 칩 간 연결(ICI) 기술을 활용해 칩을 최대 9600개까지, HBM 용량을 최대 2PB(페타바이트)까지 확장했다. 구글에 따르면 해당 TPU로 최첨단 AI 모델 개발에 소요되는 시간을 몇 개월에서 몇 주로 단축할 수 있다. 추론에 최적화한 TPU 8i는 HBM 288GB에 속도가 빠른 S램 384MB를 함께 탑재한 데다 칩 간 데이터 이동 경로를 절반 이상 단축했다. AI 서비스 응답 속도를 더 빠르게 지원한다는 의미다. 일반적인 AI 챗봇의 응답을 비롯해 로봇이나 에이전트를 구동할 때 작업의 병목이 발생하는 것을 막을 수 있다는 설명이다. 전력 효율도 크게 끌어올려 이전 세대 제품보다 달러당 성능을 80% 높였다. 토머스 쿠리안 구글 클라우드 CEO는 AI 칩을 두 종류로 나눈 이유에 대해 “생성 AI가 폭넓게 확산했을 때 사람들이 학습에 최적화한 시스템과 추론에 맞춘 시스템을 각각 원할 것으로 판단했다”며 “AI 인프라 확장에서 전력이 제약 요인이 될 것을 예상하고 설계 단계부터 에너지 효율을 극대화하는 데 중점을 뒀다”고 밝혔다. 조선비즈 핫 뉴스 Best - Copyrights ⓒ 조선비즈 & ChosunBiz.com, 무단 전재 및 재배포 금지 - 황민규 기자 [email protected] 내 댓글에 대댓글이 등록되면 알려드릴까요? 네이트앱에 로그인하시면 알림으로 안내해 드릴게요.

관련 저널 읽기

전체 보기 →