“GPU 더 안 사도 된다”…구글이 밝힌 AI 인프라 비용 줄이는 방법 - kmjournal.net
[AI] ai 추론 인프라
|
|
🖥️ 하드웨어
#맥 미니
#삼성·sk하이닉스
#실리콘
#엔비디아 gpu
#하드웨어/반도체
요약
구글은 GPU 추가 구매 없이도 AI 인프라 비용을 효과적으로 절감할 수 있는 방법을 공개했습니다. 기존 하드웨어 성능을 극대화하는 최적화 기술과 소프트웨어적 해결책을 통해 기업들의 금전적 부담을 덜어줄 것으로 기대됩니다. 이는 AI 개발 과정에서 발생하는 막대한 비용 문제를 해결하는 대안으로 주목받고 있습니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
AI 인프라 경쟁의 기준이 바뀌고 있다. 단순히 더 많은 GPU를 확보하는 단계에서, 같은 장비로 얼마나 많은 요청을 처리하느냐가 핵심으로 떠오른 상황이다. 구글은 이 흐름에 맞춰 추론 단계에서 자원 사용을 줄이는 기술을 공개하며 방향을 분명히 했다. 서비스 단계에서 터지는 비용, 추론이 핵심 AI 모델은 학습보다 실제 서비스 단계에서 더 많은 비용이 발생한다. 사용자가 질문을 던질 때마다 모델이 답을 만들어야 하고, 이 과정이 반복되기 때문이다. 문제는 메모리다. 특히 KV 캐시는 모델이 이전 문맥을 기억하기 위해 사용하는 영역인데, 대화가 길어질수록 빠르게 커진다. 이 때문에 GPU 메모리가 부족해지고, 더 많은 장비를 투입해야 하는 구조가 만들어진다. 구글이 내놓은 ‘터보퀀트’는 이 부분을 직접 줄이는 방식이다. KV 캐시를 3비트 수준으로 압축해 메모리 사용량을 크게 낮추면서도 정확도는 유지하는 것이 핵심이다. 회사 측은 이를 통해 메모리 사용량을 최소 6배 줄일 수 있다고 설명했다. 메모리 줄이면, 인프라도 같이 줄어든다 메모리 사용량이 줄어들면 실제 인프라 운영 방식에도 변화가 생긴다. 같은 GPU로 처리할 수 있는 요청 수가 늘어난다. 서버를 추가로 들이지 않아도 서비스 확장이 가능해진다는 의미다. 특히 트래픽이 늘어나는 구간에서 장비 증설 시점을 늦출 수 있다. 또 하나는 장비 선택의 폭이다. 기존에는 메모리 한계 때문에 고가 GPU를 써야 했던 작업도, 압축 기술을 적용하면 기존 장비로 처리할 수 있다. 결과적으로 신규 투자 부담이 낮아진다. 전력과 운영 비용도 함께 줄어든다. GPU 수가 줄면 데이터센터 전력 사용량과 냉각 비용이 같이 내려가기 때문이다. AI 서비스에서 반복적으로 발생하는 비용 구조를 감안하면 이 변화는 꽤 크다. 학습과 추론, 동시에 손보는 전략 구글은 추론만 개선한 것이 아니다. 학습 단계에서는 ‘디커플드 디로코’를 통해 분산 학습 구조를 바꿨다. 여러 데이터센터를 나눠 쓰면서도 학습을 이어갈 수 있게 하고, 일부 장비에 문제가 생겨도 전체 작업이 멈추지 않도록 설계했다. 여기에 추론 단계에서는 메모리 사용을 줄이는 터보퀀트를 적용했다. 학습에서는 네트워크 부담을 낮추고, 추론에서는 메모리 부담을 줄이는 방식이다. 결과적으로 같은 장비를 더 오래, 더 많이 활용할 수 있는 구조를 만든 셈이다. 인프라 경쟁, ‘얼마나 많이’에서 ‘얼마나 효율적’으로 엔비디아, 마이크로소프트, AWS 등 주요 기업들도 전력 효율과 비용 절감을 강조하고 있다. 다만 구글은 칩 성능뿐 아니라 소프트웨어 구조까지 함께 손보는 전략을 택했다는 점에서 차이가 있다. AI 서비스는 한 번 구축하고 끝나는 구조가 아니다. 사용자가 늘어날수록 비용이 계속 쌓인다. 이 때문에 추론 단계에서 자원을 얼마나 줄일 수 있느냐가 전체 사업 구조에 직접 영향을 준다. 구글의 이번 기술은 인프라를 물리적으로 줄인다기보다, 같은 인프라로 더 많은 일을 처리하게 만드는 방향에 가깝다. 결과적으로 서버 확장 속도를 늦추고, 장기 비용을 낮추는 효과로 이어진다. 테크인싸 칼럼니스트 [email protected]