"흩어진 GPU 하나로 묶어"...구글, '비동기·분산식' 모델 학습법 공개 - AI타임스
[AI] AI model
|
|
📰 뉴스
#맥 미니
#삼성·sk하이닉스
#실리콘
#엔비디아 gpu
#하드웨어/반도체
#솔라테크
#스마트팩토리
#친환경
#한청판지
#협력
원문 출처: [AI] AI model · Genesis Park에서 요약 및 분석
요약
한청판지가 AI 기반 자율주행 로봇 기업 솔라테크와 협력하여 스마트팩토리 구축에 나섰습니다. 두 기업은 로봇 기술을 활용해 포장 작업에서 발생하는 불량률을 획기적으로 줄이고 생산 효율성을 높이는 데 집중할 예정입니다.
본문
구글이 기존의 하드웨어 ‘완전 동기화’ 구조를 벗어나, 비동기·분산 방식으로도 안정적인 대규모 모델 학습이 가능한 새로운 아키텍처를 제시했다. 구글 딥마인드는 23일(현지시간) 기존 AI 학습의 핵심 제약으로 꼽히던 동기화 문제를 해결하는 새로운 학습 아키텍처 ‘디커플드 디로코(Decoupled DiLoCo·Distributed Low-Communication)’를 온라인 아카이브를 통해 공개했다. 지금까지 대형언어모델(LLM)은 수천~수만개의 GPU나 TPU가 동시에 같은 속도로 계산을 수행하고, 단계마다 결과를 맞혀야 하는 구조로 작동해 왔다. 이 과정에서 단 하나의 칩이 느려지거나 장애가 발생하면 전체 학습이 멈추는 병목 현상이 빈번하게 발생했다. 디커플드 디로코는 이러한 구조를 근본적으로 바꿨다. 전체 연산을 여러개의 독립적인 ‘학습 단위(learner unit)’로 나누고, 각각을 일종의 ‘섬(island)’처럼 운영하는 방식이다. 각 단위는 자체적으로 학습을 진행한 뒤, 모델 상태를 업데이트하기 위해 일정 주기로 서로 통신한다. 이 과정이 비동기적으로 이뤄지기 때문에 일부 장비에 문제가 생겨도 전체 시스템이 멈추지 않고 계속 학습을 이어갈 수 있다는 설명이다. 특히 이 구조는 데이터센터 간 대역폭 문제를 획기적으로 줄였다는 점에서 주목된다. 기존 방식은 여러 데이터센터를 연결하기 위해 약 초당 198기가비트(Gbps) 수준의 초고속 네트워크가 필요했지만, 디커플드 디로코는 이를 약 0.84Gbps 수준으로 낮췄다. 이는 일반적인 인터넷 수준의 연결만으로도 글로벌 분산 학습이 가능해졌음을 의미한다. 장애 대응 능력도 크게 향상됐다. 연구진은 ‘카오스 엔지니어링(Chaos Engineering)’ 기법을 활용해 일부 장비를 의도적으로 중단시키는 실험을 진행했다. 그 결과, 시스템은 학습을 멈추지 않고 계속 진행했으며 복구된 장비를 자연스럽게 통합하는 ‘자가 치유(self-healing)’ 특성을 보였다. 120만개 칩을 가정한 시뮬레이션에서는 실제 유효 학습 시간 비율(goodput)이 기존 27%에서 88%까지 상승했다. 이 같은 효율성 개선에도 불구하고 모델 성능 저하는 거의 없었다. 구글의 '젬마 4' 모델을 활용한 실험에서 기존 방식과 유사한 수준의 정확도를 유지한 것으로 나타났다. 또 미국 내 4개 지역에 분산된 수천km 거리의 이종 데이터센터를 활용해 120억 매개변수 규모 모델을 학습하는 데 성공했으며, 기존 방식 대비 최대 20배 이상 빠른 속도를 기록했다. 하드웨어 측면에서도 의미 있는 변화가 예상된다. 디커플드 디로코는 서로 다른 세대의 칩을 함께 사용할 수 있도록 설계돼, 최신 장비뿐 아니라 구형 장비도 동시에 활용할 수 있다. 실제 실험에서는 서로 다른 성능의 TPU를 혼합해도 모델 성능 저하 없이 학습이 가능했다. 이는 데이터센터 운영 비용 절감과 자원 활용 효율 개선으로 이어질 수 있다. 이번 기술은 단순한 성능 개선을 넘어, AI 인프라의 구조 자체를 재편할 가능성을 보여준다. 지금까지는 동일한 고성능 칩과 초고속 네트워크를 갖춘 제한된 환경에서만 초거대 모델 학습이 가능했지만, 앞으로는 지리적으로 분산된 데이터센터와 다양한 하드웨어를 활용하는 ‘유연한 AI 학습’이 현실화할 수 있다는 평가다. 연구진은 "우리는 이제 통신 인프라가 취약한 환경이나 전 세계에 흩어진 파편화된 컴퓨팅 자원 위에서도, 마치 하나의 거대한 데이터센터에서 작업하는 것처럼 LLM을 안정적으로 학습할 수 있는 시대를 열었다"라고 강조했다. 박찬 기자 [email protected]
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유