[딥다이브] 엔비디아 KV-캐시 이어 ‘FlashMoE’까지…AI 메모리 설계 고도화 시대 열리나 - 이코노미트리뷴
[AI] 온디바이스 ai
|
|
{'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} news
#gpt-4
#하드웨어/반도체
요약
엔비디아는 대형언어모델의 효율성을 높이기 위해 HBM뿐만 아니라 DRAM과 SSD까지 포함하는 메모리 계층 구조를 제시하며 병목 현상 해결에 주력하고 있습니다. 국내 연구진은 SSD를 활용해 메모리 부담을 분산하는 ‘FlashMoE’ 기술을 공개해 대규모 모델의 처리 효율을 높이는 방안을 제시했습니다. 업계는 이러한 설계 변화가 일부 메모리 수요를 줄일 수 있지만, 모델의 지속적인 대형화와 AI 서비스 확장으로 인해 전체적인 메모리 수요는 증가할 것으로 전망했습니다.
왜 중요한가
본문
[이코노미트리뷴 = 김용현 기자] 최근 국내 반도체 업계에서는 ‘KV-캐시’가 주요 화두로 떠올랐다. 젠슨 황 엔비디아 CEO가 활용 가능성을 언급하면서, HBM(고대역폭메모리) 수요에 미칠 영향까지 거론됐다. KV-캐시(KV-Cache)는 LLM(대형언어모델)이 이전 토큰 정보를 Key·Value 형태로 저장해 재계산을 줄이는 기술이다. 문장 생성 과정에서 생성된 토큰 정보를 저장해 이후 연산에 재활용하는 방식이다. 기존에는 이 KV-캐시로 생성된 데이터를 GPU 내 HBM에 저장했지만, 컨텍스트(입력 문장 길이)가 길어질수록 메모리 사용량이 급격히 증가하는 한계가 있다. 이에 엔비디아는 KV-캐시를 HBM에만 두지 않고 DRAM과 SSD까지 나눠 저장하는 ‘계층 구조’를 제시했다. 자주 사용하는 KV 데이터는 HBM에, 나머지는 DRAM이나 SSD로 이동시키는 방식으로 병목을 완화하려는 접근이다. 업계에서는 KV-캐시로 생성된 데이터를 사용 빈도에 따라 ‘핫(Hot)·콜드(Cold) 데이터’로 구분해 메모리를 계층적으로 활용하는 구조라고 설명한다. 이 같은 방향은 최근 발표된 루빈 아키텍처에서도 확인됐다. 엔비디아는 하드웨어와 소프트웨어를 함께 설계하는 ‘코디자인(co-design)’을 통해 추론 비용 절감과 함께 KV-캐시를 외부 저장 계층까지 확장하는 구조를 강조했다. 특히 추론 과정을 초기 입력을 처리하는 ‘프리필(pre-fill)’ 단계와 토큰을 순차적으로 생성하는 ‘디코드(decode)’ 단계로 구분해 메모리 활용을 최적화하는 방식을 제시했다. 프리필 단계에서는 대규모 연산을 빠르게 처리하고, 디코드 단계에서는 KV-캐시를 효율적으로 관리해 메모리 부담을 낮추는 구조다. 이와 같이 메모리 병목을 해결하려는 유사한 기술이 최근 업계의 주목을 받고 있다. 애플이 2023년 말 관련 연구를 공개한 데 이어, 올해 1월 한국 연구진이 ‘FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices’ 논문을 통해 SSD 기반 캐시 구조를 구체화하면서 업계 관심이 이어지고 있다. ◇ 온디바이스 AI 확산 속 메모리 한계…MoE로 연산 효율화 최근 구글은 제마(Gemma)4 모델을 공개하며, 통신 연결 없이도 스마트폰에서 대형 LLM에 준하는 수준의 성능을 구현할 수 있음을 보여줬다. 이는 비행기 내 에어플레인 모드와 같은 오프라인 환경에서도 챗봇과의 대화가 가능하다는 의미다. 이러한 온디바이스 AI는 클라우드 연결 없이 기기 자체에서 AI를 구동하는 방식으로, 통신 환경과 관계없이 사용할 수 있다는 점이 특징이다. 다만 스마트폰은 데이터센터와 달리 메모리 용량에 제약이 있다. 이른바 ‘핸드폰용 램’인 LPDDR 기반 메모리는 용량과 대역폭 측면에서 HBM 대비 한계가 명확하기 때문이다. 이 같은 제약을 완화하기 위해 모델 경량화와 양자화, 연산 구조 최적화 등 다양한 방법이 활용되고 있다. MoE(Mixture of Experts)는 이러한 방법 중 하나로, 모델을 여러 개의 전문가(Expert)로 나누고 입력에 따라 일부만 활성화하는 방식이다. 이 경우 전체 모델 규모가 크더라도 실제 연산에 사용되는 파라미터(모델이 계산에 사용하는 내부 숫자 값)는 제한된다. 예를 들어 구글의 제마(Gemma)4 MoE 모델(26B)은 약 260억 규모의 파라미터를 갖고 있지만, 실제 연산에는 약 40억(4B) 수준만 사용되는 구조다. ◇ SSD 활용 확대…메모리 계층 구조 변화 이번에 한국 연구진들이 공개한 FlashMoE는 이러한 MoE 구조에 메모리 계층화를 결합한 방식이다. 모델을 SSD에 저장해두고 필요한 일부만 RAM이나 GPU 메모리로 불러와 활용함으로써 메모리 부담을 분산시키는 것이 핵심 아이디어다. 기존 MoE는 모델을 메모리(HBM 등)에 둔 상태에서 일부만 선택적으로 사용하는 연산 효율화 구조에 가까웠다면, FlashMoE는 모델을 SSD에 저장해두고 필요한 일부만 GPU 메모리로 불러와 연산하는 방식으로 저장 계층을 확장한 것이 특징이다. 이러한 구조는 온디바이스 AI에서 저장장치(UFS)에 모델을 두고 일부만 메모리에 올려 활용하는 방식과도 유사한 흐름으로 이해할 수 있다. 다만 온디바이스 AI가 제한된 메모리 환경에 맞춰 모델을 경량화하는 데 초점이 맞춰져 있다면, FlashMoE는 대규모 모델을 유지한 채 저장 계층을 확장해 처리 효율을 높이는 데 방점이 찍혀 있다는 점에서 차이가 있다. 업계 관계자는 이를 두고 메모리를 단일 계층이 아닌 △HBM △DRAM △SSD로 나누는 구조로 전환하는 흐름이라고 설명했다. ◇ 효율화에도 늘어나는 메모리 수요…모델 대형화가 상쇄 업계 전문가들은 KV-캐시와 MoE와 같은 설계 단계의 변화가 메모리 수요 감소로 직결된다고 보기는 어렵다고 설명한다. 일부 작업에서는 메모리 사용량이 줄어들 수 있지만, 전체적으로는 모델 규모 확대와 서비스 확장으로 메모리 활용 범위가 오히려 넓어지는 흐름이 이어지고 있기 때문이다. 실제로 AI 모델은 GPT-3에서 GPT-4, 이후 차세대 모델로 갈수록 70B에서 400B, 나아가 1T+ 수준까지 빠르게 대형화되는 추세를 보여왔다. 결국 차세대 AI 산업 전반에서는 동일한 연산을 더 적은 HBM으로 처리할 수 있게 되더라도, 확보된 여유를 바탕으로 더 많은 데이터를 처리하고 성능을 고도화하는 방향으로 이어질 가능성이 높다는 설명이다. 특히 휴머노이드 로봇이나 자율주행 레벨4와 같은 고도화된 AI, 이른바 피지컬 AI 영역에서는 다양한 변수를 동시에 처리해야 하는 만큼 이러한 흐름이 더욱 뚜렷해질 것이라는 평가다. 업계에서는 모바일 환경에서는 온디바이스 AI 확산 과정에서 메모리 수요를 일부 완화하는 효과가 있을 수 있지만, 데이터센터에서는 오히려 더 큰 모델과 더 많은 연산으로 확장되며 메모리 수요가 확대될 가능성이 높다는 분석이 나온다. [email protected]