뉴스피드 큐레이션 SNS 대시보드 저널

오픈AI ‘GPT-5.5’ 내놓은 날...중국의 딥시크 V4도 출격했다 - v.daum.net

[AI] GPT-5.4 | | 🤖 AI 모델
#ai 모델 #gpt-5

요약

중국의 AI 기업 딥시크가 1조6000억 파라미터의 ‘V4-프로’와 2840억 파라미터의 ‘V4-플래시’ 등 차세대 모델 2종을 오픈소스로 공개했다. 이번 모델들은 프론티어급 성능을 유지하면서도 이전 모델 대비 KV 캐시를 10분의 1로 줄여 효율성을 극대화한 것이 특징입니다. 특히 V4-프로 맥스 모델은 오픈AI의 GPT-5.4 하이 등 글로벌 최상위 모델들을 제치고 벤치마크 1위를 차지하며 추론 능력을 입증했습니다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

오픈AI ‘GPT-5.5’ 내놓은 날...중국의 딥시크 V4도 출격했다 전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다. 중국의 대표적인 인공지능(AI) 모델 개발 기업 딥시크가 차세대 모델인 'V4' 시리즈의 모델 2종이 미리보기 형태로 공개됐다. 딥시크 측은 딥시크-V4-프로의 추론 능력을 극대화한 '딥시크-V4-프로 맥스' 모델을 앤스로픽의 클로드 오퍼스 4.6 맥스, 오픈AI의 GPT-5.4 하이, 구글의 제미나이 3.1 프로-하이와 비교한 벤치마크를 공개했다. V4 프로·플래시 2종의 모델 깜짝 공개 프론티어급 성능 유지하면서 오픈소스로 이전 모델 대비 KV 캐시 10분의 1 수준 지난해 초 추론 모델 ‘딥시크-R1’으로 딥시크가 전 세계를 뒤흔든지 1년 3개월 여 만이다. 딥시크는 24일 소셜미디어 엑스(X)를 통해 “딥시크-V4 프리뷰를 오픈소스로 형태로 공식 출시했다”며 ‘딥시크-V4-프로’와 ‘딥시크-V4-플래시’ 2종의 모델을 발표했다. 딥시크-V4-프로는 1조6000억 파라미터 크기의 초대형 모델이며, 딥시크-V4-플래시는 2840억 파라미터로 구성된 상대적으로 작은 모델이다. 각각 추론 과정에서는 490억 파라미터, 130억 파라미터만 활성화해 연산을 수행한다. 두 모델 모두 입력 때 최대 100만개의 토큰 컨텍스트를 지원한다. 컨텍스트는 AI 모델이 한 번에 기억할 수 있는 정보의 양으로, 100만 토큰 컨텍스트는 약 75만개의 단어에 달한다. 이번 모델 2종은 모두 오픈소스 플랫폼 허깅페이스를 통해 제3자가 내려받아 사용할 수 있는 오픈웨이트 모델로 출시된 것이 특징이다. MIT 라이선스를 적용하고 있어 상업적인 이용도 가능하다. 딥시크 측은 딥시크-V4-프로의 추론 능력을 극대화한 ‘딥시크-V4-프로 맥스’ 모델을 앤스로픽의 클로드 오퍼스 4.6 맥스, 오픈AI의 GPT-5.4 하이, 구글의 제미나이 3.1 프로-하이와 비교한 벤치마크를 공개했다. 딥시크는 “(딥시크 V4는) 현재 이용할 수 있는 최고의 오픈소스 모델”이라며 “코딩 벤치마크에서도 최고 수준의 성능을 발휘하며 폐쇄형 모델과의 격차를 크게 좁혔다”고 강조했다. 다만 플래시 모델의 경우 작은 크기로 인해 일반 상식 테스트나 복잡한 에이전트 작업 능력에서 프로 모델보다 떨어진다고 설명했다. 성능 외에도 주목할 점은 딥시크가 아키텍처 개선을 통해 모델 효율을 대폭 강화했다는 점이다. 딥시크는 서로 다른 메커니즘을 결합한 ‘하이브리드 어텐션 아키텍처(HAA)’를 활용해 긴 길이의 토큰을 처리하는 과정의 효율을 대폭 개선했다. 딥시크에 따르면 딥시크-V4-프로가 100만 토큰의 컨텍스트를 처리하는 과정에서 토큰 연산량은 딥시크-V3.2의 27% 수준, KV 캐시는 10% 수준이다. KV 캐시의 경우 AI 모델이 이전 대화를 기억해두기 위해 그래픽처리장치(GPU)에 저장해두는 데이터인데, 이를 10% 수준으로 줄였다는 것은 동일한 인프라를 활용하면서도 10배 더 긴 컨텍스트를 처리하거나 10배 더 많은 양의 요청을 처리할 수 있다는 의미다. 한편 이날은 오픈AI가 차세대 모델인 ‘GPT-5.5’를 공개한 날로, 딥시크도 같은 날 V4를 선보이며 맞불을 놓은 모양새가 됐다. 두 모델은 모두 응용 프로그래밍 인터페이스(API)로도 정식 출시됐다. 딥시크가 두 모델을 ‘프리뷰’로 언급한 만큼 V4 모델의 정규 라인업이 추후 공개될 것으로 전망된다. 딥시크가 이번 모델을 훈련하는 과정에서 어떠한 AI 반도체를 활용했는지는 공개되지 않았다. 모델을 소개하는 기술 보고서에서는 모델의 병렬 처리 성능을 검증하는 과정에서 엔비디아 GPU와 화웨이의 어센드 신경망처리장치(NPU) 플랫폼을 모두 활용했다는 내용 정도가 언급됐다. Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지 - “들고만 있어도 되는데, -65% 어쩌나”…반도체주 ‘엇박자 투자’ 개미들 패닉 - 매일경제 - 韓 정착 20년 만 여권 발급…‘귀화’ 미녀 방송인 정체 - 매일경제 - “여자 혼자 절대 산에 가지 마”…대낮 등산로서 벌어진 소름돋는 경험담들 - 매일경제 - “최대 年17%, 이건 안들면 진짜 손해”…정부가 내놓는 ‘이 통장’ 주목 - 매일경제 - 8년간 10조어치 해먹은 식품업계…소비자 등치고 “휴대폰 파쇄기 넣자” - 매일경제 - 117억 아파트 무슨 돈으로 샀나보니…“회삿돈 67억 땡겼습니다” - 매일경제 - [단독] ‘알파고 아버지’ 허사비스, 이재명 대통령 만난다 - 매일경제 - “210만닉스도 정말 가능한가요”…SK하이닉스, 목표가 줄상향 - 매일경제 - [속보] 靑 “5월중 원유 7400만배럴 확보…작년 평균의 87% 수준” - 매일경제 - 마침내 돌아오는 ‘이글스의 4번 타자’ 노시환, 주춤하고 있는 한화 타선에 힘 보탤까 - MK스포

관련 저널 읽기

전체 보기 →