deepseek v4! 전작을 뛰어넘을까?

admin

deepseek v4! 전작을 뛰어넘을까?

딥시크가 V4를 출시하면서 AI API 가격의 바닥을 다시 한번 갈아엎었다. V4-Flash는 GPT-5.5 대비 98% 저렴하면서도 1M 토큰 컨텍스트를 기본 제공하고, V4-Pro는 코딩 벤치마크에서 세계 최고 수준과 어깨를 나란히 한다. 오픈소스 MIT 라이선스, 화웨이 Ascend 칩 최적화까지 더해지면서 단순한 모델 업그레이드를 넘어 AI 인프라 생태계의 지각변동을 일으키고 있다.

들어가며

4월 24일, 딥시크가 조용히 V4를 풀었다. '조용히'라는 표현이 맞을까. 사실 공식 발표 스레드는 몇 시간 만에 백만 뷰를 돌파했고, Hacker News에서는 하루 종일 뜨거운 토론이 이어졌다. 하지만 딥시크 특유의 절제된 발표 스타일은 여전하다. 화려한 마케팅 없이, 가격표 하나로 시장을 흔드는 방식.

개인적으로 가장 흥미로웠던 건 기술 자체보다 타이밍이다. OpenAI가 GPT-5.5를 내놓고, 미국 정부가 중국 모델 디스틸레이션에 대한 규제를 강화하는 이 시점에, 딥시크는 MIT 라이선스로 1조 파라미터 모델을 공개했다. 이것은 기술 발표이자, 정치적 메시지이자, 시장 선언이다.

이 글에서는 V4가 무엇인지, V3.2 대비 얼마나 달라졌는지, 그리고 왜 이 가격이 AI 산업 전체를 뒤흔들 수 있는지 정리해보려 한다.

DeepSeek V4란 무엇인가

V4는 두 개의 모델로 나뉜다. V4-Pro와 V4-Flash.

V4-Pro는 1.6조(total) 파라미터를 가진 거대한 MoE(Mixture of Experts) 모델이다. 토큰 하나를 처리할 때마다 490억 파라미터만 활성화된다. 전체 파라미터는 어마어마하지만, 실제 추론에 들어가는 비용은 50B 밀도 모델 수준이다. 61개 레이어, 384개 라우팅 전문가 중 6개가 활성화되는 구조다.

V4-Flash는 더 가볍고 빠른 버전이다. 2840억 파라미터 중 130억만 활성화된다. 43개 레이어, 256개 전문가 중 6개가 작동한다. V4-Pro의 추론 능력에 근접하면서도 훨씬 저렴하고 빠르다.

두 모델 모두 100만 토큰(1M) 컨텍스트 윈도우를 기본 지원한다. 최대 출력은 384K 토큰. 훈련 데이터는 32~33조 토큰이다. 그리고 라이선스가 MIT로 바뀌었다. 이전 버전의 DeepSeek 라이선스보다 훨씬 개방적이다.

하드웨어 관점에서도 주목할 만하다. V4는 화웨이 Ascend 950 칩에서 최적화되어 있다. 이전 모델들이 NVIDIA H800에서 훈련되었던 것과 비교하면, 미국의 수출 통제 속에서 중국 AI 스택의 자립을 보여주는 상징적인 움직임이다.

경제적 파급효과: 가격 혁명

가격 이야기부터 하자. 이게 이 릴리즈의 핵심이다.

V4-Flash의 입력 가격은 100만 토큰당 $0.14, 출력은 $0.28이다. GPT-5.5의 $5.00/$30.00과 비교하면 98% 저렴하다. V4-Pro는 입력 $1.74, 출력 $3.48으로, GPT-5.5 대비 88% 싸다. Claude Opus 4.7($5.00/$25.00)과 비교해도 65~86% 저렴한 수준이다.

여기에 75% 프로모션 할인이 더해졌다. 5월 5일까지 V4-Pro의 입력 가격은 100만 토큰당 약 $0.435까지 떨어진다. 캐시 히트 기준으로는 $0.036까지 내려간다. 이 가격은 사실상 무료에 가깝다.

모델 입력 ($/1M) 출력 ($/1M) 컨텍스트
DeepSeek V4-Flash $0.14 $0.28 1M
DeepSeek V4-Pro $1.74 $3.48 1M
GPT-5.5 $5.00 $30.00 128K
Claude Opus 4.7 $5.00 $25.00 1M

숫자로만 보면 단순하지만, 실무에서 이 가격 차이가 의미하는 바는 크다. 한 개발자가 밤마다 돌리는 에이전틱 코딩 테스트Harness를 기존 Claude Opus 기준으로 돌리면 하루 약 $116이 나왔는데, V4-Pro로 바꾸니 $16으로 줄었다고 한다. 같은 작업을 V4-Flash로 돌리면 $3 미만이었다. 1000만 토큰 출력 기준으로 V4-Flash는 $2.80이지만, Claude Opus 4.6은 $250이다. 89배 차이.

내가 보기엔 이 가격 구조가 만들어내는 건 새로운 'good enough' 티어다. 기업의 80% 워크로드는 V4-Flash의 $0.28/M 출력 가격으로 충분하다. 모든 작업에 프론티어 모델이 필요한 게 아니다. 분류, 요약, 일반적인 코딩, 문서 분석 같은 작업에 굳이 월 $10,000을 쓸 이유가 없다.

V3.2에서 V4로: 기술적 도약

가격이 싸진 건 좋은데, 성능은 어떤가. 여기서부터가 진짜 이야기다.

가장 눈에 띄는 건 컨텍스트 윈도우다. V3.2의 128K에서 V4의 1M으로 8배 늘었다. 그런데 단순히 컨텍스트가 길어진 게 아니다. 1M 토큰 길이에서 V4-Pro는 V3.2 대비 추론 FLOPs가 27%에 불과하다. V4-Flash는 10%다. KV 캐시는 각각 10%, 7% 수준이다.

이게 무슨 뜻이냐면, V3.2에서 1M 토큰 컨텍스트를 처리하려면 막대한 GPU 메모리와 연산이 필요했다. 실제로는 프리미엄 기능이었다. 하지만 V4는 KV 캐시를 10배 줄였기 때문에, 1M 컨텍스트를 기본 제공할 수 있게 되었다. 비용으로 환산하면, V3.2에서 1M 토큰 작업에 $1이 들었다면 V4-Pro는 $0.27, V4-Flash는 $0.10 정도다.

이 효율성을 가능하게 한 건 하이브리드 어텐션 구조다. CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 결합한 건데, 간단히 말하면 토큰별로 압축된 sparse 어텐션을 적용해서 메모리 사용을 극적으로 줄이는 기술이다. 여기에 mHC(Manifold-Constrained Hyper-Connections)가 더해져서, V4가 요구하는 깊은 레이어 구조에서도 그래디언트가 안정적으로 흐르도록 한다. Muon 옵티마이저는 이전의 AdamW 대비 더 빠른 수렴을 제공한다.

벤치마크 수준도 인상적이다. LiveCodeBench 93.5%는 현재 모든 모델 중 최고점이다. Codeforces 레이팅 3206은 AI 모델 역사상 가장 높은 수치로, 인간 경쟁자 중 23위에 해당한다. SWE-Verified 80.6%는 Claude Opus 4.6의 80.8%와 0.2% 차이에 불과하다. GPQA Diamond 90.1%, MMLU-Pro 87.5%도 최고 수준이다.

다만 모든 벤치마크가 좋은 것만은 아니다. SimpleQA-Verified에서 V4-Pro는 57.9%를 기록했는데, Gemini 3.1 Pro의 75.6%에 한참 못 미친다. 세계 지식(world knowledge) 벤치마크에서의 격차는 분명하다. MIT 테크 리뷰도 "일반 지식에서는 프론티어보다 3~6개월 뒤처지지만, 경쟁 프로그래밍에서는 오픈 모델 최고 기록을 세웠다"고 평가했다.

V3.2 대비 주요 개선 수치를 정리하면 이렇다. Simple-QA +26.9%, HumanEval +14.0%, MMLU-Pro +8.0%, LongBench-V2 +11.3%. 이전 세대 대비 전반적인 향상이 있지만, 특히 코딩과 긴 컨텍스트 작업에서 두드러진다.

커뮤니티 반응

출시 첫 12시간 동안 커뮤니티에서 나타난 반응을 정리하면, 크게 세 갈래로 나뉜다.

긍정적인 쪽은 가격과 코딩 성능에 집중되어 있다. "Flash는 싸고, 효과적이고, 정말 빠르다"는 평가가 대표적이다. 1M 컨텍스트가 프리미엄이 아니라 기본으로 제공된다는 점, MIT 라이선스라는 점, 출시와 동시에 vLLM과 Transformers에서 Day-0 지원이 시작된 점이 개발자들의 호감을 샀다. 에이전틱 코딩 작업에서 Claude Code, OpenClaw 등과 드롭인 교체가 가능하다는 것도 실질적인 장점으로 꼽힌다.

한 개발자는 "3시간 전의 맥락을 끝까지 유지한다"고 표현했는데, 이건 새로운 어텐션 아키텍처 덕분에 가능해진 장거리 컨텍스트 안정성 때문이다. 400K~800K 토큰 규모의 코드베이스 컨텍스트를 멀티스텝 에이전트가 처리할 때, 기존 모델들이 흔들리던 깊이에서도 V4는 일정한 품질을 유지한다고 한다.

회의적인 반응도 만만치 않다. 가장 큰 우려는 벤치마크 검증이다. 딥시크가 발표한 숫자는 자체 측정치인데, 독립적인 벤치마크 기관(Artificial Analysis 등)이 출시 며칠 후에야 본격적인 테스트를 시작했다. "자체 보고 벤치마크는 항상 약간의 소금을 뿌려야 한다"는 게 커뮤니티의 기본 자세다.

검열(censorship) 문제도 여전하다. 민감한 정치적 주제에 대해 약 85%의 거부율을 보인다는 테스트 결과가 있다. Taiwan의 정치적 지위, Tiananmen, Xinjiang 관련 질문에서 모델이 회피하거나 CCP 라인의 답변을 내놓는다는 것이다. 더 우려되는 건, 명시적으로 거부하는 대신 번역 과정에서 내용을 조용히 왜곡하는 사례도 보고되었다는 점이다. 이 검열은 모델 가중치 자체에 포함되어 있어서, 호스팅 API뿐 아니라 오픈웨이트 버전에서도 기본적으로 작동한다.

안전성 정렬(alignment)의 부재도 지적된다. 서양 프론티어 모델들이 수개월에 걸쳐 안전성 테스트를 거치는 것과 비교하면, V4는 이 부분이 상대적으로 허술하다. 로컬 추론을 통해 API 레이어의 검열을 우회할 수는 있지만, 훈련 데이터의 편향성은 여전히 남는다.

실용적인 관점에서의 피드백도 있다. 프론트엔드 코드 품질이 GPT-5.5에 비해 떨어진다는 것이다. 기능적으로는 올바른 HTML/CSS를 생성하지만, 시각적 감각과 UI 폴리시에서 차이가 난다. 멀티모달 기능이 출시 시점에 빠져 있다는 것도 아쉬운 점이다. 에이전트가 UI 컴포넌트의 시각적 검증을 해야 하는 작업에서는 아직 대안이 필요하다.

장점과 한계

솔직하게 정리하자.

강점은 명확하다. 가격 대비 성능 비율이 압도적이다. 1M 컨텍스트가 기본이고, MIT 라이선스로 자유롭게 수정하고 배포할 수 있으며, 코딩 벤치마크에서는 세계 최고 수준과 경쟁한다. 화웨이 Ascend 칩 최적화는 NVIDIA 의존도를 줄이는 전략적으로 중요한 움직임이다. Day-0 인프라 지원으로 바로 실무에 투입할 수 있다는 것도 장점이다.

한계도 분명하다. 세계 지식 벤치마크에서 Gemini 3.1 Pro에 크게 뒤처진다. 멀티모달이 아직 없다. 프론트엔드/UI 생성 품질이 부족하다. 검열과 안전성 이슈는 정치적으로 민감한 작업에서는 치명적일 수 있다. 1M 토큰 전체를 사용할 때 실제 정확도는 벤치마크가 보여주는 것보다 낮을 수 있다는 우려도 있다. 800K 토큰을 넘어서면 리콜 품질이 떨어진다는 테스트 결과가 있고, NIAH(Multi-Query Needle in a Haystack) 벤치마크가 97.0%이지만, 실제 저장소 분석 작업에서는 다른 문제라고 한다.

데이터 수집 관점에서도 주의가 필요하다. 딥시크는 채팅 기록을 포함한 11개 카테고리의 사용자 데이터를 수집하고, 이로 인해 이탈리아, 덴마크, 호주, 한국, 미국 여러 주에서 규제 조치가 있었다. 민감한 작업이라면 오픈웨이트를 직접 호스팅하는 게 안전하다.

맺으며

DeepSeek V4는 단순한 모델 업그레이드가 아니다. AI 가격 구조를 재정의하는 사건이다.

$0.14/M이라는 가격은 "AI를 쓸 수 있는 사람"의 범위를 근본적으로 넓힌다. 스타트업, 개인 개발자, 비영리단체까지. 기존에 프론티어 모델을 감당할 수 없었던 이들이 이제 같은 수준의 도구를 사용할 수 있게 되었다. 이것이 'democratization of AI'라는 말이 실체를 갖는 순간이다.

동시에 이 릴리즈는 지정학적 의미도 품고 있다. 화웨이 Ascend 칩에서 훈련되고 최적화된 1조 파라미터 모델이 MIT 라이선스로 공개되었다는 것. 미국의 수출 통제가 오히려 중국 AI 스택의 자립을 가속화하고 있다는 역설을 보여준다.

필자의 입장에서 실무적인 조언을 하자면, 지금 당장 해볼 만한 건 V4-Flash를 기존 워크로드의 일부에 테스트해보는 것이다. 코딩 에이전트, 문서 분석, 요약 같은 작업에서 비용 대비 성능을 직접 확인해보면 된다. V4-Pro는 더 복잡한 추론 작업에 적합하지만, 벤치마크 검증이 완료되기 전까지는 신중하게 접근하는 게 좋다.

AI 시장은 이제 '비싼 것 = 좋은 것'이라는 공식이 깨지는 시기에 들어섰다. DeepSeek V4는 그 변화를 가장 가시적으로 보여주는 사례다. 가격이 98% 싸진 모델이 같은 수준의 성능을 제공한다면, 더 이상 비싼 모델에 프리미엄을 지불할 이유가 있는지 다시 생각해봐야 한다.

*이 글은 2026년 4월 29일 기준으로 작성되었습니다.