샤오미 MiMo 2.5/Pro, 싸고 강력한데 하나가 걸린다

올해 3월 OpenRouter에 Hunter Alpha라는 이름의 모델이 올라왔다. 벤치마크 성능은 Claude Opus 4.6에 필적했는데, 정체가 불분명했다. 며칠 뒤 공개된 정체는 샤오미의 MiMo V2-Pro. 핸드폰 회사로 알려진 샤오미가 AI 모델 시장에 뛰어든 순간이었다.

솔직히 처음 들었을 때 반신반의했다. 샤오미가 LLM을? 근데 정체를 숨긴 채 OpenRouter에서 벤치마크를 통과시킨 전략 자체가, 성능에 대한 자신감의 표현이기도 했다.

타임라인을 정리하면 이렇다. 2025년 12월 MiMo-V2-Flash 오픈소스 릴리스(309B 총 파라미터, 15B 활성 파라미터, MoE 구조). 2026년 1월 기술 보고서 공개. 3월 V2-Pro OpenRouter 런칭(1T+ 총 파라미터, 1M 컨텍스트). 4월 V2.5와 V2.5-Pro 공식 출시. 4개월 만에 오픈소스에서 상용 API까지 라인업을 완성한 셈이다.

V2.5와 V2.5-Pro, 둘의 차이

내가 보기엔 이 둘의 포지셔닝이 꽤 명확하다. V2.5는 네이티브 멀티모달 모델이다. 텍스트, 이미지, 비디오, 오디오를 모두 처리할 수 있고, 범용 작업에 적합하다. V2.5-Pro는 텍스트에 집중한 에이전틱/코딩 전문 모델이다. 속도가 약간 느리지만, 에이전트 루프나 대규모 코드 작업에서 더 안정적이다.

가격은 V2.5가 입력 $0.40/M, 출력 $2.00/M. V2.5-Pro는 입력 $1.00/M, 출력 $3.00/M이다. 둘 다 1M 토큰 컨텍스트 윈도우를 지원하는데, 실제로 1M을 채우면 성능 저하가 보고되고 있어 주의가 필요하다.

벤치마크, 숫자로 말하면

흥미로운 점은 SWE-bench Pro에서 세 모델(MiMo, Claude, Kimi)이 1.4pt 이내로 수렴한다는 사실이다. 코딩 벤치마크에서는 이제 프론티어 모델 간 차이가 거의 사라졌다는 뜻이다. MiMo가 Claude보다 8배 저렴하면서도 동일한 코딩 성능을 낸다면, 비용 효율성만 놓고 보면 MiMo를 선택할 이유가 명확해진다.

반면 HLE(Humanity's Last Exam)에서는 MiMo가 Claude보다 10.7pt 뒤처진다. 수학적 추론이나 학술적 지식이 필요한 작업에서는 여전히 격차가 있다. Terminal-Bench 2.0에서의 86.7%는 특히 인상적인데, Kimi K2.6이 50.8%를 기록한 것과 비교하면 36pt 차이다. 터미널 명령 실행, 파일 시스템 조작 같은 시스템 레벨 작업에서 MiMo는 현재 출시된 모델 중 가장 높은 성능을 보여준다.

ClawEval의 토큰 효율성도 눈에 띈다. 64% Pass³를 달성하면서 사용한 토큰이 70K에 불과하다. 경쟁 모델들이 같은 점수를 내기 위해 120K~175K 토큰을 쓰는 것과 비교하면, 동일 성능을 절반 이하의 토큰으로 달성한다는 의미다.

경쟁자들과 비교하면

가장 직접적인 비교 대상은 Claude Opus 4.6이다. 출력 토큰당 가격은 MiMo가 $3/M, Claude가 $25/M. 8배 이상 차이가 난다. 코딩 벤치마크에서는 거의 동등한 성능을 보여주지만, HLE에서 10.7pt 격차가 있다. 복잡한 수학 추론이나 학술적 지식이 필요한 작업에서는 Claude가 아직 앞선다.

비용 관점에서 보면, 대량의 에이전틱 작업을 처리할 때 MiMo의 가격 경쟁력은 결정적이다. 하루에 수백만 토큰을 소모하는 에이전트 파이프라인에서 출력 토큰 단가 $3 vs $25의 차이는 월 단위 비용에서 수백 달러 차이로 벌어진다. Claude가 제공하는 5시간 쓰로틀링 제한도 MiMo에게는 해당하지 않는다.

Kimi K2.6과 비교하면, Terminal-Bench 2.0에서 MiMo(86.7%)가 Kimi(50.8%)를 36pt 차이로 앞선다. 반면 HLE에서는 Kimi가 약간 앞선다. SWE-bench Pro에서는 Kimi(58.6%)가 MiMo(57.2%)보다 1.4pt 높다. 에이전트 워크로드는 MiMo, 코딩은 미세하게 Kimi, 학술 추론은 Kimi, 라는 식의 역할 분담이 자연스럽게 나뉜다.

개인적으로 느끼는 MiMo의 강점은 세 가지로 압축된다. 토큰 효율성(경쟁 대비 40~60% 적은 토큰), 출력 비용($3/M, 프론티어 모델 중 최저가), 에이전틱/터미널 작업(Terminal-Bench 86.7%). 약점도 뚜렷하다. 학술 추론(HLE 48.0%), 1M 컨텍스트 사용 시 성능 저하 보고, V2.5-Pro의 멀티모달 미지원.

토큰 플랜, 꼼꼼히 봐야 할 것들

플랜은 Lite(6$, 60M 크레딧), Standard(16$, 200M), Pro(50$, 700M), Max(100$, 1,600M)로 나뉜다. 여기서 핵심은 크레딧 배수를 이해하는 것이다. V2.5는 1x 배수, V2.5-Pro는 2x 배수다. Pro 플랜의 700M 크레딧으로 V2.5-Pro를 쓰면, 실제 사용 가능한 토큰은 약 350M이다. 이 배수를 간과하면 플랜 선택에서 큰 오차가 발생한다.

흥미로운 점은 V2-Pro 시절에는 256K~1M 컨텍스트 사용 시 4x 배수가 적용되었다는 것이다. Standard 플랜(200M 크레딧)에서 1M 컨텍스트를 쓰면 실제 사용량은 50M에 불과했다. V2.5에서 이 추가 배수는 삭제되었다. 사용자 커뮤니티의 압력이 있었던 것으로 보이는데, 4x 배수는 1M 컨텍스트를 실제로 활용하려는 사용자에게 사실상 금지에 가까운 비용 부담을 지웠으니까.

첫 결제 12% 할인, 모든 플랜에서 TTS 무료, 5시간 쓰로틀링 제한 없음. 다만 크레딧은 월말에 소멸되고 롤오버되지 않는다. 사용하지 않은 크레딧은 다음 달로 이월되지 않으니, 월간 예상 사용량을 정확히 계산하는 것이 중요하다.

캐싱 문제, 조심해서 봐야 할 부분

이 섹션이 필자가 이 글에서 가장 강조하고 싶은 부분이다. MiMo의 벤치마크 성능과 가격표가 아무리 좋아도, 캐싱 문제가 해결되지 않으면 실제 비용은 예상과 크게 벗어날 수 있다. 필자는 스텐다드 플랜으로 간단한 테스트 프롬프트 5회만에 16%소모가 되었다. 일/주 단위가 아니라 월단위 플랜이라는 것.

프롬프트 캐싱은 동일한 프롬프트 접두사가 반복될 때 비용을 절감하는 핵심 기술이다. Claude는 캐싱 시 입력 토큰 비용의 10%만 부과한다. MiMo도 유사한 캐싱 메커니즘을 지원하는데, 문제는 실제로 캐싱이 제대로 동작하는가이다.

커뮤니티에서 보고된 사례들을 보면, 캐싱이 제대로 연결되지 않은 환경에서 에이전트 루프를 돌리면 토큰 소모가 headline 가격의 5~10배까지 치솟는 경우가 있다. 하루 10M 토큰을 소모하는 코딩 워크플로우를 가정하면, Claude(캐싱 활성화)에서는 캐싱으로 40% 절감을 기대할 수 있다. 반면 MiMo(캐싱 미작동)에서는 절감 없이 매번 전체 토큰을 지불한다. MiMo가 Claude보다 8배 저렴하다고 광고하지만, 캐싱 문제가 상쇄되면 실제 코딩 워크플로우에서는 Claude보다 비쌀 수 있다는 뜻이다.

좀 더 구체적으로 말하면, 캐싱 관련 설정에서 샤오미가 네이티브 프로바이더 목록에 포함되어 있지 않아 컨텍스트 프루닝이 비활성화되는 경우가 보고되고 있다. 에이전트 루프가 반복될 때마다 이전 컨텍스트가 정리되지 않고 무한히 성장하는 것이다. 1M 컨텍스트 윈도우를 가진 모델에서 이 문제는 꽤 치명적이다. 매 요청마다 전체 컨텍스트를 전송하게 되고, 토큰 소모는 기하급수적으로 늘어난다.

개인적으로 이 부분이 아쉬운데, 캐싱이 제대로 작동하는 환경과 작동하지 않는 환경의 사용자 경험은 완전히 다르다. 캐싱 경로를 직접 관리할 수 있는 기술력이 있는 팀이라면 MiMo의 가격 경쟁력을 제대로 활용할 수 있겠지만, 그렇지 않은 사용자라면 headline 가격에 속지 말고 실제 사용 환경에서의 비용을 먼저 테스트해보는 것이 좋겠다.

커뮤니티 반응, 두 갈래

긍정적인 평가는 주로 가성비에 집중되어 있다. 프론티어급 성능을 최저가로 제공한다는 점, 5시간 쓰로틀링 제한이 없다는 점, ClawEval 64% @ 70K 토큰의 인상적인 토큰 효율성이 주요 호평 포인트다. Zhihu에서는 샤오미가 업계 최초로 가격 경쟁을 깨뜨렸다는 평가도 나왔다.

부정적인 평가는 크레딧 소모 속도에 집중되어 있다. "Lite 플랜이 하루 만에 소진된다"는 보고, 롤오버 없는 월말 소멸 정책, 학술 추론에서의 한계가 주요 불만 사항이다. 이것은 캐싱 문제가 토큰 소모를 증폭시킨 결과로 해석된다.

이 반응을 MiMo 자체의 성능 문제로 단정할 수는 없다. 캐싱 경로가 정상적으로 연결된 환경에서는 상당 부분 해소될 수 있는 이슈다. 그러나 현재 상태에서 사용자들이 겪는 실질적 불만이라는 점은 부인하기 어렵다.

결론, 누구에게 추천하고 누구에게 말리고 싶은가

대규모 에이전틱 파이프라인을 운영하는 팀에게 MiMo V2.5-Pro는 강력한 선택지다. 토큰 효율성과 저렴한 출력 비용이 결합되면, 월 단위 비용에서 상당한 절감이 가능하다. 터미널/DevOps 작업에서는 Terminal-Bench 86.7%라는 수치가 보여주듯 업계 최고 수준의 성능을 기대할 수 있다. 비용에 민감하면서 에이전트 워크로드가 많은 팀, 5시간 제한에 갇혀 있는 Claude 사용자들에게 특히 매력적이다.

반면 학술/리서치 작업을 주로 하는 사용자에게는 아직 이른 선택이다. HLE 48.0% vs Claude 58.7%의 격차는 실질적이다. 캐싱 설정을 직접 관리하기 어려운 사용자, 프록시 레이어를 거치는 환경에서 사용하는 경우라면, MiMo의 가격 경쟁력이 제대로 발현되지 않을 가능성이 높다.

사용 전에 꼭 확인했으면 하는 것들이 있다. 캐싱 관련 수정을 포함하는지, 캐싱이 실제로 동작하는지, 월간 예상 토큰 사용량을 정확히 계산했는지, 에이전트 루프의 idle 토큰 소모량을 모니터링할 인프라가 있는지. 이 네 가지를 체크하고 나서 도입을 결정하면, headline 가격에 속는 일은 없을 것이다.

MiMo 2.5 시리즈는 샤오미가 핸드폰 회사에서 AI 회사로 변환하는 데 성공했음을 보여주는 모델이다. 벤치마크 수치는 진짜고, 가격 경쟁력은 업계 최고 수준이다. 다만 기술력만큼이나 인프라, 캐싱 경로의 완성도, 가격 정책의 투명함도 중요하다. 강력한 도구지만, 올바르게 사용하기 위해서는 그 강점과 약점을 정확히 이해해야 한다.

이 글은 2026년 4월 기준 공개된 벤치마크 데이터와 커뮤니티 보고 개인 를 바탕으로 작성되었다. 모델 성능과 가격 정책은 향후 변경될 수 있다.