LG 엑사원 4.5 공개…메타 뮤즈 스파크, 구글 젬마4와 비교해보니 - kmjournal.net

[AI] 젬마4 | 2026년 4월 9일 14:06 | 🔬 연구

#review

원문 출처: [AI] 젬마4 · Genesis Park에서 요약 및 분석

요약

LG AI연구원은 산업 현장의 문서와 차트 등을 이해하는 실무형 멀티모달 모델 ‘엑사원 4.5’를 공개했다. 해당 모델은 33B 규모로도 STEM 평균 77.3점을 기록하며 GPT-5 미니 등을 상회하고, 특히 구글 젬마4 31B를 넘어서는 코딩 성능을 입증했다. 비록 메타의 최상위 모델과는 리그가 다르지만, 엑사원 4.5는 한국 AI가 범용 경쟁보다는 기업 실무 환경에 특화된 효율성과 경쟁력을 갖췄음을 보여줬다.

본문

LG AI연구원이 멀티모달 모델 ‘엑사원 4.5’를 공개했다. 이번 모델은 한국 AI가 글로벌 경쟁에서 어느 수준까지 올라왔는지를 보여주는 시험대에 가깝다. 특히 최근 공개된 메타의 ‘뮤즈 스파크’와 비교해 보면, 엑사원 4.5의 현재 위치와 강점이 더 분명하게 드러난다. 문서·차트·복합 데이터 강점…엑사원의 승부처는 실무형 멀티모달 엑사원 4.5는 이미지와 텍스트를 함께 이해하고 추론하는 비전언어모델이다. LG AI연구원은 계약서, 기술 도면, 재무제표, 스캔 문서처럼 산업 현장에서 자주 다루는 복합 문서를 읽고 해석하는 능력을 강점으로 내세웠다. 범용 챗봇 경쟁보다는 실무형 멀티모달에 더 초점을 맞춘 모델이라는 뜻이다. STEM 평균 77.3점…글로벌 상위권 모델과 정면 비교 LG가 공개한 벤치마크에 따르면 엑사원 4.5는 STEM 5개 지표 평균 77.3점을 기록했다. GPT-5 미니 73.5점, 클로드 소넷 4.5 74.6점, 큐원3 235B 77.0점보다 높은 수치다. 일반 시각 이해와 문서 이해, 추론 성능을 포함한 13개 지표 평균에서도 GPT-5 미니, 클로드 소넷 4.5, 큐원3-VL 계열을 웃돌았다. 코딩 성능 지표인 라이브코드벤치 v6는 81.4점, 차트QA 프로는 62.2점을 기록했다. 이 수치만 놓고 보면 엑사원 4.5는 LG가 공개한 비교 기준 안에서 글로벌 상위권 경쟁력을 보여줬다고 볼 수 있다. 특히 문서 이해와 시각 추론, 차트 해석처럼 기업 현장에서 바로 활용할 수 있는 영역에서 강점을 보였다는 점이 눈에 띈다. LG가 이번 모델을 오픈 웨이트로 공개한 점도 의미가 있다. 성능뿐 아니라 생태계 확장까지 함께 노렸다는 뜻이다. 메타 뮤즈 스파크와 단순 비교 어려운 이유…비교 리그가 다르다 다만 비슷한 시기에 공개된 메타의 뮤즈 스파크와 같은 선상에서 단순 비교하는 데는 한계가 있다. 뮤즈 스파크는 메타가 오픈AI, 구글, 앤스로픽의 최상위 모델과 직접 경쟁하겠다며 내놓은 폐쇄형 모델이다. 공개된 수치를 보면 CharXiv Reasoning 86.4%, MMMU Pro 80.4%, SWE-Bench Verified 77.4%, HLE 50.2%를 기록했다. 아티피셜 애널리시스 종합 점수도 52점으로, GPT-5.4와 제미나이 3.1 프로, 클로드 오퍼스 4.6 바로 아래다. 즉 비교 대상부터 다르다. 엑사원 4.5는 GPT-5 미니, 클로드 소넷 4.5, 큐원3-VL과 비교되는 구간에서 경쟁력을 입증했고, 뮤즈 스파크는 GPT-5.4, 제미나이 3.1 프로, 클로드 오퍼스 4.6과 맞붙는 최상위 대형 LLM 모델이다. 같은 AI라도 지금 서 있는 리그가 다르다는 뜻이다. 엑사원의 실제 비교 대상은 구글 젬마4 31B에 더 가깝다 그렇다면 엑사원 4.5의 경쟁력을 판단할 더 현실적인 비교 대상은 구글의 젬마4 31B라고 보는 편이 맞다. 메타 뮤즈 스파크가 최상위 폐쇄형 프런티어(대형) 모델이라면, 엑사원 4.5는 상대적으로 효율성과 개방성을 함께 가져가는 실무형 소형 모델이기 때문이다. 실제로 LG AI연구원은 코딩 성능 지표인 라이브코드벤치 v6에서 엑사원 4.5가 81.4점을 기록해 젬마4 31B의 80.0점을 넘어섰다고 밝혔다. 메타와의 비교가 엑사원의 현재 좌표를 보여주는 참고선이라면, 젬마4와의 비교는 엑사원이 실제 경쟁할 시장과 모델군을 더 선명하게 보여주는 기준이라고 할 수 있다. 작은 모델로 실전성 입증…엑사원이 보여준 건 효율이다 그렇다고 엑사원 4.5의 의미가 줄어드는 건 아니다. 오히려 엑사원 4.5는 33B 규모의 비교적 작은 모델로 문서 이해, 시각 추론, 차트 분석, 코딩까지 고르게 성능을 끌어올렸다. 메타가 범용 최상위 모델 경쟁에 들어갔다면, LG는 산업 현장에서 바로 쓸 수 있는 멀티모달 모델을 더 정교하게 다듬은 셈이다. 방향은 다르지만 경쟁력은 분명히 확인됐다는 평가가 가능하다. 한국 AI 전략도 달라졌다…범용 경쟁보다 산업 현장 먼저 이번 엑사원 4.5 공개에서 중요한 건 한국 AI의 전략이 예전과 달라졌다는 점이다. 단순히 한국어에 강한 모델을 만드는 데 그치지 않고, 문서와 차트, 복합 데이터를 이해하는 실무형 AI로 무게중심을 옮기고 있다. 실제 기업 환경에서 필요한 성능을 먼저 확보하겠다는 흐름이 읽힌다. 국가대표 AI 선발전에서 주목받는 이유…엑사원, 한국형 승부처를 보여줬다 결국 엑사원 4.5를 지금 당장 메타 뮤즈 스파크와 같은 최상위 폐쇄형 프런티어 모델과 동급 비교는 어렵다. 그래서 현재 공개된 비교 지표만으로는 두 모델을 같은 기준에서 일대일로 평가하 ㄹ수 없다. 다만 실무형 멀티모달과 문서 이해 영역에서는 엑사원4.5가 글로벌 상위권과 충분히 경쟁할 수 있는 수준까지 올라왔다고 볼 수 있다. 국가대표 AI 선발전에서 LG AI연구원이 주목받는 배경도 여기에 있다. 한국 AI가 어디에서 먼저 승부를 걸지, 엑사원 4.5가 그 방향을 보여줬다는 점은 분명하다. 테크인싸 칼럼니스트 [email protected]

원문 보기 ([AI] 젬마4)

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

요약

본문

관련 저널 읽기