아크릴 자체 AI ‘아름.H’, 구글·오픈AI·앤트로픽 성능 넘었다…96.78% 최고 기록 - 파이낸셜포스트

[AI] anthropic ai | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} AI 모델
#ai 모델 #anthropic #claude #gemini #gpt-5 #openai

요약

아크릴은 자사가 개발한 의료 특화 파운데이션 모델 ‘아름.H(ALLM.H)’가 국내 의료 AI 평가 벤치마크에서 96.78%의 정답률을 기록하며 최고 성능(SOTA)을 달성했다고 14일 밝혔다. 현재 아름.H는 보건복지부 및 과학기술정보통신부 주관 ‘닥터앤서 3.0’, ‘K-ARPA’ 사업을 기반으로 연세의료원, 경북대학교병원 등 주요 의료기관에서 실증에 돌입할 예정이다.

왜 중요한가

본문

아크릴은 자사가 개발한 의료 특화 파운데이션 모델 ‘아름.H(ALLM.H)’가 국내 의료 AI 평가 벤치마크에서 96.78%의 정답률을 기록하며 최고 성능(SOTA)을 달성했다고 14일 밝혔다. 이는 글로벌 주요 AI 모델 대비 높은 수준으로, 의료 분야에서의 기술 경쟁력을 입증한 결과다. 아크릴에 따르면 이번 성과는 한국 의사 국가시험(KMLE) 기출문항을 기반으로 구성된 ‘KorMedMCQA Doctor Test’에서 도출됐다. 아름.H는 Anthropic의 ‘Claude Opus4(96.55%)’, OpenAI의 ‘GPT-5.1(90.11%)’, Google의 ‘Gemini 2.5 Pro(90.8%)’를 모두 상회하는 성능을 기록했다. 특히 해당 모델은 31B 규모의 경량 오픈소스 기반으로 구현됐다는 점에서 주목된다. 일반적으로 성능 향상을 위해 초대형 모델을 사용하는 방식과 달리, 아크릴은 데이터 정제와 도메인 특화 학습 설계를 통해 효율성과 정확도를 동시에 확보했다는 설명이다. 아름.H는 아크릴의 산업 특화 파운데이션 모델 패밀리 ‘ALLM(Acryl LLM)’의 첫 결과물로, 의료·헬스케어 분야에 특화해 개발됐다. 아크릴은 이를 기반으로 진료과별 특성을 반영한 모델 확장을 추진하며, 의료 현장에서 활용 가능한 AI 생태계 구축에 나설 계획이다. 현재 아름.H는 보건복지부 및 과학기술정보통신부 주관 ‘닥터앤서 3.0’, ‘K-ARPA’ 사업을 기반으로 연세의료원, 경북대학교병원 등 주요 의료기관에서 실증에 돌입할 예정이다. 임상 의사결정 지원, 의료 데이터 분석, 상담 보조 등 실제 의료 환경에서의 활용 가능성을 검증한다는 방침이다. 아크릴은 향후 해당 기술을 의료를 넘어 금융, 법률, 제조 등 다양한 산업으로 확장한다는 구상이다. 자체 LLM 평가 플랫폼 ‘조나단(Jonathan)’과 결합해 모델 학습부터 평가, 배포까지 가능한 엔드투엔드 AI 인프라를 제공함으로써 산업별 AI 내재화를 가속화한다는 전략이다.

관련 저널 읽기

전체 보기 →