수학·코딩 다 잡았다…애플, LLM 추론 정확도 높이는 신기술 공개 - 네이트
[AI] 애플
|
|
🔬 연구
#ai 모델
#llm
#변환기
#컴퓨터 사용
#프로그램 실행
#ai솔루션
#aml
#금융규제
#머신러닝
#머신러닝/연구
#자금세탁방지
원문 출처: [AI] 애플 · Genesis Park에서 요약 및 분석
요약
애플 연구진이 확산 모델과 자기회귀 방식을 융합한 새로운 프레임워크 '라디르(LaDiR)'를 공개해 거대언어모델의 수학적 추론 및 코드 생성 성능을 획기적으로 높였습니다. 이 기술은 추론 과정에서 여러 경로를 병렬로 실행하여 다양한 답변 후보를 탐색함으로써 모델이 특정 아이디어에 빠르게 매몰되는 문제를 해결합니다. 기존 모델을 대체하지 않고 성능을 보완하는 형태로 설계된 이 시스템은 노이즈에서 출발해 점진적으로 정교한 결과를 도출합니다.
본문
애플이프레임워크 라디르(LaDiR)를 공개했다. [사진: Reve AI] [디지털투데이 AI리포터] 애플 연구진이 확산 모델과 자기회귀 방식을 결합해 거대언어모델(LLM)의 수학적 추론과 코드 생성 능력을 획기적으로 향상시키는 새로운 프레임워크 라디르(LaDiR)를 공개했다. 29일(현지시간) IT매체 나인투파이브맥에 따르면, 애플은 캘리포니아 대학교 샌디에이고(UCSD) 연구진과 공동으로 '라디르: 잠재 확산 기반 LLM 텍스트 추론 강화'(LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning)라는 제목의 연구 논문을 발표했다. 라디르는 추론 과정에서는 확산 방식을 채택하고 최종 결과물은 자기회귀 방식으로 생성하는 하이브리드 접근법을 사용한다. 이는 기존 모델을 대체하는 것이 아니라 성능을 보완하는 프레임워크 형태로 설계됐다. 이 시스템은 추론 단계에서 여러 경로를 병렬로 실행하며 각각의 확산 프로세스를 진행한다. 초기에는 무작위 패턴인 노이즈 상태에서 시작해 이를 점진적으로 정교한 추론 단계로 다듬어 나가는 방식이다. 특히 각 경로가 서로 다른 가능성을 탐구하도록 독려하는 메커니즘을 갖췄다. 이를 통해 모델이 하나의 아이디어에 너무 빨리 매몰되지 않고 다양한 후보 답변을 생성할 수 있도록 돕는다. 메타의 라마(LLaMA) 3.1 8B 테스트 [사진:LaDiR 원문] 큐웬(Qwen)3-8B 기반의 코드 생성 테스트[사진:LaDiR 원문] 실제 성능 측정 결과 라디르는 수학과 코드 생성 등 주요 벤치마크에서 기존 방식을 압도했다. 메타의 라마(LLaMA) 3.1 8B에 적용했을 때 수학 벤치마크에서 높은 정확도를 기록했으며 난도가 높은 외부 데이터 세트에서도 강한 성능을 보였다. 큐웬(Qwen)3-8B 기반의 코드 생성 테스트에서도 표준 미세 조정 방식보다 훨씬 신뢰할 수 있는 결과물을 산출했다. 퍼즐 스타일의 계획 작업에서도 라디르는 기존 베이스라인 모델보다 훨씬 넓은 범위의 유효한 답변을 찾아냈다. 카운트다운 게임과 같은 과제에서 일반 목적의 모델들보다 더 안정적으로 정답을 도출하는 데 성공했다. 비록 특정 작업에 특화된 전용 모델에는 미치지 못했으나, 일반적인 텍스트 생성 성능을 개선하는 혁신적인 접근법으로서 그 가치를 입증했다는 평가다.
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유