뉴스피드 큐레이션 SNS 대시보드 저널

"금융·법률에서 RAG 성능 5%까지 하락"....올거나이즈, ACL 메인 논문 채택 - AI타임스

[AI] rag | | 🤖 AI 모델
#이벤트 #ai #ai 모델 #lg #뉴스 #엑사원 4.5 #한국경제

요약

엑사원 4.5는 LG AI연구원이 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다. 입력 2026.04.09 18:25 수정 2026.04.10 00:41 지면 A12 텍스트, 이미지 동시 이해·추론 시각 능력 주요 글로벌 모델 앞서 LG AI연구원이 새로운 인공지능(AI) 모델 ‘엑사원 4.5’를 9일 공개했다.

왜 중요한가

개발자 관점

검토중입니다

연구자 관점

검토중입니다

비즈니스 관점

검토중입니다

본문

올거나이즈(대표 이창수)는 자연어처리(NLP) 분야 국제 학술대회인 'ACL 2026'에서 검색증강생성(RAG) 평가 방법론을 다룬 ‘RARE’ 논문이 메인 컨퍼런스에 채택됐다고 24일 밝혔다. 올해 약 1만2000건의 논문이 제출된 가운데 약 19%만이 메인 컨퍼런스에 채택됐다는 점에서 유의미한 성과라고 설명했다. 이번 논문은 기존 RAG 평가 벤치마크가 실제 기업 환경을 충분히 반영하지 못하는 한계를 분석하고 이를 개선하기 위한 방법론을 제시했다. 기존 검색 및 질문응답 벤치마크인 'MS MARCO'와 'HotpotQA' 등은 주로 위키피디아 기반 정제된 데이터를 바탕으로 설계, 문서 간 유사도와 정보 중복이 높은 금융 보고서·법률 문서 등 기업 데이터 환경을 충분히 반영하지 못한다는 설명이다. 실험 결과, 위키피디아 환경에서는 상위 10개 검색 결과 내 정답 포함 비율을 의미하는 ‘PerfRecall@10’이 77.9%를 기록했으나, 금융과 법률 도메인에서는 각각 8.5%, 5.0% 수준까지 크게 하락하는 것으로 나타났다. 이에 연구진은 두가지 개선 방안을 제시했다. 첫째는 ‘원자 단위 사실 분해(Atomic Fact Decomposition)’다. 문서 내용을 최소 단위의 사실로 분해한 뒤 동일한 사실이 여러 문서에 어떻게 분산돼 있는지를 추적하는 방식이다. 이를 통해 중복 정보가 많은 환경에서도 정밀한 평가가 가능하다는 설명이다. 둘째는 ‘통합 순위 기반 가중치 기법(Consensus Rank-based Reciprocal Fusion)’이다. 복수의 검색 결과에서 공통적으로 상위에 등장하는 문서에 더 높은 가중치를 부여해 신뢰도 높은 결과를 도출하는 방식이다. 올거나이즈는 이러한 방법론을 통해 변별력이 낮거나 논리적으로 부적절한 평가용 질문을 구조적으로 걸러내고 평가 데이터 품질을 안정화할 수 있다고 설명했다. 이 기술은 AI 플랫폼 ‘알리(Alli)’의 RAG 평가 기능에 적용되며, 금융·법률·특허 등 다양한 도메인 영역의 문서 기반 벤치마크를 공개할 계획이라고 밝혔다. 이창수 올거나이즈 대표는 “이번 ACL 채택은 실제 현장에서 해결해온 문제가 학술적으로도 의미를 인정받았다는 점에서 의의가 있다”라며 “앞으로도 현장 문제에서 출발한 연구를 통해 이를 다시 실무에 적용 가능한 솔루션으로 발전시켜 나가겠다”라고 말했다. 김해원 기자 [email protected]

관련 저널 읽기

전체 보기 →