구글, 연구 논문 작성하는 다중 에이전트 시스템 ‘페이퍼오케스트라’ 공개 - AI타임스

[AI] ai agent | | 🔬 연구
#구글 #다중 에이전트 #머신러닝 #머신러닝/연구 #연구 논문 #페이퍼오케스트라 #ai #review #논문 자동화
원문 출처: [AI] ai agent · Genesis Park에서 요약 및 분석

요약

구글은 여러 개의 AI 에이전트가 협업해 아이디어와 실험 데이터만으로 학술지 제출 수준의 논문을 자동 작성하는 멀티 에이전트 프레임워크 '페이퍼오케스트라'를 공개했습니다. 이 시스템은 약 40분 만에 초록부터 결론까지의 전체 과정을 수행하며, 시맨틱 스칼라 API를 활용해 허위 인용을 방지하고 평균 45건 이상의 참고문헌을 생성합니다. 실제 인간 연구자들의 평가와 학회 심사 시뮬레이션 결과, 기존 AI 시스템들을 크게 뛰어넘는 높은 완성도를 보여주었습니다. 다만 연구진은 이를 연구의 처음부터 끝까지 책임지는 도구가 아닌, 최종 검증은 인간이 담당해야 하는 연구 보조 도구로 그 역할을 규정했습니다.

본문

AI가 논문 작성 전 과정을 자동화하는 방향으로 진화하고 있다. 여러 개의 AI 에이전트가 협업해 실험 데이터와 아이디어만으로 학술지 제출이 가능한 수준의 논문을 생성하는 기술이 등장했다. 구글은 8일(현지시간) 구조화되지 않은 사전 연구 자료를 입력하면 완성도 높은 논문을 자동으로 작성하는 멀티 에이전트 기반 프레임워크 ‘페이퍼오케스트라(PaperOrchestra)’를 온라인 아카이브를 통해 공개했다. 이 시스템은 기존 AI 논문 작성 도구의 한계를 보완하는 데 초점을 맞췄다. 기존 자동화 도구들은 특정 실험 환경에 종속되거나, 단편적인 문장 생성이나 단순 문헌 정리에 그치는 경우가 많았다. 페이퍼오케스트라의 핵심은 역할이 분리된 다중 에이전트 구조다. 먼저 ‘아웃라인(Outline) 에이전트’가 연구 아이디어와 실험 데이터를 분석해 논문 구조와 시각화 계획을 수립한다. 이후 ‘시각화(Plotting) 에이전트’와 ‘문헌 조사(Literature Review) 에이전트’가 병렬로 작동해 그래프와 개념도를 생성하고, 웹 검색 및 학술 데이터베이스를 기반으로 검증된 참고문헌을 수집한다. 특히 문헌 검토 과정에서는 시맨틱 스칼라 API(Semantic Scholar API)를 활용해 실제 존재하는 논문만 인용하도록 설계돼, 허위 인용(환각)을 최소화했다. 이중 시각화 에이전트에는 구글의 '나노 바나나 2'를 활용해 고정밀 피규어를 생성하는 기술이 탑재됐다. 이는 지난 2월 발표된 '페이퍼바나나'의 핵심 알고리즘을 프레임워크 내로 통합한 것이다. 이후 ‘작성(Section Writing) 에이전트’는 초록, 방법론, 실험, 결론 등 전체 논문을 PDF 출력이 가능한 LaTeX 형식으로 작성하며, ‘검토(Content Refinement) 에이전트’는 가상의 피어리뷰 시스템을 통해 반복적으로 품질을 개선한다. 이 과정에서 논문 품질이 향상되지 않으면 이전 단계로 되돌리는 방식으로 안정성을 확보했다. 전체 파이프라인은 평균 40분 안에 완료되며, 60~70회의 대형언어모델(LLM) 호출이 이뤄진다. 성능 검증을 위해 연구진은 ‘페이퍼라이팅벤치(PaperWritingBench)’라는 벤치마크도 제안했다. 이는 'CVPR 2025'와 'ICLR 2025'에 채택된 논문 200편을 기반으로, 아이디어 요약과 실험 로그만 남긴 상태에서 AI가 논문을 재구성하도록 설계된 데이터셋이다. 이를 통해 실제 연구 과정에서 초안 작성 단계의 난이도를 재현했다는 설명이다. 실험 결과, 페이퍼오케스트라는 기존 단일 에이전트 방식이나 최신 자동화 시스템 대비 뚜렷한 성능 향상을 보였다. 인간 연구자 11명이 참여한 평가에서 문헌 검토 품질은 50~68% 높은 승률을 기록했고, 전체 논문 완성도 역시 14~38% 개선됐다. 자동 평가에서도 문헌 검토 품질은 최대 99%에 가까운 우위를 보였으며, 전체 논문 품질도 큰 폭으로 앞섰다. 특히 참고문헌 생성 능력에서 차별성이 두드러졌다. 페이퍼오케스트라는 평균 45건 이상의 인용을 생성해 인간 논문과 유사한 수준에 근접했으며, 기존 AI 시스템이 놓치던 ‘유의미하지만, 필수는 아닌 참고문헌’까지 폭넓게 포함하는 성과를 보였다. 또 시뮬레이션 기반 학회 심사에서는 CVPR 기준 84%, ICLR 기준 81%의 채택률을 기록해 인간 작성 논문(86%, 94%)에 근접한 성능을 보였다. 심지어 자체적으로 생성한 도표를 포함한 경우에도, 절반 이상의 비교에서 인간 결과와 동등하거나 우수한 평가를 받았다. 인간 선호도 평가 결과에서도 페이퍼오케스트라는 단일 에이전트나 사카나AI의 ‘AI 사이언티스트-v2’보다 전반적으로 뛰어난 성능을 보였다. 하지만, 인간이 작성한 기준 데이터(GT)와 비교하면 여전히 일정한 품질 차이가 확인됐다. 연구진은 페이퍼오케스트라를 AI 저자라기보다는 연구 생산성을 높이는 보조 도구로 규정하고 있다. "논문의 정확성, 독창성, 책임은 여전히 인간 연구자에게 있으며, AI가 생성한 결과 역시 검증이 필요하다"라고 강조했다. 박찬 기자 [email protected]

Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.

공유

관련 저널 읽기

전체 보기 →