엔비디아, 음성·소리·음악 통합 이해 가능한 ‘오디오 플라밍고 넥스트’ 출시 - AI타임스

[AI] nvidia | | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} AI 모델
#기타 ai #머신러닝/연구 #유통 #전자 설계 #키사이트 #1인 창업 #ai 리터러시 #구글 ai 스튜디오 #바이브 코딩 #풀스택 개발

요약

엔비디아와 매릴랜드대학 연구진은 음성, 소리, 음악을 통합적으로 이해하고 최대 30분 길이의 오디오 처리가 가능한 차세대 오디오 AI 모델 ‘AF-넥스트’를 공개했습니다. 1억800만 개 샘플로 학습된 이 모델은 구글의 제미나이 2.5 프로를 넘어서는 정확도를 보이며, 질의응답, 자막 생성 등 다양한 작업을 수행합니다. 연구진은 모델의 가중치와 코드를 오픈소스로 공개하여 오디오 AI의 활용성을 높였습니다.

왜 중요한가

본문

엔비디아가 음성 인식부터 소리 분류, 음악 분석까지 다양한 오디오 작업을 하나로 통합한 단일 AI 모델을 선보였다. 엔비디아와 매릴랜드대학 연구진은 14일(현지시간) 음성과 소리, 음악을 동시에 이해하고 추론할 수 있는 차세대 오디오 AI 모델 ‘AF-넥스트(Audio Flamingo Next)’를 온라인 아카이브를 통해 공개했다. AF-넥스트는 대규모 오디오 데이터를 학습한 오픈소스 대형 오디오-언어 모델(LALM)로, 질의응답, 자막 생성, 음성 인식, 추론 등을 하나의 모델에서 처리할 수 있는 것이 특징이다. 이는 이미지-언어 모델이 시각 정보를 처리하는 방식과 유사하지만, 음성·소리·음악을 통합적으로 다룬다는 점에서 차별화된다. 이번 모델은 세 가지 버전으로 공개됐다. ▲일반 질의응답을 위한 ‘AF-넥스트-인스트럭트(Instruct)’ ▲복잡한 다단계 추론에 특화된 ‘AF-넥스트-싱크(Think)’ ▲상세한 오디오 설명 생성에 최적화된 ‘AF-넥스트-캡셔너(Captioner)’ 등이다. 연구진은 다양한 활용 시나리오에 맞춰 모델을 선택적으로 사용할 수 있도록 설계했다. AF-넥스트의 핵심은 시간 기반 추론 능력이다. 기존 오디오 AI는 짧은 클립 중심으로 학습돼 긴 음성이나 복잡한 상황을 이해하는 데 한계가 있었지만, 이번 모델은 최대 30분 길이의 오디오까지 처리할 수 있다. 특히 ‘시간적 오디오 사고 사슬(Temporal Audio Chain-of-Thought)’라는 새로운 추론 방식이 도입돼, 모델이 각 추론 단계를 오디오의 특정 시점과 연결해 설명하도록 설계됐다. 이는 긴 오디오에서 근거를 정확히 찾아내고 환각을 줄이는 데 기여한다. 모델 구조도 고도화됐다. 위스퍼(Whisper) 기반의 오디오 인코더를 확장한 ‘AF-위스퍼’, 오디오 정보를 언어 모델과 연결하는 어댑터, 그리고 70억개 매개변수 규모의 언어 모델이 결합했다. 여기에 시간 정보를 직접 반영하는 ‘회전식 시간 임베딩(RoTE)’를 적용해, 단순한 순서가 아닌 시간 흐름에 기반한 이해를 가능하게 했다. 학습 데이터 규모도 확대됐다. 연구진은 약 1억800만개 샘플과 100만시간에 달하는 오디오 데이터를 활용했으며, 영화, 대화, 음악, 장시간 영상 등 다양한 실제 환경 데이터를 포함했다. 특히 다중 화자 음성 인식, 긴 영상 자막 생성, 다중 오디오 추론 등 현실적 활용성을 높이는 데이터가 새롭게 추가됐다. 성능 면에서도 기존 모델을 넘어섰다. 주요 오디오 추론 벤치마크인 'MMAU'에서 AF-넥스트는 이전 모델 대비 정확도를 끌어올렸으며, 일부 테스트에서는 구글의 폐쇄형 모델인 제미나이 2.5 프로를 뛰어넘는 결과를 기록했다. 긴 오디오 이해 성능에서도 기존 모델 대비 큰 폭의 개선을 보였고, 음성 인식 정확도 역시 동급 모델 중 최고 수준을 달성했다. 특히 음악 이해 영역에서 두드러진 성과를 보였다. 악기 인식과 음악 설명 생성 등 다양한 과제에서 기존 오픈 모델을 크게 상회하는 성능을 기록하며, 오디오 AI의 활용 범위를 음악 분야까지 확장했다. 연구진은 AF-넥스트가 단순한 성능 개선을 넘어, 오디오 기반 AI의 확장성을 보여주는 사례라고 강조했다. 기존에는 음성 인식, 소리 분류, 음악 분석 등이 각각 별도의 모델로 다뤄졌다면, 이제는 하나의 통합 모델로 다양한 오디오 작업을 처리할 수 있는 시대가 열린다는 것이다. AF-넥스트의 모델 가중치뿐 아니라 학습 데이터 구성과 코드까지 허깅페이스와 깃허브에 공개, 연구자들이 자유롭게 개선할 수 있도록 했다. 박찬 기자 [email protected]

관련 저널 읽기

전체 보기 →