속도 9배 괴물 등장…엔비디아 '네모트론3 옴니'로 AI 판 흔들었다 - 디지털투데이
[AI] 멀티모달 ai
|
|
📰 뉴스
#ai 거점 리더
#ai 애플리케이션
#디노도
#토크아이티
#플랫폼 9.1
#ai
#누적벌점
#다보링크
#로보틱스
#통신장비
원문 출처: [AI] 멀티모달 ai · Genesis Park에서 요약 및 분석
요약
다보링크는 누적된 벌점 리스크를 해소하여 새로운 출발점을 마련했습니다. 이를 발판으로 삼아 통신, 인공지능, 로보틱스 기술을 융합한 플랫폼 기업으로 도약할 계획을 밝혔습니다.
본문
[디지털투데이 AI리포터] 엔비디아가 비전과 음성, 언어 모델을 단일 시스템으로 통합해 처리 속도와 추론 정확도를 획기적으로 개선한 개방형 멀티모달 모델 네모트론3 나노 옴니(Nemotron 3 Nano Omni)를 전격 공개했다. 28일(현지시간) 엔비디아 블로그에 따르면, 이번 신규 모델은 기존 AI 에이전트가 개별 모델 간 데이터를 주고받는 과정에서 발생하던 시간 지연과 문맥 손실 문제를 근본적으로 해결했다. 시각 정보와 오디오 인코더를 결합한 하이브리드 전문가 혼합(MoE) 구조를 채택함으로써 별도의 외부 인식 모델 없이도 복합적인 데이터를 즉각 처리한다. 이를 통해 동일한 상호작용 수준의 기존 오픈형 모델 대비 최대 9배 높은 처리량을 구현했으며 운영 비용 또한 크게 절감했다. 네모트론3 나노 옴니는 복잡한 문서 지능, 비디오와 오디오 이해도를 측정하는 6개 주요 벤치마크에서 선두를 차지하며 독보적인 효율성을 입증했다. 특히 풀 HD급 고해상도 화면 녹화본을 실시간으로 해석할 수 있는 능력을 갖춰 컴퓨터 기반 업무 자동화의 기술적 한계를 넘어섰다. 에이블, 팔란티어, 폭스콘 등 글로벌 기술 기업들이 이미 해당 모델을 도입했으며 델 테크놀로지스와 오라클 등 주요 클라우드 사업자들도 도입을 위한 성능 검증 단계에 돌입했다. ■ 통합 멀티모달 추론으로 지연 시간 최소화 기존의 에이전트 시스템은 화면 녹화 영상을 처리하면서 동시에 통화 오디오를 분석하고 데이터 로그를 확인하기 위해 시각, 음성, 언어별로 분리된 모델을 차례대로 가동해야 했다. 이러한 방식은 반복적인 추론 패스로 인해 응답 속도가 느려질 뿐만 아니라 각 매체 간의 연관 정보를 파악하는 과정에서 오류가 발생할 가능성이 높았다. 엔비디아는 네모트론3 나노 옴니를 통해 이러한 구조적 단점을 보완했다. 비전과 오디오를 네이티브로 처리하는 30B-A3B 아키텍처를 기반으로 설계해 인지 루프의 효율성을 극대화했다. 고티에 클루아 H 컴퍼니 CEO는 이번 모델을 두고 에이전트가 디지털 환경을 인지하고 상호작용을 하는 방식의 근본적인 변화라고 평가했다. 실제 OS월드 벤치마크 평가 결과 고해상도 이미지 처리 능력을 바탕으로 복잡한 그래픽 사용자 인터페이스(GUI) 내비게이션 성능이 비약적으로 상승한 것으로 나타났다. ■ 기업 맞춤형 문서 지능과 분석 역량 강화 문서 지능 분야에서도 괄목할 만한 성과를 냈다. 텍스트뿐만 아니라 차트, 표, 스크린 캡처 등이 뒤섞인 혼합 미디어 입력을 일관성 있게 해석한다. 이는 기업의 데이터 분석이나 컴플라이언스 워크플로에서 필수적인 요소로, 에이전트가 시각적 구조와 텍스트 내용을 분리하지 않고 하나의 맥락으로 파악하게 돕는다. 고객 서비스 및 연구 모니터링 분야에서는 오디오와 비디오의 맥락을 동시에 유지하는 기능이 핵심이다. 발화 내용과 화면에 표시된 자료를 별개의 요약본으로 생성하는 대신 하나의 추론 스트림으로 결합해 더 정교한 답변을 제공한다. 금융 에이전트의 경우 복잡한 스프레드시트와 음성 메모를 대조하며 보고서를 작성하는 등의 고차원적인 작업 수행이 가능하다. ■ 개방형 생태계 통한 배포 유연성 확보 엔비디아는 이번 모델의 가중치와 데이터셋, 학습 기법을 모두 공개해 조직의 투명성과 통제권을 보장했다. 개발자는 엔비디아 네모 도구를 활용해 특정 도메인에 맞춰 모델을 커스터마이징하거나 최적화할 수 있다. 개방형 모델 특성상 데이터 주권이나 규제 준수가 엄격한 환경에서도 독립적인 배포가 가능하다는 점이 강점이다. 네모트론3 나노 옴니는 고빈도 실행을 위한 네모트론3 슈퍼, 복잡한 계획 수립을 위한 네모트론3 울트라와 협력해 더 강력한 에이전트 워크플로를 구축할 수 있다. 소형 하드웨어인 엔비디아 젯슨부터 데이터 센터급인 DGX 스테이션에 이르기까지 폭넓은 환경을 지원한다. 현재 네모트론3 제품군은 지난 1년간 5000만회 이상의 다운로드를 기록하며 전 세계적인 관심을 받고 있다. 이번 옴니 모델 공개로 엔비디아는 멀티모달 및 에이전트 영역에서 더욱 견고한 생태계를 구축하게 됐다. 해당 모델은 허깅페이스와 오픈라우터, 엔비디아 님(NIM) 마이크로서비스를 통해 전 세계 개발자들에게 즉시 제공된다. — NVIDIA (@nvidia) April 28, 2026
Genesis Park 편집팀이 AI를 활용하여 작성한 분석입니다. 원문은 출처 링크를 통해 확인할 수 있습니다.
공유