xAI, 에이전트 환경 특화 음성 모델 공개..."사전 추론으로 오류 줄여" - AI타임스
[AI] xAI
|
|
🖥️ 하드웨어
#ai
#ai타임스
#xai
#에이전트
#음성 모델
#ai 인프라
#nvidia
#반도체
#생성형 ai
#전문가 인증
#하드웨어/반도체
요약
NVIDIA가 AI 시스템의 인프라 구축과 운영 능력을 검증하는 새로운 전문가 인증 프로그램을 출시했습니다. 이 인증은 대규모 AI 모델을 효율적으로 관리하고 배포하는 데 필요한 실무 기술을 다루며, 기술 인력의 역량을 공식적으로 입증하는 기회를 제공합니다. 관심 있는 개발자와 엔지니어는 해당 인증을 통해 AI 분야의 전문성을 강화하고 경쟁력을 높일 수 있습니다.
왜 중요한가
개발자 관점
검토중입니다
연구자 관점
검토중입니다
비즈니스 관점
검토중입니다
본문
xAI와 중국 샤오미가 각각 에이전트 환경에 특화된 차세대 음성 AI 모델을 공개했다. xAI는 23일(현지시간) 새로운 음성 모델 ‘그록 보이스 싱크 패스트 1.0(Grok Voice Think Fast 1.0)’을 공개하며 API 형태로 제공을 시작했다. 이 모델은 고객 지원, 전화 영업, 예약 관리 등 복잡하고 다단계 업무를 음성 기반으로 처리하는 데 최적화된 것이 특징이다. 실시간 추론 능력을 유지하면서도 응답 지연을 최소화해 자연스러운 대화 경험을 구현하는 데 초점을 맞췄다. 저지연 통신 환경을 위해 스타링크(Starlink)와 협력해 개발됐으며, 실제 전화 환경, 배경 소음, 강한 억양, 잦은 끊김 등 현실적인 조건에서도 높은 성능을 유지하도록 설계됐다. 25개 이상의 언어를 지원하며, 이메일·주소·전화번호 등 구조화된 정보를 음성으로 정확히 수집하는 기능도 갖췄다. 특히 xAI는 이 모델이 단순 응답 생성이 아닌 ‘사전 추론’을 통해 오류 가능성을 줄인다는 점을 강조했다. 기존 음성 AI가 그럴듯하지만 틀린 답변을 내놓는 문제를 개선하기 위해, 응답 전에 내부적으로 판단 과정을 거치는 구조를 적용했다는 설명이다. 그 결과, 소음과 억양, 대화 중단, 차례 바꾸기 등 현실적인 환경에서 양방향 음성 에이전트를 평가하는 '타우-보이스 벤치(τ -voice Bench)'에서 1위를 차지했다. 실제 적용 사례도 공개됐다. 스타링크 고객센터에 이 모델을 적용한 음성 에이전트는 전화 상담의 약 70%를 인간 개입 없이 해결하고, 판매 문의의 20%를 실제 구매로 전환하는 성과를 기록했다는 내용이다. 단일 에이전트가 수십개 도구를 활용해 복잡한 고객 지원 및 영업 업무를 수행할 수 있다는 점도 주목된다. 샤오미도 24일 '미모-V2.5' 시리즈를 출시하며 음성인식 모델 ‘미모-V2.5-ASR(MiMo-V2.5-ASR)’을 오픈소스로 공개했다. 이 모델은 오디오 태그 제어 기능을 통해 텍스트 내 특정 지점에서 감정, 상태, 스타일을 정밀하게 제어할 수 있는 것이 특징으로 꼽혔다. 또 일반 텍스트만으로도 리듬이나 쉼표, 감정 변화, 인물의 특징을 자연스럽게 파악할 수 있다고 전했다. 영어는 물론 다양한 중국어 방언을 지원하며, 몇개의 샘플만으로 목표 음성을 높은 정확도로 복제한다. 대규모 중간 학습과 고품질 지도 학습, 강화 학습 기법을 결합해 성능을 개선했으며, 각종 벤치마크에서 최상위 수준의 결과를 기록했다. 특히 회의와 같은 다자간 대화, 노래 가사 인식, 전문 용어 및 고유명사 처리 등 기존 모델이 어려움을 겪던 영역에서도 강점을 보인다. 미모-V2.5-ASR는 현재 허깅페이스와 깃허브에서 모델과 코드를 다운로드할 수 있다. 박찬 기자 [email protected]