구글, ‘Gemini 3.1 Flash TTS’ 공개...표현력 강화된 AI 음성 기술 - 테크데일리

[AI] gemini | 2026년 4월 16일 06:13 | {'이벤트': '📰', '머신러닝/연구': '📰', '하드웨어/반도체': '📰', '취약점/보안': '📰', '기타 AI': '📰', 'AI 딜': '📰', 'AI 모델': '📰', 'AI 서비스': '📰', 'discount': '📰', 'news': '📰', 'review': '📰', 'tip': '📰'} review

#ai 모델 #flash #gemini #gemini 3.1 #구글 #flash-lite #gemini 2.5 #google

요약

오디오 태그 도입으로 음성 스타일·억양 세밀 제어 가능 70개 이상 언어 지원...글로벌 AI 음성 서비스 확대 기대 Vertex AI·Gemini API 통해 개발자·기업용 미리보기 제공 [테크데일리] 구글이 한층 자연스럽고 표현력이 강화된 차세대 텍스트 음성 변환(TTS) 모델 ‘Gemini 3.1 Flash TTS’를 공개했다. 구글은 4월 15일 해당 모델을 발표하고 Gemini API와 Google AI Studio를 통해 미리보기 형태로 제공한다고 밝혔다.

왜 중요한가

본문

오디오 태그 도입으로 음성 스타일·억양 세밀 제어 가능 70개 이상 언어 지원...글로벌 AI 음성 서비스 확대 기대 Vertex AI·Gemini API 통해 개발자·기업용 미리보기 제공 [테크데일리] 구글이 한층 자연스럽고 표현력이 강화된 차세대 텍스트 음성 변환(TTS) 모델 ‘Gemini 3.1 Flash TTS’를 공개했다. 이번 모델은 음성 품질 개선뿐 아니라 사용자가 음성 스타일과 감정 표현까지 세밀하게 제어할 수 있는 기능을 도입해 AI 음성 기술의 활용 범위를 크게 확장할 것으로 기대된다. 구글은 4월 15일 해당 모델을 발표하고 Gemini API와 Google AI Studio를 통해 미리보기 형태로 제공한다고 밝혔다. 기업용 환경에서는 Vertex AI를 통해 활용할 수 있으며, 일부 서비스에서는 워크스페이스 사용자도 이용 가능하다. Gemini 3.1 Flash TTS의 가장 큰 특징은 ‘오디오 태그’ 기능이다. 사용자는 텍스트 입력 과정에서 자연어 명령을 삽입해 음성의 속도, 억양, 감정, 전달 방식 등을 직관적으로 조정할 수 있다. 예를 들어 특정 문장에서 감정을 강조하거나, 캐릭터별로 서로 다른 음성 스타일을 부여하는 것도 가능하다. 이러한 기능은 기존 TTS가 단순히 텍스트를 읽는 수준을 넘어, 마치 ‘연출된 음성’을 만드는 단계로 발전했음을 의미한다. 구글은 이를 통해 개발자가 캐릭터 중심의 콘텐츠나 몰입형 오디오 경험을 보다 정교하게 구현할 수 있다고 설명했다. 음성 품질 역시 크게 향상됐다. Gemini 3.1 Flash TTS는 수천 건의 블라인드 테스트 기반 평가에서 높은 선호도를 기록했으며, Artificial Analysis TTS 리더보드에서 1211점의 Elo 점수를 획득했다. 이는 자연스러움과 표현력 측면에서 경쟁력을 입증한 결과로 평가된다. 또한 해당 모델은 70개 이상의 언어를 지원해 글로벌 서비스 확장에도 유리하다. 다양한 언어 환경에서도 일관된 음질과 세밀한 제어 기능을 제공함으로써, 지역별 맞춤형 음성 서비스 구현이 가능해진다. 초기 테스트에 참여한 개발자와 기업들은 특히 오디오 태그 기능에 대해 높은 평가를 내렸다. 단순 텍스트 입력만으로도 고품질 음성과 다양한 감정 표현을 구현할 수 있어 콘텐츠 제작 효율성과 완성도를 동시에 높일 수 있다는 분석이다. 구글은 이번 모델을 통해 AI 음성 기술이 단순한 보조 기능을 넘어, 콘텐츠 제작과 서비스 경험의 핵심 요소로 자리잡을 것으로 기대하고 있다. 앞으로 다양한 산업에서 맞춤형 음성 인터페이스와 몰입형 오디오 서비스가 빠르게 확산될 전망이다.

원문 보기 ([AI] gemini)

요약

왜 중요한가

본문

관련 저널 읽기