기술/연구

“성우들 진짜 울상 짓나?” 구글 제미나이, 감정 연기까지 정복

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.03.05 16:21

기사 3줄 요약

1 구글, 감정 담은 '제미나이 2.5 TTS' 공개
2 농담과 상황 파악해 목소리 속도 조절 가능
3 개발자들 환호, 음성 제작 비용 20% 절감

AI 목소리가 로봇 같다는 편견은 이제 버려야 할 것 같습니다. 구글이 인간의 감정까지 완벽하게 연기하는 새로운 음성 기술을 공개했습니다. 단순히 글자를 읽는 수준을 넘어 상황에 따라 슬퍼하거나 기뻐하는 목소리까지 낼 수 있다고 합니다. 구글은 최근 자사의 AI 기술을 한 단계 업그레이드한 ‘제미나이 2.5 플래시 TTS’와 ‘제미나이 2.5 프로 TTS’를 발표했습니다. 이번 모델은 기존 버전을 완전히 대체하며 개발자들이 목소리의 스타일과 톤을 훨씬 정교하게 다룰 수 있게 되었습니다.

기계음은 이제 옛말, 연기하는 AI가 왔다

이번에 공개된 제미나이 TTS의 가장 큰 특징은 놀라울 정도로 풍부해진 감정 표현력입니다. 사용자가 ‘밝고 희망찬 목소리로’ 혹은 ‘차분하고 진지하게’라고 주문하면 AI가 그 분위기를 그대로 재현합니다. 구글에 따르면 이는 마치 실제 성우가 대본을 받고 연기하는 것과 유사한 수준입니다. 단순한 안내 방송을 넘어 롤플레잉 게임 속 캐릭터나 오디오북의 내레이션까지 소화할 수 있게 되었습니다. 심지어 캐릭터의 성격에 맞춰 연기 톤을 조절하는 것도 가능해졌습니다. 개발자들은 데모 앱을 통해 이러한 다양한 스타일을 직접 실험해 볼 수 있습니다.

농담 타이밍도 안다? 눈치 챙긴 AI

이번 모델에는 ‘문맥 기반 속도 조절’이라는 똑똑한 기능이 탑재되었습니다. 문장의 구조와 의미를 파악해 말하는 속도를 스스로 조절하는 기술입니다. 예를 들어 농담을 할 때는 적절한 타이밍을 살리고 복잡한 설명을 할 때는 천천히 말합니다. 반대로 긴박한 액션 장면을 묘사할 때는 빠르게 읽어 내려가며 긴장감을 조성하기도 합니다. 개발자가 구체적으로 “더 느리게” 혹은 “중간 속도로”라고 지시하면 이를 정확하게 반영합니다. 덕분에 듣는 사람은 AI가 아닌 실제 사람과 대화하는 듯한 자연스러운 리듬을 느낄 수 있습니다. 여러 명이 대화하는 상황도 문제없습니다. 팟캐스트나 인터뷰처럼 여러 화자가 등장하는 콘텐츠를 만들 때 AI는 각 캐릭터의 목소리를 일관되게 유지합니다. 한 사람이 말하다가 다른 사람으로 넘어가는 순간도 매끄럽게 처리해 냅니다.

실제 기업들은 이미 환호 중

실제 산업 현장에서는 벌써 긍정적인 반응이 쏟아지고 있습니다. 오디오 제작 플랫폼인 원더크래프트는 제미나이 TTS를 도입한 후 놀라운 성과를 거뒀다고 밝혔습니다. 이들에 따르면 구독률은 20% 늘어난 반면 비용은 20%나 절감되었습니다. 인도의 콘텐츠 기업인 툰수트라 역시 웹툰 캐릭터의 목소리를 만드는 데 이 기술을 활용하고 있습니다. 캐릭터의 상황에 맞는 억양과 악센트를 일관되게 표현해 준다는 점에서 높은 평가를 받았습니다. 이제 AI 음성 기술은 단순한 보조 수단을 넘어 콘텐츠 제작의 핵심 도구로 자리 잡고 있습니다. 구글은 이번 모델을 누구나 쉽게 써볼 수 있도록 API와 관련 가이드를 모두 공개했습니다. 앞으로 AI가 만든 목소리가 우리 일상 속 콘텐츠를 얼마나 더 풍성하게 채울지 기대가 모아지고 있습니다.