기술/연구

"성우들 어쩌나.." 구글 제미나이, 감정 연기하는 AI 목소리 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.25 19:24

기사 3줄 요약

1 구글, 감정 표현 가능한 제미나이 2.5 TTS 공개
2 문맥 파악해 속도 조절하고 다중 화자 연기 수행
3 성우 대체할 고품질 음성으로 콘텐츠 제작 혁신

이제 인공지능과 사람 목소리를 구분하는 일이 사실상 불가능해졌습니다. 구글이 사람처럼 감정을 담아 말하는 혁신적인 AI 기술을 세상에 내놨습니다. 구글은 10일 제미나이 2.5 플래시 TTS와 프로 TTS 모델을 전격 공개했습니다. 이번 모델은 올해 5월에 나온 기존 기술을 완전히 대체하는 수준입니다. 개발자들은 목소리의 스타일과 톤, 그리고 억양까지 아주 정교하게 조절합니다. 제미나이는 단순한 낭독을 넘어 상황에 몰입해 연기까지 수행합니다.

진짜 사람 같은 목소리 연기 가능해

이번 제미나이 TTS는 사용자의 구체적인 지시에 따라 목소리 톤을 바꿉니다. 밝고 명랑한 느낌이나 침착하고 진지한 분위기를 자유자재로 연출합니다. AI가 텍스트 문장 속에 담긴 미묘한 감정선을 읽고 그에 맞는 연기를 펼칩니다. 가상 비서나 게임 캐릭터의 목소리가 이전보다 훨씬 자연스러워집니다. 기계적인 억양 대신 상황과 캐릭터 성격에 딱 맞는 말투를 구사합니다. 구글에 따르면 롤플레잉 게임 속 캐릭터의 연기 완성도가 크게 높아졌다고 합니다.

눈치 빠르게 말하는 속도도 조절해

새로운 모델은 문장의 구조와 맥락을 파악해 말하는 속도를 스스로 조절합니다. 농담을 던질 때는 적절한 타이밍을 맞추고 복잡한 설명은 천천히 말합니다. 긴박한 액션 장면을 묘사할 때는 속도감 있게 읽어 나가는 능력을 보여줍니다. 개발자가 직접 구체적으로 속도를 지정하면 이를 더욱 정확하게 반영합니다. 느리게 읽기나 빠르게 읽기와 같은 지시를 오차 없이 완벽히 수행합니다. 이전 모델보다 훨씬 더 자연스럽고 리듬감 있는 구어체 대화를 만들어냅니다.

여러 명의 목소리도 한 번에 소화해

팟캐스트나 오디오북처럼 여러 화자가 등장하는 콘텐츠 제작이 쉬워집니다. 제미나이 모델은 서로 다른 캐릭터의 목소리를 명확하게 구분하여 연기합니다. 마치 성우 여러 명이 대화하듯 자연스러운 화자 전환 능력을 보여줍니다. 현재 지원하는 24개 언어에서 각 화자의 고유한 억양을 유지합니다. 다국어 처리 능력이 향상되어 글로벌 콘텐츠 제작에도 큰 도움이 됩니다. 실제 산업 현장에서도 이미 놀라운 성과들이 나타나고 있습니다.

실제 기업들이 증명한 놀라운 효율성

해당 기술을 도입한 기업들은 비용 절감과 효율성 증대를 경험하고 있습니다. 인공지능 오디오 제작 플랫폼 원더크래프트에 따르면 구독률이 20퍼센트 늘었습니다. 동시에 제작 비용은 20퍼센트나 줄어드는 등 확실한 효과를 입증했습니다. 인도의 콘텐츠 기업 툰수트라 역시 웹툰 캐릭터 음성에 이 기술을 사용합니다. 캐릭터 맥락에 맞는 억양과 톤 표현이 매우 뛰어나다는 평가를 내렸습니다. 이제 누구나 고품질의 오디오 콘텐츠를 저렴하게 만드는 시대가 열렸습니다. 구글은 개발자들이 쉽게 접근하도록 다양한 가이드와 문서를 함께 제공합니다. 음성 기술의 급격한 발전이 콘텐츠 시장 판도를 어떻게 바꿀지 주목됩니다. 앞으로 AI 목소리는 우리 일상 곳곳에 더 깊숙이 스며들 것입니다.