기술/연구

"성우들 설 자리 잃나" 구글 제미나이, 감정까지 완벽 복제

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.03.07 08:32

기사 3줄 요약

1 구글 제미나이 TTS 대규모 업데이트
2 감정과 속도 자유자재로 조절
3 다중 화자 지원으로 활용도 급증

이제는 진짜 사람 목소리와 인공지능 목소리를 구분하기 힘든 세상이 왔습니다. 구글이 자사의 음성 합성 기술인 ‘제미나이 2.5 TTS’를 공개하며 기술의 정점을 찍었기 때문입니다. 이번 업데이트는 단순히 글자를 읽어주는 수준을 넘어섰습니다. 기계음 특유의 어색함을 지우고 사람처럼 감정을 담아 말하는 능력이 생겼습니다. 전문 성우가 녹음한 것처럼 자연스러운 목소리를 누구나 쉽게 만들 수 있게 된 것입니다. 음성 콘텐츠 시장에 거대한 지각변동이 예고되고 있습니다.

사람처럼 웃고 우는 AI 목소리

제미나이 2.5 TTS의 가장 놀라운 점은 바로 섬세한 감정 표현력입니다. 사용자가 ‘밝게 말해줘’ 혹은 ‘진지하게 말해줘’라고 요청하면 AI가 그 느낌을 완벽하게 살립니다. 마치 연기자가 대본을 보고 연기하듯 톤과 억양을 자유자재로 조절합니다. 롤플레잉 게임 속 캐릭터나 가상 비서의 목소리가 훨씬 생동감 있게 변할 것입니다. 상황에 맞는 적절한 목소리 톤은 청자의 몰입감을 극대화합니다. 딱딱한 기계음이 아닌 따뜻한 감성이 담긴 목소리를 들을 수 있습니다.

눈치까지 챙긴 똑똑한 속도 조절

이번 모델은 문장의 맥락을 이해하고 말하는 속도를 스스로 조절하는 기능도 갖췄습니다. 농담을 할 때는 타이밍을 맞추고 복잡한 설명은 천천히 말해 이해를 돕습니다. 액션 영화의 한 장면처럼 긴박한 상황에서는 빠르게 말하며 긴장감을 조성하기도 합니다. 개발자가 구체적으로 ‘빠르게’ 혹은 ‘느리게’라고 지시하지 않아도 알아서 척척 해냅니다. 대화의 흐름이 끊기지 않고 물 흐르듯 자연스럽게 이어집니다. 듣는 사람이 편안함을 느낄 수 있도록 배려하는 AI 기술의 진화입니다.

여러 명의 목소리도 문제없다

팟캐스트나 오디오 드라마처럼 여러 사람이 등장하는 콘텐츠 제작도 쉬워졌습니다. 제미나이 TTS는 각기 다른 캐릭터의 목소리 특징을 유지하며 자연스럽게 대화를 이어갑니다. 다양한 언어를 지원하면서도 각 화자 고유의 말투와 억양을 잃지 않습니다. 덕분에 글로벌 콘텐츠를 만드는 창작자들에게 큰 환영을 받고 있습니다. 실제로 인공지능 오디오 플랫폼 원더크래프트에 따르면 제미나이 도입 후 비용은 줄고 구독자는 늘었다고 합니다. 콘텐츠 제작의 효율성과 품질 두 마리 토끼를 모두 잡은 셈입니다.