기술/연구

“성우들 설 자리 없다?” 구글 제미나이, 소름 돋는 연기력

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.12 12:37

기사 3줄 요약

1 구글 제미나이 2.5 TTS 공개, 성우급 연기력 화제
2 감정부터 호흡까지 조절, 사람보다 더 자연스러운 목소리
3 기업들 비용 20% 절감, AI 성우 시대 본격 개막

“이제 목소리만 듣고는 사람인지 기계인지 구별할 수 없는 시대가 왔습니다.” 구글이 최근 공개한 새로운 AI 음성 기술이 전 세계 개발자들과 콘텐츠 제작자들에게 큰 충격을 주고 있습니다. 기존의 딱딱한 기계음을 완전히 벗어던지고 인간의 미세한 감정선까지 완벽하게 표현하는 기술이 등장했기 때문입니다. 단순히 글자를 읽어주는 수준을 넘어섰습니다. 상황에 따라 숨을 고르기도 하고 웃음기를 섞거나 진지하게 목소리를 깔기도 합니다. 심지어 여러 사람이 대화하는 상황도 자연스럽게 연출해냅니다.

기계가 ‘연기’를 하는 세상이 왔다

구글에 따르면 이번에 공개된 ‘제미나이 2.5 TTS’ 모델은 감정 표현력이 획기적으로 향상되었다고 합니다. 사용자가 ‘밝고 낙관적인 톤’이나 ‘침착하고 진지한 톤’을 요구하면 AI가 그 분위기를 즉각적으로 반영합니다. 마치 실제 성우에게 디렉팅을 주는 것과 비슷합니다. 롤플레잉 게임 속 캐릭터의 목소리나 오디오북의 내레이션도 이제 AI가 사람처럼 소화할 수 있게 된 것입니다. 특히 놀라운 점은 문맥을 이해하고 말하는 속도를 스스로 조절한다는 것입니다. 농담을 던질 때는 타이밍을 맞추고, 복잡한 설명을 할 때는 천천히 또박또박 말하며 청자의 이해를 돕습니다.

여러 명의 목소리도 혼자서 ‘북 치고 장구 치고’

이번 업데이트의 또 다른 핵심은 다중 화자 기능입니다. 팟캐스트나 인터뷰 형식의 콘텐츠를 만들 때, 서로 다른 목소리를 가진 캐릭터들이 자연스럽게 대화를 주고받는 것을 구현할 수 있습니다. 기존에는 화자가 바뀔 때마다 목소리 톤이 튀거나 어색해지는 경우가 많았습니다. 하지만 이번 모델은 각 캐릭터의 고유한 억양과 스타일을 유지하면서도 물 흐르듯 자연스러운 대화 전환이 가능합니다. 구글 발표에 따르면 이 기술은 현재 24개 언어에서 각 언어 특유의 억양과 뉘앙스까지 살려낸다고 합니다. 글로벌 콘텐츠를 제작하는 기업들에게는 엄청난 희소식입니다.

비용은 줄이고 효율은 높이고

실제로 이 기술을 도입한 기업들은 놀라운 성과를 거두고 있습니다. 오디오 제작 플랫폼 ‘원더크래프트’의 발표에 따르면 제미나이 TTS 도입 이후 비용이 20%나 절감되었습니다. 뿐만 아니라 사용자들의 구독률은 20% 증가했고 서비스 이탈률은 20% 감소했습니다. 품질 높은 AI 음성이 실제 비즈니스 성과로 직결된다는 사실이 증명된 셈입니다. 인도의 콘텐츠 기업 ‘툰수트라’ 역시 웹툰 캐릭터 음성 연출에 이 기술을 활용해 큰 호평을 받고 있습니다. 캐릭터의 성격에 맞는 톤과 악센트를 AI가 일관되게 유지해주기 때문입니다.

이제 누구나 ‘오디오 감독’이 될 수 있다

앞으로는 거창한 녹음 장비나 전문 성우 섭외 없이도 누구나 고품질의 오디오 콘텐츠를 만들 수 있게 될 전망입니다. 구글은 개발자들이 이 기술을 쉽게 활용할 수 있도록 관련 가이드와 도구를 모두 공개했습니다. 제작 환경의 진입 장벽이 낮아지면서 1인 크리에이터들의 창작 활동도 더욱 활발해질 것으로 보입니다. 나만의 오디오북을 만들거나 게임 캐릭터에게 생명을 불어넣는 일이 클릭 몇 번으로 가능해졌습니다. 기술의 발전 속도가 무서울 정도로 빠릅니다. 지금 이 변화를 받아들이지 못하면, 3년 후에는 콘텐츠 시장에서 완전히 도태될지도 모릅니다.