기술/연구

“성우들 밥줄 끊기나..” 구글 제미나이, 감정 연기까지 정복

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.28 02:28

기사 3줄 요약

1 구글, 감정 연기하는 제미나이 2.5 TTS 공개
2 문맥 파악해 속도 조절하고 다중 화자 대화 구현
3 성우 섭외 없이 고품질 콘텐츠 제작 가능해져

구글이 사람 목소리를 완벽하게 흉내 내는 인공지능 기술을 공개하며 전 세계를 놀라게 했습니다. 구글에 따르면 이번에 발표한 '제미나이 2.5 TTS' 모델은 기존 기술을 완전히 대체할 정도로 강력한 성능을 자랑합니다. 단순히 글자를 읽어주는 수준을 넘어서 성우처럼 감정을 연기하는 단계에 도달했습니다. 개발자들은 이 기술을 통해 목소리의 스타일과 톤을 자유자재로 조절할 수 있게 되었습니다.

기계음? 이제는 연기하는 AI

이번 업데이트의 핵심은 인공지능이 문장의 맥락을 파악하고 그에 맞는 감정을 표현한다는 점입니다. 사용자가 '밝고 명랑하게' 혹은 '진지하고 차분하게'라고 지시하면 AI가 이를 즉각 반영해 목소리를 만들어냅니다. 마치 실제 성우에게 연기 지도를 하듯이 구체적인 스타일을 주문할 수 있는 것입니다. 롤플레잉 게임의 캐릭터나 드라마의 내레이션까지 어색함 없이 소화할 수 있습니다. 인공지능이 문장 구조를 이해해 말하기 속도를 스스로 조절하는 기능도 추가되었습니다. 농담을 할 때는 타이밍을 맞추고 긴박한 액션 장면에서는 말이 빨라지는 등 사람과 똑같은 호흡을 보여줍니다.

여러 명의 목소리도 문제없다

하나의 콘텐츠 안에서 여러 명의 화자가 등장하는 경우에도 자연스러운 대화가 가능해졌습니다. 팟캐스트나 인터뷰 형식의 콘텐츠를 만들 때 각 캐릭터의 고유한 목소리 톤을 유지하면서 매끄럽게 대화를 이어갑니다. 글로벌 시장을 겨냥해 24개 언어를 지원하며 각 언어 특유의 억양과 스타일까지 살렸습니다. 이제 개발자들은 복잡한 장비나 성우 섭외 없이도 고품질의 다국어 오디오 콘텐츠를 제작할 수 있습니다. 실제로 이 기술을 도입한 기업들은 놀라운 성과를 보고하고 있습니다. 오디오 플랫폼 원더크래프트는 제미나이 TTS 도입 후 제작 비용을 20%나 절감했다고 밝혔습니다.

누구나 만드는 AI 음성 콘텐츠

구글은 이번 모델을 '프로' 버전과 '플래시' 버전 두 가지로 나누어 출시했습니다. 고품질의 결과물이 필요한 작업에는 프로 버전을, 빠른 처리 속도가 중요한 서비스에는 플래시 버전을 사용할 수 있습니다. 개발자들은 구글의 AI 스튜디오를 통해 이 기능을 즉시 활용할 수 있습니다. 복잡한 코딩 없이도 누구나 쉽게 자신만의 AI 목소리 서비스를 만들 수 있는 시대가 열린 것입니다. 음성 합성 기술의 발전이 콘텐츠 제작 시장에 어떤 변화를 가져올지 귀추가 주목됩니다. 인간의 영역이라 여겨졌던 감정 연기마저 AI가 정복하면서 관련 업계의 긴장감은 더욱 높아지고 있습니다.