기술/연구

“성우들 설 자리 잃나..” 구글 제미나이 목소리 연기 충격

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.26 07:29

기사 3줄 요약

1 구글, 감정 표현 완벽한 제미나이 2.5 TTS 공개
2 문맥 파악해 속도 조절하고 다중 화자 대화도 가능
3 성우 대체할 고품질 음성 기술로 콘텐츠 제작 혁신

혹시 방금 들은 오디오북의 목소리가 사람이 아닌 기계였다면 믿으시겠습니까? 구글이 사람보다 더 사람 같은 목소리를 내는 새로운 AI 기술을 세상에 내놓았습니다. 이제 AI가 단순히 글자를 읽는 수준을 넘어, 감정을 싣고 연기까지 하는 시대가 열린 것입니다. 구글 블로그에 따르면, 구글은 최근 ‘제미나이 2.5 플래시 TTS’와 ‘제미나이 2.5 프로 TTS’라는 새로운 모델을 공개했습니다. TTS는 ‘Text-to-Speech’의 약자로, 글자를 음성으로 변환해 주는 기술을 말합니다.

감정을 이해하고 속도까지 조절한다

이번에 공개된 제미나이 2.5 TTS의 가장 놀라운 점은 바로 ‘표현력’입니다. 단순히 기계적인 목소리로 책을 읽는 것이 아니라, 상황에 맞는 감정을 담아냅니다. 예를 들어 ‘밝고 즐거운 톤’이나 ‘침착하고 진지한 톤’을 요청하면 AI가 그 분위기에 맞춰 목소리를 바꿉니다. 심지어 롤플레잉 게임 속 캐릭터처럼 생생한 연기도 가능하다고 합니다. 더욱 신기한 기능은 바로 ‘문맥 기반 속도 조절’입니다. AI가 문장의 내용을 이해해서 말하는 속도를 스스로 결정하는 것입니다. 긴박한 액션 장면 묘사에서는 빠르게 말하고, 복잡한 개념을 설명할 때는 천천히 말합니다. 농담을 던질 때는 적절한 타이밍을 맞추는 등 실제 사람이 말하는 것과 거의 차이가 없습니다.

여러 명의 목소리도 한 번에 뚝딱

기존 AI 음성 기술은 한 번에 한 명의 목소리만 흉내 내는 경우가 많았습니다. 하지만 이번 제미나이 2.5 모델은 다릅니다. 여러 명의 화자가 등장하는 팟캐스트나 인터뷰 상황도 자연스럽게 소화합니다. A라는 캐릭터가 말하다가 B라는 캐릭터로 넘어갈 때, 억양과 톤이 자연스럽게 바뀌며 대화를 이어갑니다. 구글에 따르면 이 기술은 현재 24개 언어를 지원하며 각 언어 특유의 억양까지 살렸습니다. 덕분에 글로벌 콘텐츠를 만드는 창작자들에게는 엄청난 도구가 될 전망입니다. 실제로 이 기술을 먼저 사용해 본 기업들의 반응은 뜨겁습니다. 오디오 제작 플랫폼 ‘원더크래프트’는 제미나이 TTS 도입 후 비용을 20%나 절감했다고 밝혔습니다.

누구나 쉽게 만드는 AI 음성 콘텐츠

이제 전문 성우를 섭외하거나 비싼 녹음 장비를 빌리지 않아도 됩니다. 개발자들은 구글이 제공하는 API를 통해 이 기술을 자신의 앱이나 서비스에 바로 적용할 수 있습니다. 구글은 개발자들이 쉽게 따라 할 수 있도록 자세한 가이드 문서까지 공개했습니다. 누구나 아이디어만 있다면 고품질의 음성 콘텐츠를 만들 수 있는 길이 열린 셈입니다. 하지만 일각에서는 우려의 목소리도 나옵니다. 너무나 자연스러운 AI 목소리가 성우나 내레이터의 일자리를 위협할 수 있다는 걱정입니다. 기술의 발전이 가져올 편리함과 그로 인한 사회적 변화 사이에서 우리는 어떤 준비를 해야 할지 고민이 필요한 시점입니다. 앞으로 제미나이가 보여줄 목소리의 세상이 기대되면서도 두렵기도 합니다.