기술/연구

“성우 대체 현실로?” 구글 제미나이 TTS, 감정 연기 미쳤다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.23 11:13

기사 3줄 요약

1 구글 제미나이 2.5 TTS 공개
2 감정 연기와 속도 완급 조절 탁월
3 성우 대체하는 고품질 음성 생성

성우나 배우가 녹음한 줄 알았는데 알고 보니 인공지능(AI)이었습니다. 구글이 사람처럼 감정을 섞어 말하고 상황에 맞춰 속도까지 조절하는 새로운 AI 목소리 기술을 내놨습니다. 기존 기계음의 한계를 완전히 뛰어넘었다는 평가가 나옵니다. 구글은 최근 ‘제미나이 2.5 플래시 TTS’와 ‘제미나이 2.5 프로 TTS’ 모델을 공개했습니다. TTS는 텍스트를 음성으로 변환해 주는 기술을 말합니다. 이번 업데이트는 단순히 글자를 읽는 수준이 아닙니다. 진짜 사람처럼 연기를 합니다.

기계음은 옛말, 이제는 ‘연기’를 한다

이번 모델의 가장 큰 특징은 풍부한 감정 표현력입니다. 사용자가 ‘밝고 명랑하게’ 혹은 ‘진지하고 침착하게’라고 주문하면 AI가 그 톤을 완벽하게 재현합니다. 단순히 목소리 톤만 바꾸는 게 아닙니다. 롤플레잉 게임 속 캐릭터의 성격이나 상황에 맞는 연기까지 가능합니다. 구글에 따르면 이번 모델은 내레이션이나 가상 비서의 목소리를 실제 성우 수준으로 끌어올렸습니다. 덕분에 콘텐츠 제작자들은 비싼 비용을 들여 성우를 섭외하지 않아도 고품질의 음성 콘텐츠를 만들 수 있게 되었습니다.

눈치 빠른 AI, 상황 맞춰 말한다

말하는 속도도 기가 막히게 조절합니다. ‘지능형 페이싱’ 기능 덕분입니다. AI가 문장의 구조와 맥락을 스스로 이해합니다. 예를 들어 농담을 할 때는 타이밍을 맞춰 능청스럽게 말합니다. 복잡한 설명을 할 때는 천천히 또박또박 읽어줍니다. 반대로 긴박한 액션 장면 묘사에서는 속도를 높여 긴장감을 줍니다. 개발자가 구체적으로 “느리게” 혹은 “더 빠르게”라고 지시하면 이를 정확하게 반영합니다. 이제 AI가 문맥을 파악해 호흡까지 조절하는 시대가 열린 것입니다.

비용은 줄이고 효율은 높였다

여러 명이 대화하는 상황도 문제없습니다. 팟캐스트나 인터뷰처럼 화자가 여러 명일 때도 각 캐릭터의 목소리 특징을 유지하며 자연스럽게 대화를 이어갑니다. 실제로 이 기술을 도입한 기업들은 큰 효과를 보고 있습니다. AI 오디오 플랫폼 원더크래프트에 따르면 제미나이 TTS 도입 후 제작 비용이 20%나 절감되었습니다. 동시에 사용자 만족도는 높아져 구독률이 20% 증가했습니다. 이제 누구나 아이디어만 있으면 헐리웃 영화 같은 오디오 드라마나 고품질 교육 자료를 뚝딱 만들 수 있게 되었습니다. AI 목소리 기술의 진화가 콘텐츠 제작 시장의 판도를 뒤흔들고 있습니다.