기술/연구

“성우들 어쩌나..” 구글 AI, 감정 연기까지 완벽 마스터

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.03.01 14:42

기사 3줄 요약

1 구글 제미나이 2.5 TTS 공개, 감정 연기 대폭 강화
2 문맥 따라 속도 조절하고 여러 명 목소리도 완벽 구현
3 원더크래프트 도입 후 비용 20% 뚝, 구독률은 쑥쑥

이젠 진짜 사람인지 기계인지 구분이 안 갈 정도입니다. 단순히 글자를 읽어주는 수준을 넘어, 기쁨과 슬픔 같은 감정까지 자유자재로 연기하는 ‘괴물 AI’가 등장했기 때문입니다. 구글이 작정하고 내놓은 이번 기술은 성우들의 일자리를 위협할 만큼 정교하다는 평가를 받고 있습니다. 도대체 어느 정도로 똑똑해진 걸까요?

기계음은 잊어라, 이제는 ‘연기’하는 AI

구글은 최근 ‘제미나이 2.5 플래시 TTS’와 ‘제미나이 2.5 프로 TTS’를 전격 공개했습니다. TTS는 텍스트를 음성으로 바꿔주는 기술을 뜻합니다. 이번 업그레이드의 핵심은 바로 ‘표현력’입니다. 기존 AI 성우가 국어책 읽듯이 딱딱하게 말했다면, 이번 모델은 사용자의 지시에 따라 목소리 톤을 바꿉니다. ‘밝고 명랑하게’ 혹은 ‘차분하고 진지하게’라고 주문하면 AI가 그 느낌을 살려냅니다. 심지어 게임 캐릭터의 연기 톤이나 가상 비서의 친절한 말투까지 흉내 낼 수 있습니다. 구글이 공개한 바에 따르면, 개발자들은 이 기능을 통해 훨씬 더 자연스러운 음성 콘텐츠를 만들 수 있게 되었습니다.

눈치 챙겨! 상황 파악해서 말하는 ‘센스’

더 놀라운 건 AI가 문맥을 파악해서 말하는 속도를 조절한다는 점입니다. 사람이 대화할 때 농담을 던지면 잠시 뜸을 들이거나, 긴박한 상황에서는 말이 빨라지는 것과 똑같습니다. 새로운 제미나이 모델은 문장의 구조와 의미를 이해합니다. 그래서 복잡한 설명은 천천히 또박또박 읽고, 신나는 장면에서는 리듬감 있게 속도를 높입니다. 개발자가 “이 부분은 느리게 읽어줘”라고 구체적으로 지시하면 이를 찰떡같이 알아듣고 반영합니다. 덕분에 팟캐스트나 오디오북을 들을 때 기계가 읽어준다는 이질감이 거의 사라졌습니다.

성우 여러 명 필요 없다? 혼자서 다역 소화

여러 명의 목소리가 필요한 상황에서도 이 AI 하나면 충분합니다. 팟캐스트나 인터뷰처럼 여러 화자가 등장하는 콘텐츠를 만들 때, AI가 서로 다른 캐릭터의 목소리를 구분해서 연기합니다. 자연스럽게 화자가 전환되는 것은 물론이고, 24개 언어에서 각 화자 고유의 억양과 스타일을 그대로 유지합니다. 한국어를 하다가 영어를 해도 그 캐릭터의 목소리 톤이 유지된다는 뜻입니다. 실제로 이 기술을 미리 써본 기업들의 반응은 폭발적입니다. 오디오 제작 플랫폼 ‘원더크래프트’에 따르면, 제미나이 TTS 도입 후 구독률이 20%나 오르고 비용은 20% 줄어들었다고 합니다. 콘텐츠 기업 ‘툰수트라’ 역시 캐릭터의 억양과 연기 품질이 뛰어나다며 호평했습니다. 이제 누구나 방구석에서 영화 같은 고퀄리티 오디오를 만들 수 있는 시대가 열렸습니다.