기술/연구

“성우들 설 자리 잃나?” 구글 제미나이, 감정 연기까지 정복

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.25 13:04

기사 3줄 요약

1 구글 제미나이 2.5 TTS 모델 공개
2 감정 표현과 속도 조절 기능 대폭 강화
3 성우 위협하는 고품질 음성 기술 등장

“이 목소리, 진짜 사람 아니야?” 최근 구글이 공개한 새로운 AI 기술을 접한 사람들이 보인 반응입니다. 단순히 글자를 읽어주는 수준을 넘어, 이제는 AI가 슬픔과 기쁨 같은 복잡한 감정까지 완벽하게 연기하는 시대가 왔습니다. 구글은 지난 10일, 기존 모델을 완전히 갈아엎은 ‘제미나이 2.5 TTS(Text-to-Speech)’ 모델을 전격 공개했습니다. 이번 업데이트는 그야말로 ‘역대급’이라는 평가를 받고 있습니다. 목소리의 톤, 속도, 억양을 마치 영화감독이 배우에게 지시하듯 세밀하게 조절할 수 있게 되었기 때문입니다.

이제 AI가 ‘메소드 연기’를 시작했다

과거의 AI 목소리는 어딘가 딱딱하고 어색한 느낌을 지울 수 없었습니다. 하지만 이번에 공개된 제미나이 2.5 TTS는 차원이 다릅니다. 사용자가 “밝고 낙관적인 톤으로 읽어줘”라거나 “침착하고 진지하게 말해줘”라고 입력하면, AI가 그 지시를 찰떡같이 알아듣고 분위기에 맞는 목소리를 만들어냅니다. 구글에 따르면, 이번 모델은 롤플레잉 게임 속 캐릭터의 연기나 가상 비서의 자연스러운 대화까지 소화할 수 있을 정도로 표현력이 좋아졌습니다. 단순히 글자를 소리로 바꾸는 것이 아니라, 문장의 맥락을 이해하고 그에 맞는 ‘연기’를 수행하는 셈입니다. 개발자들은 이제 전문 성우를 섭외하지 않아도 고품질의 내레이션을 만들 수 있게 되었습니다.

눈치까지 챙긴 똑똑한 목소리

이번 업데이트의 또 다른 핵심은 바로 ‘지능형 페이싱(Pacing)’ 기능입니다. AI가 문장의 구조와 의미를 파악해서 말하는 속도를 스스로 조절한다는 뜻입니다. 예를 들어 농담을 할 때는 타이밍을 맞춰 잠깐 쉬기도 하고, 긴박한 액션 장면 묘사는 빠르게 읽어 내려갑니다. 반대로 복잡한 개념을 설명할 때는 천천히 또박또박 말하며 청자의 이해를 돕습니다. 인공지능신문의 보도에 따르면, 실제 제작 환경에서 이 기술을 도입한 기업들의 성과는 놀라웠습니다. 오디오 제작 플랫폼 ‘원더크래프트’는 제미나이 TTS를 도입한 후 비용을 20%나 절감했고, 사용자 구독률은 20% 증가했습니다. 여러 명의 화자가 등장하는 팟캐스트나 오디오북도 이제 AI 혼자서 뚝딱 만들어낼 수 있는 세상이 된 것입니다.

성우 대신 AI 쓰는 시대 올까

이번 기술 혁신은 콘텐츠 제작자들에게는 축복이지만, 한편으로는 성우 업계에 큰 파장을 예고하고 있습니다. 인도 기업 ‘툰수트라’는 이미 웹툰 캐릭터 음성 연출에 이 기술을 적극 활용하고 있습니다. 캐릭터마다 고유한 억양과 스타일을 유지하면서도 자연스러운 대화가 가능하기 때문입니다. 구글은 이번 모델을 통해 개발자들이 더 쉽고 저렴하게 고품질 음성 콘텐츠를 만들 수 있도록 지원하겠다고 밝혔습니다. 기술의 발전이 인간의 고유 영역이라 여겨졌던 ‘감성 표현’까지 넘보게 되면서, 앞으로 콘텐츠 시장이 어떻게 재편될지 귀추가 주목됩니다.