기술/연구

“성우들 설자리 잃나” 구글 제미나이 목소리, 소름 돋는 진화

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.23 20:04

기사 3줄 요약

1 구글, 감정 담은 AI 목소리 제미나이 2.5 TTS 공개
2 속도와 억양 자유자재 조절로 실제 성우 위협하는 성능
3 팟캐스트와 오디오북 등 콘텐츠 제작 시장 대격변 예고

이제는 AI가 텍스트를 읽어주는 것을 넘어 감정 연기까지 하는 세상이 왔습니다. 구글이 사람처럼 말하고 감정까지 표현하는 새로운 인공지능 음성 모델을 공개해 화제입니다. 단순히 글자를 소리로 바꾸는 수준을 넘어섰다는 평가가 나옵니다. 성우나 내레이터의 영역까지 넘보는 기술의 발전이 어디까지 이어질지 주목됩니다.

감정까지 연기하는 AI 성우의 등장

구글은 최근 자사의 인공지능 음성 합성 기술을 대폭 업그레이드한 ‘제미나이 2.5 TTS’ 모델을 선보였습니다. 이번 모델의 가장 큰 특징은 바로 ‘감정 표현력’입니다. 사용자가 원하는 분위기와 톤을 입력하면 AI가 이를 찰떡같이 알아듣고 목소리로 구현합니다. 예를 들어 ‘밝고 신나는 목소리로’ 혹은 ‘침착하고 진지하게’라고 주문하면 그에 맞춰 연기를 펼칩니다. 심지어 게임 속 캐릭터의 성격에 맞는 목소리나 비서처럼 차분한 말투도 자유자재로 만들어냅니다. 기계적인 느낌을 지우고 진짜 사람과 대화하는 듯한 착각을 불러일으킵니다. 구글 측의 설명에 따르면 이번 업데이트는 기존 모델을 완전히 대체할 정도로 강력하다고 합니다. 개발자들은 이제 더 정교하게 AI의 목소리 스타일을 제어할 수 있게 되었습니다. 이는 롤플레잉 게임이나 가상 비서 서비스의 품질을 획기적으로 높일 것으로 보입니다.

눈치 빠른 AI가 속도 조절까지

새로운 제미나이 모델은 단순히 목소리만 좋은 것이 아닙니다. 문장의 맥락을 이해하고 말하는 속도를 스스로 조절하는 ‘지능형 페이싱’ 기능도 갖췄습니다. 농담을 할 때는 타이밍을 맞추고, 복잡한 설명은 천천히, 긴박한 액션 장면은 빠르게 읽어줍니다. 개발자가 구체적으로 “느리게 읽어줘” 또는 “더 빠르게 말해”라고 지시하면 이를 정확하게 반영합니다. 덕분에 오디오북이나 마케팅 영상, 교육 자료 등 다양한 분야에서 자연스러운 결과물을 얻을 수 있습니다. 어색한 억양이나 끊어 읽기 문제도 크게 개선되었습니다. 여러 사람이 대화하는 상황도 문제없습니다. 팟캐스트나 인터뷰처럼 여러 화자가 등장하는 콘텐츠에서도 AI는 각 캐릭터의 목소리를 구분해 일관되게 유지합니다. 한 사람이 여러 목소리를 흉내 내는 것이 아니라 진짜 여러 명이 대화하는 것처럼 들리게 만듭니다.

콘텐츠 제작 판도 뒤집나

이번 기술은 콘텐츠 제작 시장에 큰 변화를 가져올 것으로 예상됩니다. 실제로 인공지능 오디오 플랫폼 기업들은 제미나이 TTS를 도입한 후 비용을 절감하고 구독률을 높이는 성과를 거뒀다고 합니다. 웹툰 캐릭터의 목소리를 입히거나 뉴스 브리핑을 만드는 과정이 훨씬 쉬워졌습니다. 구글은 이번 모델을 24개 언어로 제공하며 다국어 처리 능력도 강화했습니다. 전 세계 어디서든 고품질의 AI 음성을 활용할 수 있게 된 셈입니다. 앞으로 성우 없이도 영화 더빙이나 애니메이션 제작이 가능해질지 모른다는 전망도 나옵니다. 기술의 발전은 놀랍지만 한편으로는 인간의 고유 영역이라 여겨졌던 목소리 연기마저 AI가 대체할 수 있다는 우려도 존재합니다. 하지만 창작자들에게는 더 적은 비용으로 고품질 콘텐츠를 만들 수 있는 강력한 도구가 생긴 것만은 분명해 보입니다.