환영해🦉
기술/연구

“성우들 설 자리 없다..” 구글 제미나이 목소리 충격 진화

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.05 11:23
“성우들 설 자리 없다..” 구글 제미나이 목소리 충격 진화

기사 3줄 요약

  • 1 구글 제미나이 음성 모델 공개
  • 2 감정과 속도 자유자재 조절
  • 3 다중 화자 대화 자연스럽게 구현
“이제 진짜 사람 목소리와 구별하기 힘든 세상이 왔습니다.” 구글이 자사의 인공지능 음성 기술을 획기적으로 발전시킨 새로운 모델을 공개해 전 세계의 이목이 쏠리고 있습니다. 이번에 선보인 ‘제미나이 2.5 플래시 TTS’와 ‘제미나이 2.5 프로 TTS’는 기존의 한계를 뛰어넘는 성능을 보여줍니다. 단순히 글자를 읽어주는 수준을 넘어 이제는 감정과 연기까지 가능한 수준에 도달했습니다. 개발자들은 이 도구를 통해 목소리의 스타일과 속도, 억양까지 자유자재로 다룰 수 있게 되었습니다.

기계음은 옛말, 감정 연기하는 AI

이번 업데이트의 핵심은 바로 AI가 상황에 맞는 ‘표현력’을 갖추게 되었다는 점입니다. 사용자가 ‘밝고 희망찬 목소리로 해줘’라거나 ‘진지하고 차분하게 말해줘’라고 명령하면 AI가 그 뉘앙스를 정확히 살려냅니다. 심지어 게임 캐릭터의 연기 톤이나 가상 비서의 친절한 말투까지도 자연스럽게 소화할 수 있습니다. 구글의 발표에 따르면 이 기술은 실제 성우가 연기하는 것과 유사한 수준의 몰입감을 제공한다고 합니다. 문맥을 이해하고 속도를 조절하는 능력 또한 놀랍도록 발전했습니다. AI가 문장의 구조와 의미를 파악해 농담을 할 때는 타이밍을 맞추고 설명이 필요할 때는 천천히 말합니다. 마치 사람이 대화할 때 상황에 따라 말의 빠르기를 조절하는 것과 똑같은 원리입니다. 개발자가 ‘빠르게’ 혹은 ‘느리게’라고 지시하면 AI는 그 요청을 즉각적으로 반영해 결과물을 내놓습니다.

여러 명의 목소리도 혼자서 척척

이번 모델은 팟캐스트나 인터뷰처럼 여러 사람이 등장하는 콘텐츠 제작에도 최적화되었습니다. 한 명의 AI가 서로 다른 캐릭터의 목소리를 흉내 내며 자연스러운 대화를 이어갈 수 있습니다. 화자가 바뀔 때마다 목소리 톤과 스타일을 완벽하게 전환해 듣는 사람이 어색함을 느끼지 않도록 만듭니다. 현재 지원되는 24개 언어 모두에서 각 화자 고유의 억양과 스타일을 유지하는 다국어 처리 능력도 갖췄습니다. 실제로 이 기술을 도입한 기업들은 놀라운 성과를 보고하고 있습니다. 오디오 제작 플랫폼 ‘원더크래프트’에 따르면 제미나이 TTS 도입 후 비용은 20% 줄고 사용자 이탈률도 20%나 감소했습니다. 인도의 콘텐츠 기업 ‘툰수트라’ 역시 웹툰 캐릭터 음성 연출에 이 기술을 활용해 큰 효과를 보고 있다고 전했습니다. 캐릭터의 성격에 맞는 톤과 억양을 일관성 있게 유지할 수 있었기 때문입니다.

누구나 쉽게 만드는 고품질 음성 콘텐츠

구글은 이번 모델을 누구나 쉽게 사용할 수 있도록 API 형태로 공개했습니다. 개발자들은 구글 AI 스튜디오를 통해 즉시 이 기능을 자신의 서비스에 적용할 수 있습니다. 복잡한 코딩 없이도 프롬프트만 잘 입력하면 원하는 스타일의 음성을 만들어낼 수 있는 세상이 열린 것입니다. 이는 오디오북이나 교육 자료, 마케팅 영상 제작에 큰 변화를 가져올 것으로 보입니다. 앞으로 성우나 녹음실 없이도 고품질의 음성 콘텐츠를 만드는 일이 일상이 될 전망입니다. AI 기술의 발전이 콘텐츠 제작의 장벽을 낮추고 창작자들에게 새로운 기회를 제공하고 있습니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI 음성 기술, 성우 직업 대체 불가피한가?

댓글 0