기술/연구

“GPT-4o 이제 끝물?” 감정까지 읽는 AI 목소리 EVI 3, 30초 만에 나를 복제한다!

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.05.31 05:30

기사 3줄 요약

1 Hume AI, 감정 읽는 음성 AI ‘EVI 3’ 공개
2 30초 만에 내 목소리 AI 탄생, 20가지 감정 표현
3 GPT-4o 보다 자연스러운 AI 목소리, 기술 격차 과시

최근 AI 기술의 발전이 눈부신 가운데, 이제는 인공지능이 인간의 '감정'까지 읽고 표현하는 시대가 성큼 다가왔습니다. 미국의 AI 스타트업 Hume AI가 공개한 새로운 음성 AI 모델, 'EVI 3'가 바로 그 주인공입니다. 단 30초의 음성 샘플만으로 사용자의 목소리를 똑같이 복제하고, 심지어 20가지가 넘는 감정까지 표현해낸다고 하니, AI와 대화하는 방식이 머지않아 완전히 바뀔지도 모릅니다.

EVI 3, 도대체 뭐가 다른 건데?

Hume AI의 EVI 3는 단순히 글자를 읽어주는 기존의 음성 AI와는 차원이 다릅니다. 이 모델은 텍스트, 언어, 그리고 목소리 톤에 담긴 감정까지 종합적으로 이해하고 반응하도록 설계되었습니다. 예를 들어, 기쁜 내용의 글을 읽을 때는 밝고 활기찬 목소리로, 슬픈 내용일 때는 차분하고 낮은 톤으로 말하는 것이 가능합니다. 더 놀라운 점은 음성 생성 속도와 맞춤형 기능입니다. 이전 모델보다 10배나 빠른 속도로 음성을 만들어내며, 단 30초 분량의 목소리 데이터만 있으면 사용자와 거의 똑같은 AI 목소리를 만들 수 있습니다. 웃음소리, 울음소리, 속삭임 등 20가지가 넘는 세밀한 감정 스타일까지 구현 가능해 정말 사람과 대화하는 듯한 느낌을 줍니다. 또한 영어, 스페인어, 프랑스어 등 주요 언어를 이미 지원하고 있으며, 앞으로 더 많은 언어로 확대될 예정입니다. 개발자들은 클라우드 기반 API(프로그램 연결 도구)를 이용해 자신들의 서비스나 애플리케이션에 EVI 3의 감성 지능 음성 기능을 쉽게 넣을 수 있습니다.

진짜 GPT-4o보다 낫다고?

많은 사람들이 궁금해하는 것은 OpenAI의 GPT-4o나 구글의 제미나이 같은 거대 AI 모델과의 성능 비교일 것입니다. Hume AI는 1,720명의 사용자를 대상으로 블라인드 테스트를 진행한 결과, EVI 3가 목소리의 자연스러움, 감정 표현력, 공감 능력, 응답 속도 등 대부분의 항목에서 경쟁 모델들보다 높은 평가를 받았다고 밝혔습니다. 특히 사용자의 말에 담긴 감정을 이해하고, 그에 맞춰 목소리 톤과 스타일을 조절하는 능력에서 강점을 보였다고 합니다. 물론 이는 Hume AI 자체 테스트 결과이므로 객관적인 평가는 더 지켜봐야겠지만, 감성적인 측면에서는 EVI 3가 상당한 기술력을 확보한 것으로 보입니다. 심지어 음성의 성별, 강도, 활기, 자신감 등 10가지 세부 항목을 사용자가 직접 조절할 수 있는 기능도 제공합니다. 이는 AI 목소리가 단순한 정보 전달 도구를 넘어, 사용자와 정서적으로 교감하는 단계로 나아가고 있음을 보여줍니다.

그래서 이걸로 뭘 할 수 있을까?

EVI 3와 같은 감성 AI 음성 기술은 다양한 분야에서 혁신적인 변화를 가져올 수 있습니다. 예를 들어, 게임 속 캐릭터들이 상황에 따라 더 실감 나는 목소리로 말하거나, AI 고객센터 상담원이 고객의 감정을 파악해 더 친절하게 응대하는 것이 가능해집니다. 교육용 콘텐츠에서는 AI 튜터가 학생의 감정 상태에 맞춰 격려하거나 설명을 조절할 수도 있습니다. 콘텐츠 제작자들은 이전보다 훨씬 빠르고 쉽게 고품질의 AI 목소리 더빙을 제작할 수 있게 됩니다. 나만의 목소리를 가진 AI 비서를 만들거나, 소설 속 등장인물의 목소리를 AI로 구현하는 등 상상 속에서만 가능했던 일들이 현실이 될 수 있습니다. Hume AI는 올해 말까지 음성 AI 경험을 완전히 개인화하는 것을 목표로 하고 있다고 하니, 앞으로 더욱 놀라운 기능들이 등장할 것으로 기대됩니다.

목소리 AI, 윤리적인 문제는 괜찮을까?

이렇게 강력한 음성 복제 및 생성 기술이 등장하면서, 윤리적인 문제에 대한 우려도 함께 커지고 있습니다. 누군가의 목소리를 함부로 도용하거나, 가짜뉴스를 만드는데 악용될 가능성 때문입니다. Hume AI 역시 이러한 문제점을 인식하고, AI 음성 생성 과정에서 사용자 동의와 투명성을 매우 중요하게 생각한다고 강조합니다. EVI 3는 무분별한 음성 복제보다는 사용자 정의 옵션을 통해 다양한 목소리를 만들도록 지원함으로써, 데이터 오용 가능성을 줄이려고 노력하고 있습니다. 하지만 기술의 발전 속도가 워낙 빠르기 때문에, 기술 개발과 함께 윤리적 가이드라인과 법적 제도 마련에 대한 사회적 논의도 더욱 활발해져야 할 것입니다. 기술이 인간에게 이롭게 사용될 수 있도록 우리 모두의 관심과 노력이 필요합니다. 결론적으로 Hume AI의 EVI 3는 AI 음성 기술이 어디까지 발전할 수 있는지를 보여주는 흥미로운 사례입니다. 이 기술이 가져올 편리함과 즐거움도 크겠지만, 동시에 발생할 수 있는 문제점들에 대해서도 깊이 고민하고 대비해야 할 시점입니다. 앞으로 EVI 3가 만들어갈 AI 목소리의 미래가 더욱 기대됩니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr