기술/연구

"GPT-4o 목소리보다 낫다고?" 15초 만에 감정 담는 AI, 대체 뭐길래?

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.05.30 23:19

기사 3줄 요약

1 감정까지 표현하는 AI 음성 모델 EVI 3 공개
2 15초 음성 샘플로 맞춤형 목소리 생성, GPT-4o와 경쟁
3 음성 복제 기술 윤리 문제 해결 노력과 함께 미래 기대

최근 인공지능(AI) 음성 기술 분야에서 깜짝 놀랄 만한 소식이 들려왔습니다. 바로 미국 뉴욕에 본사를 둔 스타트업 Hume(휴음)이 개발한 새로운 감정 표현 AI 음성 모델 'EVI 3'의 등장입니다. 이 모델은 단순히 글자를 읽어주는 것을 넘어, 목소리에 기쁨, 슬픔, 놀라움 등 다양한 감정을 실어 표현하는 것으로 알려져 업계의 큰 주목을 받고 있습니다. 특히 EVI 3는 단 15초 분량의 짧은 음성 샘플만 있으면, 해당 인물의 목소리 톤과 말투는 물론 감정까지 복제해 맞춤형 AI 목소리를 생성할 수 있다고 합니다. 이는 기존 AI 음성 모델들이 가진 로봇 같은 딱딱함에서 벗어나, 훨씬 자연스럽고 인간적인 소통을 가능하게 할 잠재력을 보여줍니다. 일부에서는 OpenAI의 최신 음성 모델인 GPT-4o보다도 자연스러움이나 표현력 면에서 뛰어나다는 평가까지 나오고 있어, AI 음성 기술 시장에 새로운 바람을 일으킬 것으로 보입니다.

그래서, EVI 3가 정확히 뭔데?

Hume이 선보인 EVI 3는 사용자의 말에 담긴 미묘한 감정까지 파악하고, 그에 맞춰 목소리의 톤과 어투를 조절하는 능력을 갖춘 대화형 AI 음성 모델입니다. 기존 챗봇이나 음성 비서가 주로 텍스트나 정해진 답변에 의존했던 것과 달리, EVI 3는 말의 높낮이, 억양, 멈춤 등 비언어적인 신호에 반응하며 더욱 사람과 대화하는 듯한 느낌을 줍니다. 이러한 기술은 게임, 엔터테인먼트, 교육 등 다양한 분야에서 사용자에게 완전히 새로운 경험을 제공할 것으로 기대됩니다. EVI 3는 약 300ms 수준의 매우 빠른 응답 속도를 자랑하며, 영어, 스페인어는 물론 한국어까지 기본으로 지원합니다. 앞으로 지원 언어는 더욱 확대될 예정이라고 하니, 국내 사용자들의 기대감도 커지고 있습니다. 또한, 사용자가 원하는 대로 음색이나 감정 표현, 억양 등을 조절할 수 있는 맞춤 설정 기능도 제공하여, 그야말로 '나만의 AI 목소리'를 만들 수 있게 됩니다.

GPT-4o랑 비교하면 뭐가 더 좋아?

Hume은 내부 테스트 결과를 바탕으로 EVI 3가 OpenAI의 GPT-4o나 구글의 제미나이 등 경쟁 모델들보다 여러 면에서 우수하다고 주장합니다. 1,720명의 사용자를 대상으로 진행한 테스트에서 목소리의 자연스러움, 감정 이해도, 표현력, 응답 속도 등 대부분의 항목에서 EVI 3가 더 높은 선호도를 보였다는 것입니다. 특히 15초의 음성 샘플만으로 맞춤형 목소리를 빠르게 만들어내는 능력은 EVI 3의 독보적인 강점으로 꼽힙니다. 물론 GPT-4o나 제미나이 같은 모델들은 방대한 데이터를 기반으로 다양한 작업을 수행할 수 있다는 장점이 있습니다. 하지만 목소리의 감정 표현과 개인화라는 측면에서는 EVI 3가 한발 앞서 있다는 평가가 나오고 있습니다. 앞으로 개발자들이 EVI 3를 다양한 서비스에 쉽게 통합할 수 있도록 API(응용 프로그래밍 인터페이스)도 제공될 예정이어서, 그 활용 범위는 더욱 넓어질 전망입니다.

내 목소리 맘대로 써도 되는 거야? 윤리 문제는?

이처럼 혁신적인 기술이지만, 한편으로는 우려의 목소리도 존재합니다. AI가 특정인의 목소리를 너무나 쉽게 복제할 수 있게 되면서, 이를 악용한 보이스피싱이나 가짜뉴스 제작 등에 대한 걱정이 커지고 있는 것입니다. Hume 역시 이러한 AI 음성 복제 기술의 오용 가능성을 심각하게 받아들이고, 기술 악용을 막기 위한 여러 안전장치를 마련하고 있다고 밝혔습니다. 구체적으로는 음성 복제 기술을 사용하기 전에 반드시 사용자의 명시적인 동의를 얻는 절차를 강화하고, 음성 데이터를 안전하게 관리하기 위한 강력한 보안 시스템을 적용했습니다. 또한, 기술이 나쁜 의도로 사용되는 사례를 24시간 감시하는 시스템도 운영 중입니다. 하지만 전문가들은 기술 발전과 함께 사회적 합의를 통한 윤리 가이드라인 및 규제 마련이 시급하다고 강조하며, 기술이 인류에게 도움이 되는 방향으로 사용될 수 있도록 지속적인 관심과 노력이 필요하다고 말합니다.

이 기술, 앞으로 어떻게 더 발전할까?

Hume은 최근 약 2,500만 달러(약 340억 원) 규모의 시리즈 A 투자를 성공적으로 유치했습니다. 이 자금을 바탕으로 EVI 3 모델의 감정 표현 능력과 음성 품질을 더욱 향상시키고, 사용자 편의성을 높이는 새로운 기능 개발에 집중 투자할 계획입니다. 특히 게임, 엔터테인먼트, 교육 분야를 중심으로 시장을 공략하고, 글로벌 시장 진출에도 적극적으로 나설 예정입니다. EVI 3는 게임 캐릭터에 생생한 감정을 불어넣거나, 오디오북, 팟캐스트 등 엔터테인먼트 콘텐츠를 더욱 매력적으로 만들 수 있습니다. 또한, 외국어 학습이나 개인 맞춤형 교육 서비스에도 혁신을 가져올 수 있으며, AI 챗봇이나 고객 상담 시스템에 적용되어 고객 만족도를 높이는 데도 기여할 것으로 보입니다. 이처럼 EVI 3가 열어갈 AI 음성 기술의 새로운 미래에 대한 기대가 모아지고 있습니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr