기술/연구

“제미나이보다 똑똑해?” 다 듣고 이해하는 엔비디아 AI

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.15 17:42

기사 3줄 요약

1 엔비디아 음성 소리 음악 통합 이해 AI 공개
2 30분 긴 오디오 처리로 제미나이 성능 압도
3 오픈소스로 출시되어 누구나 자유롭게 활용

엔비디아가 소리를 듣는 방식을 완전히 바꿔놓았습니다. 기존의 인공지능이 말소리만 겨우 알아들었다면 이제는 다릅니다. 음악과 주변 소음까지 한 번에 이해하는 모델이 등장했습니다.

엔비디아가 만든 오디오 천재?

엔비디아와 매릴랜드대학 연구진이 새로운 AI 모델을 공개했습니다. 이 모델의 이름은 오디오 플라밍고 넥스트라고 부릅니다. 줄여서 AF-넥스트라고 부르기도 합니다. 해당 연구 보고서에 따르면 이 모델은 매우 특별합니다. 사람의 음성 인식은 기본이고 소리 분류도 잘합니다. 심지어 음악 분석까지 하나의 모델에서 모두 처리합니다. 이것은 마치 사람이 귀로 모든 소리를 듣는 것과 같습니다. 이미지 AI가 사진을 보듯 소리를 통째로 이해합니다. 기술의 한계를 다시 한번 뛰어넘은 셈입니다.

30분짜리 긴 대화도 척척 이해해

기존의 오디오 AI는 짧은 소리만 겨우 분석했습니다. 하지만 AF-넥스트는 최대 30분 길이까지 처리합니다. 긴 회의나 영화 예고편도 한 번에 파악할 수 있습니다. 특별한 추론 방식인 오디오 사고 사슬이 도입되었습니다. 소리가 난 시점을 정확히 짚어내며 단계별로 생각합니다. 덕분에 인공지능이 헛소리를 하는 현상도 줄었습니다. 엔비디아 발표에 따르면 약 100만 시간의 데이터를 학습했습니다. 영화와 대화 그리고 음악 같은 실제 데이터를 활용했습니다. 덕분에 현실 세계의 복잡한 소리도 잘 알아듣습니다.

구글 제미나이까지 제친 진짜 실력

성능 테스트 결과는 전문가들을 깜짝 놀라게 했습니다. 종합 오디오 이해 능력에서 구글의 제미나이를 앞섰습니다. 특히 복잡한 추론 영역에서 압도적인 실력을 보여줬습니다. 음악 분석 능력은 그중에서도 가장 돋보이는 부분입니다. 어떤 악기가 연주되는지 92% 이상의 정확도로 맞춥니다. 음악의 구조와 감정까지 정교하게 설명할 수 있습니다. 언어 모델의 크기도 무려 70억 개나 됩니다. 방대한 지식을 바탕으로 소리의 맥락을 짚어냅니다. 이제 소리 데이터의 활용 범위가 음악까지 넓어졌습니다.

우리 삶은 어떻게 바뀔까?

이 기술은 우리 실생활에 큰 도움을 줄 수 있습니다. 길고 지루한 회의 녹음 파일을 순식간에 요약해줍니다. 특정 발언이 나온 시점도 정확히 찾아낼 수 있습니다. 누구나 이 모델을 자유롭게 가져다 쓸 수 있습니다. 엔비디아가 코드와 학습 데이터를 모두 공개했기 때문입니다. 덕분에 다양한 오디오 서비스가 쏟아질 전망입니다. 전문가들은 오디오 AI의 통합 시대가 왔다고 말합니다. 말하고 듣는 인공지능의 수준이 한 단계 올라갔습니다. 앞으로 어떤 놀라운 서비스가 나올지 기대됩니다.