엔비디아, 1시간 분량 1초 만에? 역대급 AI 음성인식 모델 공짜로 푼다
댓글 0
·
저장 0
2025.05.06 05:01

기사 3줄 요약
- 1 엔비디아, 고성능 AI 음성인식 모델 무료 공개
- 2 1시간 분량 음성 1초 만에 텍스트 변환
- 3 개발자 누구나 상업적 이용까지 가능
AI 반도체 대장 엔비디아가 이번엔 '통 큰 선물'을 내놨습니다. 바로 '패러킷-TDT-0.6B-V2(Parakeet-TDT-0.6B-V2)'라는 최신 인공지능(AI) 음성 인식 모델을 완전히 공짜로 쓸 수 있게 풀어버린 것입니다. 누구나 자유롭게 쓰고 뜯어볼 수 있는 '오픈소스' 방식으로 공개한 건데요. 이제 개발자나 연구자라면 누구나 이 고성능 AI '귀'를 가져다 쓸 수 있게 됐습니다.
이 소식이 왜 놀랍냐면, 엔비디아가 그냥 그런 모델을 푼 게 아니기 때문입니다. 성능이 정말 대단합니다. 마치 게임 캐릭터처럼 가볍고 빠른데, 능력치는 엄청난 거죠.
그래서 뭐가 그렇게 대단한데?
이 '패러킷' 모델은 AI의 똑똑함을 나타내는 기준 중 하나인 '파라미터(매개변수)' 수가 6억 개 정도입니다. 요즘 나오는 거대 AI 모델들에 비하면 훨씬 가벼운 편이죠. 그런데도 성능은 강력합니다. 1시간 분량의 긴 음성 파일도 단 1초 만에 글자로 바꿔버리는 속도를 자랑합니다. 이건 거의 실시간 번역 수준의 속도입니다. 정확도도 꽤 높습니다. 영어, 독일어, 스페인어 등 7개 언어를 알아듣는데, 영어 기준으로 음성을 글자로 바꾸는 과정에서 생기는 오류율(WER)이 평균 6.05% 수준이라고 합니다. 물론 완벽하진 않지만, 훨씬 덩치 큰 경쟁 모델들과 비교해도 뒤지지 않는 실력입니다.왜 공짜로 풀었을까?
엔비디아가 이런 좋은 걸 왜 공짜로 풀었을까요? 아마 더 많은 개발자들이 엔비디아 기술을 써보게 만들려는 전략일 겁니다. 개발자들이 이 모델을 쓰다 보면 자연스럽게 엔비디아의 그래픽처리장치(GPU) 같은 하드웨어도 더 많이 찾게 될 테니까요. 또, 오픈소스 방식으로 공개하면 전 세계 개발자들이 함께 이 모델을 더 발전시킬 수도 있습니다. 엔비디아는 'CC-BY-4.0'이라는 라이선스를 적용했는데, 이건 심지어 이걸로 돈 버는 서비스를 만들어도 된다는 뜻입니다. 그야말로 파격적인 조건이죠.근데 단점은 없어?
물론 장점만 있는 건 아닙니다. 엔비디아도 솔직하게 한계점을 이야기합니다. 일단 100% 완벽하게 음성을 받아쓰는 건 아닙니다. 주변 소음이 심하거나, 전화 통화처럼 음질이 나쁘면 정확도가 좀 떨어진다고 합니다. 특히 시끄러운 환경(SNR 5)에서는 오류율이 8.39%까지 올라갈 수 있습니다. 아주 긴 오디오 파일을 처리할 때 가끔 글자가 이상하게 붙거나 시간 표시가 정확하지 않은 문제도 보고됐습니다. 이럴 땐 오디오 파일을 10분 단위로 잘라서 처리하는 임시방편이 필요할 수 있습니다. 아직 모델이 얼마나 자신 있게 받아썼는지 알려주는 '신뢰도 점수' 기능에 대한 정보는 부족합니다. 그래도 이런 점들을 감안해도, 엔비디아의 이번 공개는 AI 음성 기술의 문턱을 크게 낮춘 의미있는 행보입니다. 이제 더 많은 사람들이 AI 음성 인식 기술을 활용해 새롭고 재미있는 서비스를 만들 수 있게 될 것으로 기대됩니다. AI 기술이 정말 우리 곁으로 성큼 다가오고 있는 것 같습니다.
부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 기술 무료 공개, 선의일까 상술일까?
댓글 0개
관련 기사
최신 기사



