기술/연구

"작곡가들 이제 뭐 먹고 사나?" 스마트폰이 8초 만에 음악 뚝딱!

댓글 3 · 저장 0 · 편집: 이도윤 기자 발행: 2025.05.15 01:39

기사 3줄 요약

1 스태빌리티AI, 스마트폰용 오디오 생성 AI 공개
2 Arm 협력, 8초 내 오디오 생성, 저작권 문제 해결
3 영어 전용, 일부 기능 한계, 기업 유료 사용 조건

AI 창업, 돈 없다고 포기? 정부가 최대 3억 팍팍! 글로벌 날개 단다

aipick.kr

AI 창업, 돈 없다고 포기? 정부가 최대 3억 팍팍! 글로벌 날개 단다 | AI 픽

한투AC, 정부와 AI 스타트업 육성 프로그램 시작

스마트폰으로 그림을 그리고 영상을 편집하는 시대, 이제는 음악까지 직접 만들 수 있는 날이 눈앞에 다가왔습니다. 인공지능(AI) 이미지 생성 기술로 유명한 스태빌리티 AI(Stability AI)가 이번에는 스마트폰에서도 돌아가는 오디오 생성 AI 모델, ‘스테이블 오디오 오픈 스몰(Stable Audio Open Small)’을 공개하며 새로운 가능성을 제시했습니다. 이 기술은 인터넷 연결 없이도, 그것도 단 몇 초 만에 짧은 오디오나 효과음을 만들어낼 수 있다고 합니다. 더욱 놀라운 점은 음악 창작의 가장 큰 골칫거리 중 하나인 저작권 문제에서도 비교적 자유로울 수 있다는 점입니다. 기존의 많은 AI 음악 생성 서비스들이 학습 데이터의 저작권 문제로 논란을 겪는 것과 달리, 스태빌리티 AI는 저작권 문제가 없는 음원들로만 AI를 학습시켰다고 밝혔습니다. 과연 이 기술이 미래의 음악 제작 방식을 어떻게 바꿔놓을지 관심이 집중됩니다.

스마트폰에서 8초 만에 음악이? 어떻게 가능해?

스태빌리티 AI가 공개한 ‘스테이블 오디오 오픈 스몰’은 이름처럼 작고 가벼운 모델입니다. 약 3억 4100만 개의 파라미터(AI 모델의 능력을 결정하는 요소)로 구성되어 있으며, 스마트폰이나 태블릿PC 등에 주로 사용되는 ARM 기반의 CPU에 최적화되어 개발되었습니다. 이는 반도체 설계 기업인 ARM과의 기술 협력을 통해 이뤄낸 성과입니다. 회사 측의 설명에 따르면, 이 AI 모델은 스마트폰에서 약 8초 만에 최대 11초 길이의 스테레오 오디오 샘플이나 효과음(예를 들어 드럼 소리, 악기 연주 소리 등)을 생성할 수 있습니다. 기존의 오디오 생성 AI 서비스인 수노(Suno)나 유디오(Udio) 등이 대부분 클라우드 서버에서 작업을 처리해야 해서 인터넷 연결이 필수적인 것과 비교하면 큰 장점입니다. 오프라인에서도 바로바로 소리를 만들어낼 수 있다는 뜻이기 때문입니다. 특히 주목할 부분은 학습 데이터입니다. 스태빌리티 AI는 ‘프리 뮤직 아카이브(Free Music Archive)’나 ‘프리사운드(Freesound)’ 같은 저작권 공유 오디오 라이브러리의 음원만을 학습에 사용했다고 강조했습니다. 이는 AI 생성물의 저작권 침해 위험을 크게 줄일 수 있는 중요한 지점입니다.

그럼 이제 완벽한 AI 작곡가 등장? 아직은...

물론 ‘스테이블 오디오 오픈 스몰’에도 아직 한계는 있습니다. 현재는 영어로 작성된 명령어(프롬프트)만 이해할 수 있으며, 실제 사람 목소리처럼 자연스러운 보컬이나 매우 높은 품질의 긴 노래를 만들어내는 데는 어려움이 있습니다. 또한, 학습 데이터가 주로 서양 음악에 편중되어 있어 다양한 음악 스타일을 고르게 표현하지 못할 수도 있다고 회사 측은 설명했습니다. 사용 조건도 눈여겨봐야 합니다. 연구자, 취미로 사용하는 개인, 또는 연 매출 100만 달러(약 13억 원) 미만의 소규모 사업자는 무료로 사용할 수 있습니다. 하지만 연 매출 100만 달러를 넘는 개발자나 기업은 스태빌리티 AI의 기업용 라이선스를 구매해야 합니다. 이러한 제약에도 불구하고, 스마트폰이라는 일상적인 기기에서 AI가 직접 소리를 창조할 수 있게 되었다는 점은 분명 혁신적인 발전입니다. 앞으로 기술이 더 발전한다면, 누구나 손쉽게 자신만의 음악이나 효과음을 만들어 콘텐츠 제작에 활용하는 시대가 더욱 가까워질 것으로 보입니다.

이 기술 만든 회사는 어떤 곳이야? 앞으로 전망은?

‘스테이블 오디오 오픈 스몰’을 개발한 스태빌리티 AI는 그림 그려주는 AI ‘스테이블 디퓨전(Stable Diffusion)’으로 잘 알려진 회사입니다. 한때 재정적인 어려움을 겪고 창업자이자 전 CEO였던 이마드 모스타크가 회사를 떠나는 등 부침을 겪기도 했습니다. 하지만 최근 새로운 투자를 유치하고, 영화 ‘타이타닉’의 제임스 카메론 감독을 이사회 멤버로 영입하는 등 회사 재정비에 힘쓰고 있습니다. 이번 오디오 생성 AI 모델 출시는 스태빌리티 AI가 이미지 생성 분야를 넘어 오디오 분야로 사업 영역을 확장하려는 중요한 움직임으로 해석됩니다. 오디오 AI 시장은 이미 구글, 메타 등 빅테크 기업뿐만 아니라 수노, 유디오 같은 전문 스타트업들이 치열하게 경쟁하는 분야입니다. 스마트폰에서 바로 사용할 수 있다는 점과 저작권 문제에서 상대적으로 자유롭다는 점은 스태빌리티 AI에게 강력한 경쟁력이 될 수 있습니다. 다만, 앞서 언급된 기술적 한계들을 얼마나 빨리 개선하고, 유료 라이선스 모델을 시장에 잘 안착시키느냐가 성공의 관건이 될 것입니다.

그래서 이게 우리한테 뭐가 좋은 건데?

‘스테이블 오디오 오픈 스몰’의 등장은 단순히 새로운 기술 하나가 추가된 것을 넘어, 일반인들의 창작 활동에 큰 변화를 가져올 수 있습니다. 예를 들어, 개인 유튜버나 영상 편집자들은 더 이상 저작권 걱정 없이 영상에 맞는 배경음악이나 효과음을 직접 만들어 사용할 수 있게 됩니다. 게임 개발자들도 게임 속 다양한 상황에 필요한 소리를 이전보다 훨씬 쉽고 빠르게 제작할 수 있습니다. 물론, 전문 작곡가나 음악 프로듀서의 역할을 완전히 대체하기에는 아직 부족한 점이 많습니다. 하지만 간단한 음악 스케치나 아이디어 구상, 또는 짧은 광고 음악이나 효과음 제작 등에서는 충분히 활용될 수 있을 것으로 보입니다. AI 기술은 점점 더 우리 생활 가까이 다가오고 있습니다. 스마트폰에서 터치 몇 번으로 음악이 만들어지는 시대, 창작의 문턱은 낮아지고 상상력의 경계는 더욱 넓어질 것입니다. 스태빌리티 AI의 이번 도전이 오디오 AI 기술의 대중화를 앞당기는 계기가 될 수 있을지 주목됩니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr