도구/제품

“영상 제작자들 이제 큰일 났다?” 사진 한 장으로 영화 만드는 AI 등장

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.08.27 18:48

기사 3줄 요약

1 알리바바, 사진과 음성으로 영화급 영상 만드는 AI 공개
2 ‘완2.2-S2V’ 모델, 오픈소스로 누구나 사용 가능
3 MS 등 빅테크와 경쟁, 영상 제작 시장 판도 변화 예고

이제 사진 한 장과 목소리만으로 영화 같은 영상을 만들 수 있는 시대가 열렸습니다. 중국의 거대 기술 기업 알리바바가 단 한 장의 사진과 음성 파일로 매우 사실적인 아바타 영상을 만들 수 있는 새로운 인공지능(AI) 모델을 공개했습니다. ‘완2.2-S2V’라는 이름의 이 모델은 누구나 사용할 수 있도록 소스 코드를 전부 공개해 큰 관심을 받고 있습니다.

진짜 사진 한 장이면 된다고?

알리바바가 공개한 ‘완2.2-S2V’ 모델은 말 그대로 사진 한 장과 녹음된 음성만 있으면 됩니다. 이 두 가지를 AI에 입력하면, 사진 속 인물이 음성에 맞춰 자연스럽게 말하고 움직이는 고화질 영상을 만들어 줍니다. 알리바바에 따르면, 이 기술은 단순한 ‘말하는 사진’ 수준을 넘어섭니다. 영화와 같은 전문적인 영상 콘텐츠 제작에 사용될 수 있을 정도의 품질을 자랑하며, 긴 영상에서도 움직임이 어색하지 않고 일관성을 유지하는 것이 특징입니다.

어떤 기술이길래 이게 가능해?

이 기술의 핵심은 ‘전문가 혼합(MoE)’이라는 방식에 있습니다. 이는 수많은 AI 전문가 중 특정 작업에 가장 적합한 전문가들만 골라 일을 시키는 것과 같습니다. 모든 AI를 한 번에 다 쓰는 것이 아니라 필요한 부분만 활성화하기 때문에 효율이 매우 높습니다. ‘완2.2-S2V’는 총 270억 개의 매개변수(파라미터) 중 140억 개만 활성화해 작동합니다. 덕분에 높은 품질의 영상을 빠르고 효율적으로 생성할 수 있습니다. 이미 알리바바는 글이나 이미지를 영상으로 만드는 다양한 AI 모델을 선보인 바 있습니다.

다른 회사들도 만들고 있다던데?

사실 사진으로 영상을 만드는 기술은 알리바바가 처음은 아닙니다. 알리바바는 2023년 ‘애니메이트 애니원’이라는 기술로 이 분야를 선도하기 시작했습니다. 이후 마이크로소프트(MS), 바이트댄스 등 세계적인 기업들도 비슷한 기술을 연이어 발표하며 치열한 경쟁을 벌이고 있습니다. 이제 이 기술은 매우 보편화되었습니다. 구글의 ‘비오 3’나 어도비의 ‘파이어플라이’ 같은 유명 영상 제작 도구에도 기본 기능으로 탑재되는 추세입니다. 누구나 쉽게 고품질 영상을 만들 수 있는 환경이 빠르게 갖춰지고 있습니다.

앞으로 영상 시장은 어떻게 될까?

알리바바는 이번 모델을 깃허브와 허깅페이스 같은 개발자 사이트에 무료로 공개했습니다. 누구나 이 기술을 테스트하고 발전시킬 수 있도록 문을 활짝 연 것입니다. 이는 영상 제작자나 크리에이터에게는 새로운 기회가 될 수 있습니다. 반면, 기술이 발전하면서 가짜 영상을 만드는 ‘딥페이크’ 같은 부작용에 대한 우려도 커지고 있습니다. 기술의 혜택을 누리는 동시에, 발생할 수 있는 사회적 문제에 대한 깊은 고민과 대비가 필요해 보입니다.