기술/연구

“영상 편집자들 퇴사 위기?” 말 한마디면 2시간 영상 쪼갠다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.21 19:12

기사 3줄 요약

1 트웰브랩스 차세대 영상 추론 AI 페가수스 1.5 공개
2 말 한마디로 2시간 분량 영상 구조 자동 분절 가능
3 구글 제미나이 대비 성능 13.1% 앞서며 업계 혁신

한국 인공지능 스타트업 트웰브랩스가 차세대 영상 추론 모델을 선보였습니다. 페가수스 1.5 모델은 단순히 장면을 찾는 수준을 넘어섰습니다. 영상의 전체적인 구조를 스스로 파악하고 데이터로 만드는 능력을 갖췄습니다. 사용자가 말로 지시하면 인공지능이 영상 구간을 알아서 나눕니다. 뉴스 앵커가 바뀔 때마다 챕터를 구성해달라는 요청도 수행합니다. 사람이 직접 영상을 보며 수작업하던 고된 과정을 자동화했습니다.

말로 하면 영상 구조가 설계된다

트웰브랩스 발표에 따르면 이번 모델은 영상 속 신호를 통합 분석합니다. 저수준 시각 신호와 고수준 맥락 신호를 모두 읽어내는 방식입니다. 덕분에 영상의 미세한 흐름까지 완벽하게 감지할 수 있습니다. 뉴스 제작팀이 프로그램을 업로드하고 명령을 내리면 결과가 즉시 나옵니다. 앵커 이름과 뉴스 주제를 추출해 달라고 하면 데이터로 정리합니다. 이 결과물은 숏폼 콘텐츠를 제작하거나 자막을 달 때 활용됩니다. 복잡한 대상도 이미지 한 장으로 영상 속에서 찾아낼 수 있습니다. 글로 설명하기 힘든 물건도 사진만 있으면 인공지능이 바로 검색합니다. 최대 2시간 분량의 긴 영상도 한 번에 처리할 수 있어 효율적입니다.

업계 최초 시간 기반 메타데이터 추출

시간 기반 메타데이터 추출 기술은 영상을 정밀하게 구간 분할합니다. 각 구간의 시작과 종료 시점을 정확한 시간 코드로 기록합니다. 이렇게 생성된 구조화된 데이터는 기업의 중요한 자산이 됩니다. 기존 모델은 질문에 답변하거나 요약하는 기능에 집중했습니다. 반면 페가수스 1.5는 영상의 구조 자체를 설계하는 단계로 진화했습니다. 영상을 하나의 거대한 데이터베이스로 변환하는 기술입니다. 일론 머스크나 샘 알트먼이 주목하는 기술 경쟁에서도 앞서가고 있습니다. 트웰브랩스 기술진은 고객의 요구를 적극적으로 반영했다고 밝혔습니다. 미디어 산업뿐만 아니라 다양한 분야에서 활용될 전망입니다.

구글 제미나이보다 앞선 성능 수치

이번 모델은 성능 평가에서 구글의 제미나이를 뛰어넘었습니다. 구간 분할 정확도 면에서 제미나이 대비 약 13% 높은 성능을 보였습니다. 시간 경계의 오차는 0.35초 이내로 매우 정밀한 수준입니다. 영상 안에 무엇이 있는지 아는 것을 넘어 어디에 있는지 찾아냅니다. 이재성 트웰브랩스 대표는 이 점이 기술의 핵심이라고 설명했습니다. 앤트로픽이나 뤼튼 같은 기업들도 주목할 만한 성과입니다. 영상을 전략적 자산으로 활용하려는 기업들에게 필수적인 도구입니다. 스포츠 중계 분석이나 보안 영상 분류에도 즉시 적용이 가능합니다. 광고 브랜드 추적 업무에서도 혁신적인 변화가 기대됩니다.

모든 산업에 적용 가능한 영상 데이터

콘텐츠는 더 이상 단순히 시청하고 소비하는 대상이 아닙니다. 기업이 자유롭게 가공하고 활용할 수 있는 데이터 자산이 되었습니다. 인공지능이 영상의 문법을 이해하면서 가능한 일입니다. 트웰브랩스 플랫폼을 통해 누구나 이 기능을 체험할 수 있습니다. 기업 고객들은 별도 상담을 통해 맞춤형 솔루션을 제공받습니다. 한국 인공지능 기술의 위상을 세계에 알리는 계기가 되었습니다. 앞으로 영상 기반의 인공지능 시장은 더욱 빠르게 성장할 것입니다. 사용자가 원하는 기준만 정의하면 나머지는 인공지능이 해결합니다. 영상 편집과 관리의 미래가 이미 우리 곁에 와 있습니다.