환영해🦉
산업/비즈니스

“ChatGPT 시대는 끝났다?” 영상까지 완벽하게 이해하는 AI의 등장

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.09.30 16:48
“ChatGPT 시대는 끝났다?” 영상까지 완벽하게 이해하는 AI의 등장

기사 3줄 요약

  • 1 트웰브랩스, 영상 자체를 이해하는 AI 기술 공개
  • 2 자연어 검색과 자동 요약 등 다양한 기능 지원
  • 3 AI 에이전트가 ‘눈’을 갖게 되는 핵심 기술로 평가
최근 인공지능(AI) 영상 분석 전문 기업 트웰브랩스가 AI의 새로운 가능성을 열었습니다. 바로 AI 에이전트에게 영상 이해 능력을 심어주는 ‘모델 컨텍스트 프로토콜(MCP) 서버’를 출시한 것입니다. 이는 마치 글만 읽을 줄 알던 AI에게 눈을 달아주는 것과 같은 획기적인 발전입니다.

### 그래서, 그게 정확히 뭔데?

이번에 공개된 MCP 서버는 한마디로 ‘AI용 만능 어댑터’라고 생각하면 쉽습니다. 서로 다른 AI 시스템과 도구들을 하나로 연결해주는 다리 역할을 합니다. 이 기술은 챗GPT의 경쟁자로 유명한 ‘클로드’를 만든 앤트로픽사가 개발한 개방형 표준 기술을 기반으로 합니다. 트웰브랩스는 이 어댑터를 활용해 자체 개발한 뛰어난 영상 이해 모델 ‘마렝고’와 영상 언어 생성 모델 ‘페가수스’를 다른 AI 도구들과 손쉽게 연결했습니다. 개발자들은 이제 마치 USB를 꽂듯 간편하게 자신의 AI 프로그램에 영상 이해 기능을 추가할 수 있게 됐습니다.

### 이게 왜 그렇게 대단한 건데?

이 기술이 적용되면 AI가 할 수 있는 일은 무궁무진해집니다. 예를 들어, “손흥민이 환상적인 골을 넣는 장면만 찾아줘”라고 말하면, AI가 수 시간짜리 경기 영상에서 해당 장면을 정확히 찾아냅니다. 긴 다큐멘터리 영화를 보고 핵심 내용만 5분으로 요약해달라고 요청할 수도 있습니다. 공장 CCTV를 실시간으로 분석해 위험한 상황을 감지하고 관리자에게 즉시 알리는 똑똑한 안전 지킴이 역할도 가능해집니다.

### 다른 회사 기술과는 뭐가 달라?

트웰브랩스의 기술이 특별한 이유는 ‘진정한 멀티모달’을 구현했다는 점입니다. 여러 AI 모델을 따로따로 사용하는 것이 아니라, 단 하나의 AI가 영상의 소리, 이미지, 맥락 등 모든 요소를 한 번에 통합적으로 이해합니다. 이는 마치 사람이 눈과 귀로 들어온 정보를 뇌에서 종합적으로 판단하는 것과 같습니다. 이재성 트웰브랩스 대표는 “이번 MCP 서버는 우리의 오랜 철학이 담긴 결과물”이라며 자신감을 내비쳤습니다.

### 앞으로 어떤 변화가 생길까?

이번 기술 공개는 AI가 텍스트를 넘어 시각적인 세상까지 이해하는 중요한 첫걸음입니다. 앞으로는 영상을 보고 스스로 판단하고 행동하는 더 똑똑한 AI 에이전트의 등장을 기대해볼 수 있습니다. 물론 감시 사회나 보안 문제와 같은 해결해야 할 과제도 남아있습니다. 하지만 기술의 발전이 가져올 긍정적인 변화가 더욱 클 것으로 보입니다. AI가 세상을 ‘보는’ 시대가 본격적으로 시작됐습니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI의 영상 이해 기술, 축복일까 재앙일까?

댓글 0

관련 기사