기술/연구

“구글 천재 AI 영상의 배신?” 12번 중 11번 ‘실패’ 논란

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.10.02 04:51

기사 3줄 요약

1 구글 딥마인드, 현실 이해하는 AI 영상 모델 ‘Veo 3’ 공개
2 복잡한 작업 테스트에서 12번 중 11번 실패하며 성능 논란
3 AI 영상 기술의 현실 모방 능력에 대한 근본적인 의문 제기

최근 구글 딥마인드가 공개한 새로운 인공지능(AI) 영상 모델 ‘Veo 3’가 큰 주목을 받고 있습니다. 이 AI는 글자나 이미지 몇 개만으로 현실적인 영상을 만들어내, 마치 실제 세상을 이해하는 것처럼 보이기 때문입니다. 구글 연구진은 Veo 3가 따로 배우지 않은 작업도 해낼 수 있다며 자신감을 드러냈습니다. 하지만 그 결과를 자세히 들여다보면 고개를 갸우뚱하게 만드는 구석이 있습니다.

겉보기엔 천재, 속은 아니라고?

구글 딥마인드의 ‘비디오 모델은 제로샷 학습자이자 추론자’라는 논문에 따르면, Veo 3는 몇몇 간단한 작업에서 완벽한 성능을 보였습니다. 로봇 손이 병뚜껑을 열거나 공을 던지고 받는 영상은 12번의 테스트에서 모두 성공했습니다. 이런 결과만 보면 AI가 정말 물리 법칙을 이해한 것처럼 보입니다. 연구진은 이를 근거로 미래의 AI 영상 모델이 언어 모델처럼 시각 정보 분야의 핵심 기술이 될 것이라고 주장했습니다.

12번 시켜봤더니 11번 실패?

문제는 조금만 복잡한 작업을 시켰을 때 발생했습니다. 예를 들어, 번호가 적힌 풍선을 순서대로 터뜨리는 작업은 12번 중 무려 11번이나 실패했습니다. 간단한 미로를 푸는 문제는 10번, 분젠 버너로 종이를 태우는 실험은 9번이나 실패했습니다. 놀랍게도 연구진은 단 한 번이라도 성공하면 ‘그 작업을 해결할 능력이 있다’고 판단했습니다. 12번 모두 실패한 16개 작업을 제외하고는, 11번을 실패해도 능력은 있다고 본 것입니다. 이는 대부분의 사람이 생각하는 ‘성공’의 기준과는 거리가 멉니다.

그래서 미래가 어둡다는 거야?

물론 Veo 3는 이전 모델인 Veo 2에 비해 크게 발전했습니다. 특정 패턴을 좌우로 뒤집는 작업에서 Veo 2의 성공률은 0%였지만, Veo 3는 72%를 기록했습니다. 분명한 기술적 진보가 있었던 셈입니다. 하지만 가끔씩만 정답을 맞히는 것과 언제나 정답을 맞히는 것 사이에는 큰 차이가 있습니다. AI 영상 기술이 실생활에서 안정적으로 쓰이려면 지금처럼 변덕스러운 성능으로는 부족합니다. 구글의 발표는 AI 영상 기술의 놀라운 가능성을 보여줬지만, 동시에 완벽한 현실 모방까지는 아직 갈 길이 멀다는 점도 명확히 보여주고 있습니다.