기술/연구

"그림 그리면 세상 다 안다?" 구글이 공개한 비전 바나나 화제

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.26 13:25

기사 3줄 요약

1 구글 딥마인드 시각 이해 통합 모델 비전 바나나 공개
2 그림 생성 학습으로 사물 거리와 구조 파악 능력 확보
3 전용 모델 능가하는 성능으로 AI 기술 패러다임 전환

구글 딥마인드 연구진이 그림을 그리면서 동시에 세상을 이해하는 인공지능인 비전 바나나를 공개했습니다. 이 인공지능은 단순히 이미지를 생성하는 수준을 넘어 사물의 거리와 구조까지 파악하는 능력을 보여주었습니다.

인공지능이 그림을 그리는 진짜 이유

연구진은 인공지능이 사실적인 그림을 그리려면 사물의 입체감과 관계를 본질적으로 이해해야 한다는 점에 주목했습니다. 비전 바나나는 구글의 최신 이미지 생성 모델인 나노 바나나 프로를 기반으로 개발되었습니다. 연구 결과에 따르면 이미지 생성 학습은 대규모 언어 모델의 사전 학습과 같은 역할을 수행합니다. 이미지를 만드는 과정 자체가 시각적 세계에 대한 풍부한 내부 표현을 형성하기 때문입니다. 실제로 이 모델은 소량의 시각 데이터만 추가로 학습해도 다양한 분석 작업을 수행할 수 있습니다. 이는 특정 기능만 하던 인공지능이 범용 모델로 진화하고 있다는 중요한 신호로 해석됩니다.

모든 정보를 그림으로 표현하는 혁신 기술

이 모델의 가장 큰 특징은 분석 결과까지도 하나의 그림 형태로 출력한다는 점입니다. 예를 들어 사진 속 고양이를 찾으라고 명령하면 고양이 부분만 특정 색으로 칠한 이미지를 결과물로 내놓습니다. 색상은 단순한 시각적 표현이 아니라 각각의 의미가 담긴 정교한 규칙에 따라 정해집니다. 따라서 해당 이미지를 다시 분석하면 어떤 부분이 어떤 객체인지 수치 데이터로 정확하게 변환할 수 있습니다. 이러한 방식은 인간이 직관적으로 이해하기 쉬울 뿐만 아니라 정보를 가공하기에도 매우 편리합니다. 모든 시각 정보를 색상 규칙으로 통일하여 관리하는 브이 토큰 기술이 적용된 덕분입니다.

기존 전용 모델을 뛰어넘는 압도적 성능

비전 바나나는 성능 측정 결과에서 기존의 시각 분석 전문 모델들과 대등하거나 더 뛰어난 성적을 거두었습니다. 사물을 분리해내는 기술이나 깊이를 측정하는 분야에서 세계 최고 수준의 모델들을 앞지르기도 했습니다. 특히 뎁스 애니싱과 같은 최신 특화 모델들과 비교해도 성능이 전혀 뒤처지지 않았습니다. 별도의 구조 변경 없이 프롬프트 입력만으로 다양한 작업을 수행한다는 점은 매우 혁신적인 성과입니다. 연구진에 따르면 이러한 결과는 특정 작업에만 최적화된 모델보다 범용 모델이 더 강력할 수 있음을 시사합니다. 앞으로는 하나의 모델이 시각과 관련된 모든 문제를 해결하는 시대가 올 것으로 보입니다.

시각 인공지능의 미래와 패러다임 전환

이번 연구는 이미지 생성 과정 자체가 이미 깊은 이해를 포함하고 있다는 점을 강조합니다. 현실적인 이미지를 만들기 위해서는 물체의 구조와 거리 그리고 관계를 완벽히 파악해야 하기 때문입니다. 전문가들은 생성 비전 사전학습이 이해와 생성 모두를 아우르는 핵심 기술이 될 것으로 보고 있습니다. 비전 바나나는 인공지능이 인간처럼 세상을 보고 해석하는 능력을 갖추게 되는 중요한 이정표가 될 것입니다.