환영해🦉
기술/연구

GPT-4o 이미지 생성 비밀 드러났다... '트랜스퓨전' 기술로 AI 이미지 한계 뛰어넘어

댓글 0 · 저장 0 2025.04.08 09:45
GPT-4o 이미지 생성 비밀 드러났다... '트랜스퓨전' 기술로 AI 이미지 한계 뛰어넘어

기사 3줄 요약

  • 1 GPT-4o, 메타 연구서 영감 얻은 '트랜스퓨전' 아키텍처 적용해 이미지 생성
  • 2 텍스트와 이미지 처리를 단일 트랜스포머 모델에서 통합
  • 3 BOI·EOI 토큰으로 모달리티 구분하며 기존 대비 1/5 연산량으로 고품질 이미지 생성

GPT-4o의 이미지 생성, 비밀은 '트랜스퓨전' 기술에 있었다

오픈AI의 GPT-4o가 뛰어난 이미지 생성 능력을 보여주며 주목받고 있습니다. 이 모델이 어떻게 텍스트를 이해하는 AI가 이미지까지 생성할 수 있게 됐는지, 그 비밀이 드러났습니다. 핵심은 바로 '트랜스퓨전(Transfusion)' 아키텍처입니다. 트랜스퓨전은 메타(Meta)의 연구에서 영감을 얻은 기술로, 텍스트와 이미지 처리를 하나의 트랜스포머 모델에서 통합합니다. 기존에는 텍스트 생성 모델과 이미지 생성 모델이 따로 개발되었지만, 트랜스퓨전은 이 두 가지를 한 모델 안에서 자연스럽게 처리할 수 있게 해줍니다.

어떻게 텍스트와 이미지를 한 모델에서 처리할까?

트랜스퓨전의 가장 큰 특징은 BOI(Begin-of-Image)와 EOI(End-of-Image) 토큰을 사용해 텍스트와 이미지를 구분한다는 점입니다. 쉽게 말해, 이미지가 시작될 때 'BOI'라는 신호를 주고, 끝날 때 'EOI'라는 신호를 줘서 모델이 "지금부터는 이미지야" 또는 "이제 이미지가 끝났어"라고 인식하게 하는 겁니다. 또 다른 중요한 특징은 이미지를 처리하는 방식입니다. 기존 모델들이 이미지를 개별 토큰으로 쪼개는 방식을 사용했다면, 트랜스퓨전은 이미지를 연속적인 벡터로 표현합니다. 이미지를 바둑판처럼 여러 조각(패치)으로 나누고, 각 조각을 벡터로 변환한 뒤 모델에 넣는 방식입니다. 이렇게 하면 이미지의 세밀한 정보가 더 잘 보존됩니다.

디퓨전 모델의 장점을 트랜스포머에 접목

트랜스퓨전은 디퓨전 모델(점차 노이즈를 제거하며 이미지를 생성하는 기술)의 장점을 트랜스포머 구조에 접목했습니다. 이미지 패치에 무작위 노이즈를 더한 뒤, 이를 점차 제거하는 과정을 학습하는 것이죠. 이 방식은 고품질 이미지 생성에 효과적인 것으로 알려져 있습니다. 무엇보다 트랜스퓨전의 가장 큰 장점은 계산 효율성입니다. 기존의 카멜레온(Chameleon) 모델과 비슷한 성능을 내면서도 계산량은 약 22%밖에 사용하지 않습니다. 즉, 5분의 1 정도의 연산으로 같은 품질의 이미지를 만들 수 있다는 뜻입니다.

GPT-4o 이미지 생성의 강점

GPT-4o의 이미지 생성은 특히 몇 가지 측면에서 돋보입니다. 첫째, 이미지 속 텍스트 렌더링이 매우 정확합니다. 이미지 속에 글자를 넣을 때 오타나 깨짐 없이 정확히 표현합니다. 둘째, 프롬프트의 지시에 정확히 따릅니다. 사용자가 요청한 내용을 세밀하게 반영해 이미지를 생성하죠. 셋째, GPT-4o의 방대한 지식과 대화 맥락을 활용할 수 있습니다. 이전 대화를 고려해 더 적절한 이미지를 만들어낼 수 있는 것이죠.

한계와 앞으로의 과제

물론 GPT-4o의 이미지 생성에도 한계는 있습니다. 포스터와 같은 긴 이미지는 때때로 아래쪽이 잘려 나오는 경우가 있고, 현실에 존재하지 않는 정보를 생성하는 '환각' 현상도 발생합니다. 예를 들어, 맑은 하늘의 해변 장면을 요청했을 때 하늘에 비행기를 추가하는 경우가 있을 수 있습니다. 또한 실제 인물을 묘사하는 데에도 제한이 있습니다. 미성년자의 사실적인 이미지나 개인을 사칭하는 이미지는 생성이 금지되어 있습니다. 오픈AI는 현재 이러한 한계를 인식하고 개선하기 위해 노력 중입니다. 오픈AI는 GPT-4o 이미지 생성 API를 출시할 계획이지만, 아직 정확한 일정은 공개되지 않았습니다. 출시 전 안전성 테스트, 모델 한계 해결, 기술적 의존성 해결 등 여러 단계를 거쳐야 하기 때문입니다. 또한 일시적으로 이미지 생성 요청 수에 제한을 두어 기능 효율성을 최적화하고 있습니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

GPT-4o의 이미지 생성 기술, 혁신인가 과대광고인가?

댓글 0

관련 기사

최신 기사

사용자 피드백