도구/제품

AI 거짓말 잡아낸다! 구글 제미나이 탑재 ‘저지 이미지’, Etsy가 선택한 이유?

댓글 0 · 저장 0 2025.04.15 11:25

기사 3줄 요약

1 패트로너스 AI, '저지 이미지' 공개
2 구글 제미나이로 AI 이미지 오류 검증
3 Etsy, 상품 설명 정확도 높이려 도입

인공지능(AI)이 만드는 콘텐츠가 폭발적으로 늘어나면서, 진짜인지 가짜인지 구별하는 것이 점점 더 중요해지고 있습니다. 특히 AI가 만든 이미지나 그 설명을 무조건 믿기 어려워지는 ‘환각 현상’ 문제가 떠오르고 있습니다. 이런 상황에서 AI 스타트업 패트로너스 AI(Patronus AI)가 개발한 ‘저지 이미지(Judge-Image)’라는 기술이 주목받고 있습니다. 저지 이미지는 AI가 생성한 이미지와 그 설명이 정확한지 꼼꼼하게 검증하는 역할을 합니다. 핸드메이드 제품과 빈티지 상품으로 유명한 대형 온라인 쇼핑몰 엣시(Etsy)가 이 기술을 발 빠르게 도입했습니다.

AI가 만든 이미지, 믿을 수 있을까?

AI 기술 발전으로 누구나 쉽게 글, 이미지, 영상 등 다양한 콘텐츠를 만들 수 있게 되었습니다. 하지만 AI가 항상 완벽한 결과물을 내놓는 것은 아닙니다. 때로는 AI가 존재하지 않는 정보를 사실처럼 만들어내거나, 이미지와 전혀 다른 엉뚱한 설명을 붙이는 ‘환각 현상’을 일으키기도 합니다. 이는 특히 상품 정보의 정확성이 중요한 전자상거래 분야에서 큰 문제가 될 수 있습니다. 패트로너스 AI의 저지 이미지는 바로 이 지점을 파고듭니다. AI가 만든 콘텐츠의 신뢰도를 높여 사용자들이 안심하고 정보를 받아들일 수 있도록 돕는 것이 목표입니다.

‘저지 이미지’는 어떻게 작동할까?

저지 이미지는 구글의 최신 AI 모델인 ‘제미나이(Gemini)’와 여러 종류의 정보를 동시에 처리할 수 있는 멀티모달 거대언어모델(MLLM)을 핵심 엔진으로 사용합니다. 이 강력한 AI 엔진들은 이미지와 관련 텍스트 설명을 면밀히 분석해서, AI 환각이나 다른 신뢰성 문제로 인해 발생할 수 있는 불일치나 오류를 정확하게 찾아냅니다. 이미지 안에 글자가 있는지, 격자 구조는 어떤지, 사물의 공간적 위치는 올바른지, 이미지 속 객체를 제대로 인식했는지 등을 종합적으로 평가하여 이미지와 설명의 정확도를 판단합니다. 단순히 표면적인 정보만 보는 것이 아니라, 내용의 깊이까지 파악하는 것입니다.

Etsy는 왜 ‘저지 이미지’를 선택했을까?

수백만 개의 상품을 판매하는 Etsy에게는 각 상품 이미지를 정확하게 설명하는 캡션을 자동으로 생성하는 것이 매우 중요합니다. 하지만 AI가 생성하는 캡션에는 종종 오류가 발생하여 상품 설명의 신뢰도를 떨어뜨릴 수 있습니다. Etsy는 이러한 문제를 해결하기 위해 저지 이미지를 도입했습니다. 저지 이미지는 MLLM 기반의 평가 프레임워크인 ‘MLLM-as-a-Judge’의 일부로 활용되어, Etsy의 이미지 캡션 시스템을 평가하고 최적화하는 데 도움을 줍니다. 이를 통해 캡션 환각 현상을 줄이고, 상품 설명을 더욱 정확하게 만들어 구매자들의 신뢰를 높이고 사용자 경험을 개선하고 있습니다. 정확한 정보는 곧 소비자의 신뢰와 직결되기 때문입니다.

‘저지 이미지’의 기능과 한계는?

저지 이미지는 기본적으로 캡션 환각 감지(일반/엄격 모드), 이미지 속 주요 객체 및 부가 객체 설명 확인, 객체 위치 정확성 검증 등 다양한 평가 기준을 제공합니다. 이 외에도 이미지 속 표 형태 데이터의 문자 인식(OCR) 정확도, AI가 만든 브랜드 로고나 디자인 요소의 정확성, 전체적인 장면 묘사의 타당성 등도 평가할 수 있습니다. 패트로너스 AI는 자체 테스트 결과, 구글 제미나이 기반의 저지 이미지가 다른 MLLM보다 우수한 성능을 보였다고 밝혔지만, 구체적인 정확도 수치는 공개하지 않았습니다. 물론 저지 이미지 역시 AI 기반 시스템이므로, 모든 종류의 오류나 미묘한 차이를 완벽하게 감지하지는 못할 수 있다는 한계점은 인지해야 합니다. 패트로너스 AI는 저지 이미지 외에도 ‘글라이더(Glider)’라는 오픈소스 소형언어모델(LLM)도 제공합니다. 글라이더는 AI 언어 모델의 성능을 빠르고 유연하며 설명 가능하게 평가하는 데 특화되어 있으며, 인간의 판단과 91% 일치하는 높은 성능을 보여줍니다. 패트로너스 AI는 이러한 도구들을 통해 기업들이 AI 시스템을 지속적으로 개선하고 신뢰도를 높일 수 있도록 지원하고 있습니다. 앞으로 오디오 및 비전 기능까지 평가 영역을 확장할 계획이라고 하니, AI 콘텐츠 검증 기술의 발전이 기대됩니다.

기능	이점	구현 세부 정보
구글 제미나이 기반	GPT-4V 등 대안 대비 더 공정하고 편향 적은 판단	다양한 기준에 따라 이미지 캡션 평가
캡션 환각 감지	AI 생성 캡션의 부정확성 식별 및 완화	표준 및 엄격 감지 모드 제공
객체 설명 검증	이미지 내 주요 및 비주요 객체 설명 정확성 보장	객체의 존재 및 속성 확인
객체 위치 정확도	이미지 내 객체의 공간적 위치 검증	객체 간 올바른 배치 및 관계 확인
OCR 추출 정확도	이미지 속 표 데이터의 텍스트 추출 정밀도 테스트	시각적 소스로부터 신뢰할 수 있는 데이터 캡처 보장
AI 생성 브랜드 자산 정확도	AI 생성 브랜드 요소의 정확성 검증	브랜드 일관성 및 규정 준수 유지
장면 설명 유효성	장면 설명의 전반적인 정확성 및 일관성 평가	이미지 이해에 대한 전체적 평가 제공
Etsy 구현	이미지 캡션 시스템 최적화 및 사용자 신뢰 향상	제품 이미지의 캡션 환각 감지 및 완화

저지 이미지가 정확히 어떤 기술적 과정을 거쳐 분석하는지는 공개되지 않았지만, 컴퓨터 비전, 자연어 처리(NLP), 머신러닝 모델을 복합적으로 활용할 가능성이 높습니다. 객체 탐지, 이미지 분할, 텍스트 인식(OCR), 공간 추론, 자연어 이해 등의 기술을 통해 이미지와 텍스트 사이의 불일치를 찾아내는 방식일 것으로 추정됩니다. AI 생성 콘텐츠가 우리 삶 곳곳에 스며드는 지금, 패트로너스 AI의 저지 이미지 같은 검증 도구는 정보의 진위를 가리고, 사용자의 신뢰를 지키며, 책임감 있는 AI 활용을 촉진하는 데 필수적인 역할을 할 것입니다.