기술/연구

“천재 AI도 바보?” PDF만 만나면 쩔쩔매는 충격적 이유

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.24 11:27

기사 3줄 요약

1 최첨단 AI도 PDF 문서 해석에 치명적 오류 발생
2 인쇄용 좌표 방식이라 텍스트 순서 인식 못함
3 고품질 학습 데이터 확보 위해 파싱 기술 경쟁 중

최근 300만 건이 넘는 제프리 엡스타인 관련 문서를 분석하던 AI가 엉뚱한 소리를 해대며 논란이 되었습니다. 물리학 난제도 척척 풀어내는 최첨단 AI가 고작 PDF 문서를 읽지 못해 쩔쩔매는 상황이 벌어지고 있습니다. AI 개발자들 사이에서는 PDF 파싱 문제가 범용 인공지능(AGI) 도달 직전의 마지막 관문이라는 이야기까지 나옵니다. 도대체 우리가 매일 쓰는 PDF 파일에 어떤 비밀이 숨겨져 있기에 천재 AI를 바보로 만드는 것인지 그 내막을 살펴봅니다.

사람 눈에만 완벽한 ‘그림’ 문서

PDF는 애초에 컴퓨터가 읽으라고 만든 파일이 아닙니다. 1990년대 어도비가 종이 문서를 디지털 화면에서도 똑같이 보여주기 위해 개발했습니다. 사람 눈에는 문장과 문단이 논리적으로 정렬된 것처럼 보이지만, 컴퓨터 입장에서는 글자가 아닌 좌표와 코드로 이루어진 ‘그림’일 뿐입니다. PDF 협회인 PDF 어소시에이션의 더프 존슨 CEO에 따르면 PDF는 인쇄물의 시각적 요소를 보존하는 데 최적화되어 있습니다. 그래서 AI가 이를 읽으려 하면 문단의 순서를 뒤죽박죽으로 인식하거나, 표와 그래프를 이해하지 못해 엉뚱한 해석을 내놓게 됩니다.

자율주행보다 어려운 ‘환각’의 늪

문제는 AI가 모르면 모른다고 하지 않고 거짓말을 지어내는 ‘환각 현상’을 일으킨다는 점입니다. 허깅페이스 연구진에 따르면 최신 AI 모델조차 복잡한 다단 구성이나 각주가 달린 PDF를 만나면 없는 내용을 지어내는 경우가 많습니다. 특히 표나 차트가 포함된 문서는 AI에게 지뢰밭이나 다름없습니다. 텍스트를 왼쪽에서 오른쪽으로만 읽으려는 습성 때문에, 신문처럼 단이 나뉜 문서를 만나면 문장을 뒤섞어 버려 해석이 불가능해집니다. 이는 마치 자율주행차가 예측 불가능한 도로 상황을 만나는 것과 비슷한 ‘롱테일’ 문제로 꼽힙니다.

3조 개의 보물창고를 열어라

그럼에도 불구하고 IT 기업들이 PDF 해석에 사활을 거는 이유는 명확합니다. 전 세계의 고급 정보가 모두 PDF 안에 갇혀 있기 때문입니다. 논문, 정부 보고서, 법률 문서 등 AI 학습에 필수적인 고품질 데이터가 PDF 형식으로 존재합니다. 앨런 인공지능 연구소에 따르면 PDF 문서에는 AI 성능을 비약적으로 높일 수 있는 수조 개의 토큰이 잠들어 있습니다. 최근에는 스타트업 리덕토(Reducto)나 허깅페이스 같은 기업들이 시각 정보를 함께 처리하는 비전 모델을 도입해 이 문제를 해결하려 노력 중입니다. 결국 이 암호를 먼저 해독하는 기업이 AI 패권을 쥐게 될 것입니다.