환영해🦉
기술/연구

“수천억 쓴 AI가 깡통?” 산업용 RAG 실패하는 진짜 이유

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.02 18:34
“수천억 쓴 AI가 깡통?” 산업용 RAG 실패하는 진짜 이유

기사 3줄 요약

  • 1 산업용 AI 실패 원인, 데이터 조각내는 청킹 지적
  • 2 기계적 분할 대신 의미 단위로 자르는 방식 도입 필요
  • 3 도면과 표 인식하는 멀티모달 기술로 신뢰도 확보
산업 현장에서 야심 차게 도입한 인공지능(AI)이 엉뚱한 대답만 늘어놓는다면 어떨까요. 기대했던 AI가 제 몫을 못 하는 충격적인 이유가 밝혀졌습니다. AI 아키텍트이자 데이터 엔지니어인 디푸 쿠마르 싱 후지쓰 신기술 리더가 벤처비트 칼럼을 통해 밝힌 내용입니다. 그는 대부분의 '검색 증강 생성(RAG)' 시스템이 복잡한 문서를 이해하지 못하고 조각내 버린다고 지적했습니다. 특히 중공업 분야에서 엔지니어들이 구체적인 질문을 하면 AI는 동문서답하기 일쑤였다고 합니다. 문제는 AI 모델 자체가 아니라 데이터를 처리하는 '전처리 과정'에 있었습니다.

데이터를 난도질하는 ‘청킹’이 문제야

핵심 원인은 바로 '청킹(Chunking)' 방식에 있습니다. 청킹은 방대한 문서를 AI가 읽기 쉽게 작은 조각으로 나누는 과정을 뜻합니다. 보통 500자나 특정 글자 수 단위로 기계적으로 자르는 방식을 사용합니다. 일반적인 글에는 적합할지 몰라도 복잡한 산업 매뉴얼에서는 치명적인 독이 됩니다. 글자 수에 맞춰 자르다 보니 표가 중간에 찢어지거나 이미지와 설명이 분리됩니다. 결국 AI는 정보의 맥락을 잃고 엉뚱한 데이터를 가져오게 되는 것입니다.

의미를 이해해서 똑똑하게 잘라야 해

해결책은 무식하게 글자 수로 자르는 게 아니라 '의미' 단위로 자르는 것입니다. 이를 '의미론적 청킹(Semantic Chunking)'이라고 부릅니다. 싱 리더에 따르면 레이아웃을 인식하는 도구를 써서 장, 절, 문단 같은 문서 구조를 기준으로 데이터를 나눠야 합니다. 이렇게 하면 표나 특정 설명 구간이 하나의 덩어리로 유지되어 정보가 보존됩니다. 실제로 고정 청킹 방식을 의미론적 방식으로 바꿨더니 데이터 검색 정확도가 크게 올랐다고 합니다. 이제야 AI가 문맥을 제대로 짚기 시작한 것입니다.

그림과 도면도 읽어야 진짜 AI지

산업 현장에는 글자보다 중요한 도면, 회로도, 순서도 같은 시각 데이터가 넘쳐납니다. 기존 AI는 이런 이미지를 읽지 못해 '다크 데이터'로 버려두곤 했습니다. 이제는 '멀티모달 텍스트화' 기술이 필수적입니다. 광학문자인식(OCR) 기술과 최신 AI 모델을 활용해 이미지 속 정보를 텍스트 설명으로 변환하는 것입니다. 이렇게 하면 사용자가 질문했을 때 AI가 도면이나 차트의 내용까지 포함해서 정확한 답변을 줄 수 있습니다. 신뢰도를 높이려면 답변과 함께 근거가 되는 이미지 원본을 보여주는 검증 과정도 꼭 필요합니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

산업용 AI, 데이터 전처리가 성패 가른다?

댓글 0