기술/연구

“엉터리 요약에 과학자들 분노” ChatGPT, 논문 요약 낙제점

댓글 1 · 저장 0 · 편집: 이도윤 기자 발행: 2025.09.20 02:46

기사 3줄 요약

1 ChatGPT, 과학 논문 요약 능력 낙제점 판정
2 단순한 글 베끼기는 가능, 맥락 파악과 정확도 떨어져
3 AI 요약본, 인간의 꼼꼼한 팩트체크는 여전히 필수

ChatGPT가 과학자들에게 사실상 F 학점을 받았습니다. 세계적인 과학 학술지 사이언스(Science)를 발행하는 미국과학진흥협회(AAAS)가 1년간의 연구 끝에 내린 결론입니다. 복잡하고 전문적인 과학 논문을 요약하는 데 ChatGPT는 아직 역부족이라는 평가가 나왔습니다.

진짜 AI가 요약한 거 맞아?

AAAS 연구팀은 2023년 12월부터 1년간 매주 2편의 어려운 논문을 선정했습니다. 이후 당시 최신 버전이었던 GPT-4와 GPT-4o 모델을 이용해 요약문을 만들게 했습니다. 총 64개의 AI 요약문을 전문 과학 저널리스트들이 직접 평가했습니다. 그 결과는 처참했습니다. ‘사람이 쓴 기사처럼 자연스러운가’라는 질문에 5점 만점에 평균 2.26점을, ‘내용이 흥미로운가’라는 질문에는 평균 2.14점을 받았습니다.

뭐가 그렇게 문제였는데?

가장 큰 문제는 정확성이었습니다. ChatGPT는 단순함을 위해 정확성을 희생하는 경향을 보였습니다. 두 개념이 단순히 관련 있는 것을, 하나가 다른 하나의 원인인 것처럼 잘못 설명하는 경우가 잦았습니다. 또한 연구의 한계나 중요한 배경 지식을 빼먹어 맥락을 이해하기 어렵게 만들었습니다. 심지어 ‘획기적인’, ‘참신한’ 같은 단어를 남발하며 연구 결과를 과장하기도 했습니다. 연구팀은 ChatGPT가 논문 내용을 그대로 옮겨 적는 ‘베끼기’는 잘하지만, 그 의미와 중요성을 분석해 설명하는 ‘번역하기’에는 약하다고 평가했습니다. 결국 AI가 만든 요약문을 사람이 처음부터 다시 쓰는 것만큼이나 많은 노력이 필요했습니다.

그럼 AI 요약, 믿으면 안 되는 거야?

AAAS는 현재의 ChatGPT가 과학 기사를 작성하는 데 필요한 기준과 스타일을 충족하지 못한다고 최종 결론 내렸습니다. 물론 AI 기술은 빠르게 발전하고 있습니다. 최신 AI 모델들은 이전보다 나은 성능을 보여줄 수 있고, 어떻게 질문하느냐에 따라 더 좋은 답변을 얻을 수도 있습니다. 하지만 이번 연구는 AI가 생성한 정보를 맹신해서는 안 된다는 점을 명확히 보여줍니다. 특히 정확성이 생명인 과학 분야에서는 인간 전문가의 꼼꼼한 검증이 여전히 필수적입니다.