환영해🦉
기술/연구

"AI가 갑자기 멍청해졌다?" 뇌 썩게 만드는 쓰레기 데이터의 비밀

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.10.24 07:57
"AI가 갑자기 멍청해졌다?" 뇌 썩게 만드는 쓰레기 데이터의 비밀

기사 3줄 요약

  • 1 AI에 저품질 '쓰레기 데이터'를 학습시키면 성능이 저하되는 현상 발견
  • 2 미국 대학 연구팀, 이를 'LLM 뇌 부패'라 명명하고 영구 손상 가능성 경고
  • 3 일부 저품질 데이터 혼합이 특정 능력 향상시키는 의외의 결과도 나와
사람이 자극적이고 의미 없는 인터넷 콘텐츠를 계속 보면 머리가 나빠지는 듯한 느낌을 받곤 합니다. 최근 인공지능(AI)에게도 비슷한 현상이 나타날 수 있다는 충격적인 연구 결과가 나왔습니다. 텍사스 A&M, 텍사스대학교, 퍼듀대학교 공동 연구팀은 저품질의 ‘쓰레기 데이터(Junk Data)’로 AI를 계속 학습시키면 인지 능력이 떨어지는 ‘LLM 뇌 부패’ 현상이 일어난다고 밝혔습니다.

쓰레기 데이터가 대체 뭔데?

연구팀은 사람들이 인터넷에 빠져드는 것처럼, AI의 뇌를 썩게 만드는 데이터가 무엇인지 정의했습니다. 대표적인 예시는 짧으면서도 좋아요, 리트윗 등 반응이 폭발적인 트윗입니다. 또한 음모론이나 과장된 주장, 근거 없는 이야기처럼 피상적인 주제를 다루는 콘텐츠도 쓰레기 데이터로 분류했습니다. 한 마디로, AI가 깊이 있는 지식을 배우기보다 사람들의 관심을 끄는 법만 흉내 내게 만드는 데이터인 셈입니다.

AI의 뇌, 한번 썩으면 회복 불가능?

연구팀은 여러 AI 모델에 쓰레기 데이터의 비율을 다르게 섞어 학습시킨 후 성능을 테스트했습니다. 그 결과, 쓰레기 데이터의 비율이 높을수록 AI의 추론 능력과 긴 글의 맥락을 이해하는 능력이 눈에 띄게 저하됐습니다. 더 무서운 사실은 이 손상이 영구적인 ‘인지적 흉터’로 남을 수 있다는 점입니다. 문제가 생긴 AI에게 다시 깨끗한 데이터를 대량으로 학습시켜도, 저하된 성능은 완전히 회복되지 않았습니다. 한번 나빠진 뇌가 쉽게 돌아오지 않는 것과 비슷합니다.

그런데 이상한 반전이 있다고?

그런데 실험 도중 흥미로운 역설이 발견됐습니다. 일부 항목에서는 쓰레기 데이터와 정상 데이터를 50대 50으로 섞어 학습시킨 AI가 100% 정상 데이터로만 학습한 AI보다 더 좋은 점수를 받았습니다. 이는 마치 온실 속 화초처럼 너무 깨끗한 환경에서만 자란 AI보다, 현실 세계의 지저분하고 다양한 데이터를 접해본 AI가 특정 상황에 더 잘 대처할 수 있음을 보여줍니다. 약간의 ‘나쁜 데이터’가 오히려 AI에게 일종의 예방주사 역할을 할 수도 있다는 의미입니다.

결국 중요한 건 데이터의 ‘질’

이번 연구는 AI 개발에 있어 데이터의 양만큼이나 ‘질’과 ‘다양성’이 중요함을 경고합니다. 무분별하게 인터넷 데이터를 긁어모아 AI를 학습시키는 현재 방식이 결국 똑똑한 척하지만 실속은 없는 AI를 만들 수 있다는 것입니다. 결국 AI의 미래는 우리가 어떤 데이터를 먹이로 주는지에 달려있습니다. 개발자들은 이제 데이터의 순수성과 현실 세계의 다양성 사이에서 어떻게 균형을 맞출 것인지 깊이 고민해야 할 시점에 이르렀습니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

쓰레기 데이터로 학습한 AI, 사용해도 될까?

댓글 0

관련 기사

부키가 물어다 주는 뉴스레터🦉

미리보기

구독하면 이메일로 AI 소식과 팁들을 보내줄게!

초보자 가이드
사용자 피드백