환영해🦉
기술/연구

“데이터 퍼먹이면 AI가 순해진다고?” 빅테크, AI 기억 용량의 비밀 폭로!

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.06.08 06:10
“데이터 퍼먹이면 AI가 순해진다고?” 빅테크, AI 기억 용량의 비밀 폭로!

기사 3줄 요약

  • 1 메타·구글·엔비디아, LLM 기억 용량 첫 규명
  • 2 매개변수당 3.6비트 기억, 데이터 늘면 일반화↑
  • 3 AI 저작권·개인정보 우려 해소에 도움 줄 듯
인공지능(AI)이 우리가 주는 모든 정보를 그대로 기억할 것이라는 생각, 이제는 잠시 접어둬야 할 것 같습니다. 최근 메타, 구글 딥마인드, 엔비디아 등 세계적인 빅테크 기업 연구진이 대형언어모델(LLM)의 기억력에 대한 흥미로운 사실을 밝혀냈습니다. 이들의 연구에 따르면, LLM은 매개변수, 즉 AI의 뇌세포와 비슷한 역할을 하는 요소 하나당 약 3.6비트라는 정해진 양만 기억하며, 오히려 학습 데이터가 많아질수록 특정 내용을 통째로 외우기보다 전반적인 패턴을 이해하는 '일반화' 능력이 강해진다고 합니다. 이는 AI가 정보를 무작위로 쌓아두는 것이 아니라, 제한된 기억 공간을 여러 데이터에 나눠 효율적으로 활용한다는 의미입니다.

AI는 대체 얼마나 기억하는 걸까?

연구진은 AI가 얼마나 많은 정보를 기억하는지 알아보기 위해 아주 특별한 실험을 진행했습니다. 컴퓨터가 이해할 수 있는 가장 기본적인 정보 단위인 '비트'로 이루어진 무작위 데이터를 AI에게 학습시킨 것입니다. 그 결과, GPT와 같은 최신 AI 모델들은 매개변수 하나당 약 3.6비트의 정보를 기억한다는 사실을 발견했습니다. 이는 우리가 쓰는 컴퓨터가 정보를 처리하는 정밀도(32비트 부동소수점)를 높여 학습시키면 최대 3.83비트까지 늘어날 수 있었습니다. 3.6비트라는 용량은 영어 알파벳 한 글자(약 4.7비트)를 완벽히 저장하기에는 조금 부족하지만, 영어 철자 10개로 이루어진 단어 하나를 기억하기에는(약 3.32비트) 충분한 수준입니다. 예를 들어, 매개변수가 50만 개인 작은 모델은 약 225킬로바이트(KB)의 정보를, 15억 개의 매개변수를 가진 대형 모델은 약 675메가바이트(MB)에 달하는 데이터를 저장할 수 있다는 계산이 나옵니다. 놀랍게도 이 기억 용량 비율은 AI 모델의 구조가 복잡해지거나, 정보를 처리하는 정밀도가 달라져도 거의 일정하게 유지되었습니다.

데이터 많이 먹이면 기억력도 좋아질까? 반전!

그렇다면 AI에게 더 많은 데이터를 학습시키면 더 많은 내용을 기억하게 될까요? 연구 결과는 뜻밖이었습니다. AI의 총 기억 용량은 정해져 있기 때문에, 학습하는 데이터의 양이 늘어난다고 해서 기억하는 정보의 총량이 마법처럼 늘어나지는 않았습니다. 오히려 학습 데이터가 많아질수록 AI는 개별 정보를 세세하게 기억하기보다는, 전체 데이터에 기억 용량을 나눠 쓰면서 각각의 정보는 조금씩 덜 기억하는 경향을 보였습니다. 이는 마치 시험공부를 할 때, 교과서 내용이 적으면 구석구석 다 외울 수 있지만, 참고서까지 봐야 할 양이 많아지면 중요한 핵심 위주로 이해하고 넘어가는 것과 비슷합니다. AI도 데이터 양이 늘어날수록 특정 정보를 그대로 따라 하거나 반복할 가능성은 낮아지고, 대신 여러 정보에서 공통된 패턴을 배우고 이를 바탕으로 새로운 상황에 응용하는 '일반화' 능력이 더 강해지는 것입니다. 연구진은 이 과정에서 AI의 성능이 잠시 주춤했다가 다시 좋아지는 '이중 하강' 현상도 확인했습니다. 데이터가 적을 때는 잘 외우지만, 많아지면 다양한 패턴을 배우려다 잠깐 혼란을 겪다가 결국 더 똑똑해지는 모습입니다.

그래서 이게 왜 중요한 건데? 저작권 걱정 끝?

이러한 발견은 AI의 저작권 침해나 개인정보 유출 문제에 중요한 실마리를 제공합니다. AI가 학습 데이터에 있는 민감한 정보를 그대로 기억하거나, 저작권이 있는 글이나 이미지를 통째로 뱉어낼 수 있다는 걱정을 조금 덜 수 있게 된 것입니다. 학습 데이터가 방대할수록 AI는 특정 내용을 그대로 기억하기보다 안전하게 일반화할 가능성이 커지기 때문입니다. 또한, AI가 특정 데이터를 학습했는지 몰래 알아내려는 '멤버십 추론 공격'의 정확도도 데이터가 많을수록 낮아져, 개인정보 보호에도 도움이 될 수 있습니다.
주요 내용 세부 사항
LLM 기억 용량 매개변수당 약 3.6비트
데이터셋 크기 학습 데이터 증가 시 개별 데이터 기억 감소
일반화 능력 학습 데이터 증가 시 일반화 능력 향상
저작권 침해 대규모 데이터셋 학습 시 특정 정보 기억 가능성 감소
개인 정보 보호 멤버십 추론 공격 가능성 감소
법적 영향 AI 기업과 콘텐츠 제작자 간 소송에서 중요한 근거
물론 아주 독특한 문체나 희귀한 표현 등은 AI가 더 쉽게 기억할 수도 있다는 예외적인 경우도 지적되었습니다. 하지만 이번 연구는 AI의 전반적인 기억 방식을 숫자로 보여준 첫 시도 중 하나로 평가받습니다. 특히 최근 뉴욕타임스와 오픈AI처럼 AI 기업과 콘텐츠 제작자 사이에 벌어지는 저작권 소송에서, AI가 원본을 그대로 베꼈다는 주장에 대해 새로운 관점을 제시할 수 있습니다. 연구진은 "결론적으로 더 많은 데이터를 학습하면 모델이 더 안전해진다"고 강조하며, 데이터가 많을수록 AI는 개별 정보를 덜 기억하고 더 일반화된 방식으로 작동한다고 밝혔습니다. 이는 앞으로 AI 기술의 안전성과 신뢰성을 높이는 데 중요한 기여를 할 것으로 보입니다.
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI에게 더 많은 데이터가 필요할까?

댓글 0

관련 기사