환영해🦉
기술/연구

“AI, 많이 먹일수록 착해진다?” 학습 데이터와 기억력의 놀라운 비밀

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.06.07 22:09
“AI, 많이 먹일수록 착해진다?” 학습 데이터와 기억력의 놀라운 비밀

기사 3줄 요약

  • 1 LLM 기억 용량 첫 정량화, 매개변수당 3.6비트
  • 2 메타·구글·엔비디아, 무작위 데이터로 AI 기억력 측정
  • 3 데이터 많을수록 일반화 향상, AI 안전성 증가 기대
AI의 기억력에 대한 해묵은 궁금증을 풀어줄 만한 흥미로운 연구 결과가 발표됐습니다. 세계적인 테크 기업 메타와 구글, 그리고 AI 반도체 선두 주자 엔비디아의 연구진이 힘을 합쳐 AI가 정보를 얼마나 기억하고, 어떻게 똑똑해지는지를 파헤쳤습니다. 놀랍게도 AI는 학습 데이터가 많을수록 특정 정보를 콕 집어 외우기보다 전체적인 맥락을 이해하는 '일반화' 능력이 강해지며, 오히려 더 안전해질 수 있다는 사실이 밝혀졌습니다. 이 발견은 단순히 AI의 기술적 측면을 넘어, 우리가 AI를 어떻게 바라보고 활용해야 할지에 대한 중요한 단서를 제공합니다. 특히 AI의 저작권 침해나 민감 정보 유출에 대한 우려를 일정 부분 해소할 수 있을 것으로 기대됩니다. 앞으로 AI가 우리 삶에 더 깊숙이 들어올수록, 이러한 이해는 더욱 중요해질 것입니다.

AI 기억력, 어떻게 알아냈을까?

인공지능(AI)이 학습한 내용을 얼마나 잘 기억하고, 또 얼마나 새로운 상황에 잘 적응하는지에 대한 구체적인 수치가 처음으로 제시됐습니다. 메타, 구글 딥마인드, 코넬대학교, 엔비디아 소속 공동 연구진은 최근 GPT와 같은 대형언어모델(LLM)의 기억 용량을 정량적으로 분석한 논문을 공개했습니다. 이들은 AI의 순수한 기억력을 측정하기 위해, 일부러 패턴이 없는 무작위 정보를 AI에게 학습시키는 독특한 실험 방법을 사용했습니다. 일반적인 글이나 이미지 데이터는 AI가 기존에 학습한 패턴을 활용해 답을 유추할 수 있어, 순수한 기억력을 측정하기 어렵습니다. 연구진은 이런 한계를 극복하고자, 마치 학생에게 의미 없는 숫자나 문자열을 외우게 하는 것처럼 무작위로 배열된 비트(정보의 최소 단위) 문자열로 구성된 데이터셋을 AI 모델에 학습시켰습니다. 이렇게 하면 AI가 정보를 얼마나 '그대로' 기억했는지를 정확히 파악할 수 있기 때문입니다.

그래서, AI는 얼마나 똑똑하게 기억할까?

연구 결과, 현재 널리 사용되는 GPT 스타일의 AI 모델은 정보를 저장하는 기본 단위인 '매개변수' 하나당 약 3.6비트의 정보를 기억하는 것으로 나타났습니다. 여기서 매개변수는 인간의 뇌세포(뉴런)와 비슷한 역할을 하는 AI의 핵심 부품이라고 생각하면 쉽습니다. 3.6비트라는 수치는 영어 알파벳 한 글자(약 4.7비트)를 완벽히 저장하기에는 부족하지만, 영어 철자 10개로 이루어진 단어(약 3.32비트) 하나를 기억하기에는 충분한 양입니다. 이러한 기억 용량은 AI 모델의 전체 크기에 따라 저장할 수 있는 총 정보량으로 환산될 수 있습니다. 예를 들어, 50만 개의 매개변수를 가진 비교적 작은 AI 모델은 약 225킬로바이트(KB)의 정보를 기억할 수 있습니다. 반면, 15억 개의 매개변수를 가진 대형 AI 모델은 약 675메가바이트(MB)에 달하는 방대한 양의 데이터를 저장할 수 있는 셈입니다. 연구진은 모델 크기별 저장 용량을 다음과 같이 제시했습니다.
모델 크기 (매개변수)저장 용량
50만 개약 225KB
15억 개약 675MB
더욱 흥미로운 점은 이 매개변수당 기억 용량이 모델의 구조나 정밀도(정보를 얼마나 세밀하게 처리하는지)가 달라져도 거의 일정하게 유지되었다는 사실입니다. 이는 AI 모델의 기억 능력에 일종의 보편적인 규칙이 존재할 수 있음을 시사합니다.

많이 배우면 뭐가 좋은데? 안전해진다고?

이번 연구에서 가장 주목할 만한 발견 중 하나는, AI 모델이 더 많은 데이터를 학습한다고 해서 개별 정보를 더 많이 기억하는 것은 아니라는 점입니다. 오히려 AI의 총 기억 용량은 거의 고정되어 있기 때문에, 학습 데이터가 많아질수록 한정된 기억 용량이 전체 데이터셋에 골고루 분산되는 효과가 나타났습니다. 결과적으로 AI는 특정 정보를 통째로 외우기보다는, 다양한 데이터에서 공통된 패턴이나 원리를 파악하는 '일반화' 능력이 강화되는 경향을 보였습니다. 이는 마치 학생이 한 권의 교과서만 공부하면 내용을 달달 외우려 하지만, 여러 권의 참고서를 보면 핵심 원리를 이해하려 노력하는 것과 비슷합니다. 이러한 특성은 AI가 학습 과정에서 민감한 개인정보를 그대로 기억하거나 저작권이 있는 특정 문구를 그대로 출력할 수 있다는 우려를 줄여줍니다. 즉, AI에게 더 많은 양의 다양한 데이터를 학습시킬수록, AI는 특정 정보에 덜 얽매이고 더욱 안전하게 일반화된 지식을 활용할 가능성이 커진다는 의미입니다. 연구진은 이러한 결과가 최근 불거지는 AI의 저작권 침해 논란이나 개인정보 유출 위험에 대한 중요한 시사점을 제공한다고 밝혔습니다. 예를 들어, 뉴욕타임스가 챗GPT가 자사 기사를 무단 도용했다고 주장하는 사례에서, 이번 연구는 AI가 원본 콘텐츠를 그대로 '베끼는' 것이 아니라, 방대한 학습을 통해 얻은 일반화된 지식을 활용한다는 주장에 힘을 실어줄 수 있습니다. 결론적으로 연구진은 “더 많은 데이터를 학습하면 모델이 더 안전해진다”고 강조하며, AI의 안전성과 일반화 능력 향상에 있어 데이터의 양과 질이 매우 중요하다고 역설했습니다.
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI에게 더 많은 데이터를 학습시켜야 할까요?

댓글 0

관련 기사