기술/연구

“AI가 내 대화 훔쳐본다?” 구글이 공개한 ‘기억 못 하는 AI’ 정체

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.09.16 07:42

기사 3줄 요약

1 구글, 개인정보 보호하는 ‘기억 못 하는 AI’ 볼트제마 공개
2 학습 데이터에 일부러 ‘노이즈’ 섞어 민감 정보 유출 방지
3 AI의 개인정보 침해 우려 속 새로운 기술적 해법 제시

거대 AI 모델을 만들려는 기업들은 고품질 학습 데이터 부족 문제에 직면했습니다. 이 과정에서 사용자들의 민감한 개인정보까지 학습에 사용될 위험이 커지고 있습니다. 이런 가운데 구글 리서치팀이 AI가 특정 내용을 ‘기억’하지 못하게 만드는 새로운 기술을 적용한 모델을 공개했습니다. 바로 ‘볼트제마(VaultGemma)’입니다.

그래서, 어떻게 기억을 못 한다는 거지?

AI는 가끔 학습했던 데이터를 그대로 뱉어낼 때가 있습니다. 만약 여기에 개인정보나 저작권이 있는 내용이 포함되면 심각한 문제가 생길 수 있습니다. 볼트제마는 ‘차등 개인정보보호(Differential Privacy)’라는 기술을 사용합니다. 학습 과정에서 일부러 약간의 ‘노이즈’ 즉, 무작위 데이터를 섞는 방식입니다. 이렇게 하면 AI는 전반적인 패턴은 배우되, 특정 개인의 정보 같은 세세한 내용은 기억하지 못하게 됩니다. 물론 단점도 있습니다. AI의 정확도가 약간 떨어지고, 학습에 더 많은 컴퓨터 자원이 필요합니다. 구글 연구팀은 이 단점을 최소화하면서 개인정보는 최대한 보호할 수 있는 최적의 균형점을 찾아냈다고 밝혔습니다.

볼트제마, 성능은 괜찮을까?

볼트제마는 구글의 이전 세대 모델인 ‘젬마 2’를 기반으로 만들어졌습니다. 10억 개라는, 비교적 작은 규모의 매개변수(파라미터)를 가지고 있습니다. 구글 리서치에 따르면, 볼트제마는 개인정보 보호 기능이 없는 비슷한 크기의 다른 AI 모델과 비슷한 수준의 성능을 보여줬습니다. 프라이버시를 지키면서도 성능 저하를 최소화한 셈입니다. 연구팀은 이번 연구 결과가 다른 개발자들이 개인정보를 보호하는 AI 모델을 효율적으로 만드는 데 도움이 되기를 기대하고 있습니다. 볼트제마 모델은 현재 허깅페이스와 캐글 같은 플랫폼에서 내려받아 사용할 수 있습니다.

그럼 이제 모든 AI가 안전해지는 걸까?

아직은 실험적인 단계입니다. 이 기술은 최고의 성능이 중요한 초거대 AI보다는, 특정 기능에 맞춰진 소규모 AI 모델에 더 적합합니다. 하지만 이번 볼트제마 공개는 AI 기술에 개인정보 보호 기능을 어떻게 접목할 수 있는지 보여주는 중요한 첫걸음입니다. 앞으로 구글이 내놓을 AI 서비스들이 더욱 안전해질 수 있다는 신호탄으로 볼 수 있습니다.