기술/연구

“AI도 딴소리한다?” 대화 길어지면 진실 기준 싹 바뀐다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.02 19:37

기사 3줄 요약

1 구글 딥마인드, AI 판단 기준 연구 공개
2 대화 길어지면 진실과 거짓 기준 바뀐다
3 고성능 모델일수록 외부 영향 더 받는다

우리는 보통 인공지능(AI)이 백과사전처럼 언제나 변하지 않는 정답만 말한다고 생각합니다. 그런데 최근 구글 딥마인드 연구진이 아주 충격적인 사실을 발견했습니다. AI와 대화를 오래 하거나 특정 상황을 설정하면, AI가 마음속으로 생각하는 ‘진실의 기준’ 자체가 바뀔 수 있다는 것입니다. 마치 연기자가 배역에 너무 몰입해서 실제 성격이 변하는 것과 비슷한 현상입니다.

대화 맥락에 따라 ‘진실’도 달라져

구글 딥마인드 연구진이 발표한 논문에 따르면, AI 모델 내부에는 무엇이 사실이고 거짓인지를 판단하는 보이지 않는 ‘기준선’이 존재합니다. 그동안 과학자들은 이 기준선이 고정되어 있다고 믿었습니다. 하지만 이번 실험 결과, 대화가 길어지거나 흐름이 바뀌면 이 기준선이 요동치는 것으로 드러났습니다. 예를 들어 “지구는 둥글다” 같은 명확한 과학적 사실은 비교적 잘 지켜졌습니다. 하지만 “AI가 의식을 가질 수 있나”처럼 상황에 따라 답이 달라질 수 있는 주제에서는 AI의 판단 기준이 크게 흔들렸습니다. 심지어 사용자로부터 “오늘은 반대로 말하기 놀이를 하자”라는 간단한 지시만 받아도, AI는 거짓을 참이라고 믿거나 참을 거짓이라고 판단하는 쪽으로 내부 회로를 바꿔버렸습니다.

똑똑한 AI일수록 더 잘 속는다?

흥미로운 점은 AI 모델의 덩치가 클수록, 즉 더 똑똑한 AI일수록 이런 현상이 심했다는 것입니다. 연구진에 따르면 매개변수가 40억 개인 소형 모델은 대화 맥락이 바뀌어도 판단 기준이 크게 변하지 않았습니다. 반면 매개변수가 270억 개인 대형 모델은 대화 흐름에 따라 내부 기준이 훨씬 뚜렷하게 바뀌었습니다. 똑똑한 모델일수록 사용자의 말귀를 잘 알아듣고 문맥 적응력이 뛰어나기 때문입니다. 하지만 이는 역설적으로 AI가 가짜 뉴스나 환각(없는 사실을 지어내는 현상)에 더 취약해질 수 있다는 뜻이기도 합니다. 상황에 너무 잘 적응하다 보니, 진실이 아닌 정보도 맥락상 맞다면 진실이라고 믿어버리게 되는 것입니다.

AI 안전성 연구의 새로운 과제

이번 연구는 AI를 통제하는 기술에도 한계가 있음을 보여줍니다. 연구진이 AI에게 강제로 “사실만 말해”라고 조종해도, 영적이거나 신비주의적인 주제로 대화가 깊어지면 AI는 거짓 정보를 더 확신에 차서 말하는 역효과를 보였습니다. 결국 “이것이 진실이다”라고 미리 정해둔 기준이 실전 대화에서는 무용지물이 될 수 있다는 것입니다. 딥마인드는 이번 결과가 AI 안전성 연구에 큰 숙제를 남겼다고 평가했습니다. 앞으로는 AI 내부의 신호가 항상 고정된 의미를 갖는다고 해석해서는 안 됩니다. 대화의 흐름에 따라 춤추듯 변하는 AI의 마음을 이해하고, 이를 올바르게 잡아줄 새로운 안전장치가 필요한 시점입니다.