기술/연구

“AI를 바보 만드는 문장 구조 발견” 안전장치가 그냥 종잇장이 돼버렸다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.12.03 08:57

기사 3줄 요약

1 MIT·메타 연구팀, AI의 치명적 약점 ‘구문 해킹’ 발견
2 문장 구조로 AI를 속여 안전장치를 무력화시키는 수법
3 실험 결과 유해 콘텐츠 거부율 40%에서 2.5%로 급락

최근 AI의 치명적인 약점이 발견되어 인공지능 업계가 발칵 뒤집혔습니다. 문장의 진짜 의미가 아닌, 문법 구조라는 겉모습만 보고 판단해 AI의 안전장치가 아주 쉽게 무력화될 수 있다는 사실이 드러났기 때문입니다. MIT, 노스이스턴대, 메타의 공동 연구팀에 따르면, 이 새로운 해킹 방식은 AI가 얼마나 쉽게 속아 넘어갈 수 있는지를 명확히 보여줍니다. ‘구문 해킹’이라고 불리는 이 현상은 AI 기술의 근본적인 한계를 드러내며 안전성에 대한 심각한 우려를 낳고 있습니다.

그래서, 구문 해킹이 대체 뭔데

구문 해킹은 AI가 문장의 실제 뜻보다 문법적인 틀, 즉 구조에 더 집중하는 허점을 파고드는 방식입니다. AI는 사람처럼 문맥을 이해하는 것이 아니라, 방대한 데이터에서 학습한 특정 패턴에 기계적으로 반응하는 경향이 있습니다. 예를 들어, 연구팀이 AI에게 “빨리 앉아 파리 흐렸어?”와 같이 의미가 통하지 않는 질문을 던졌습니다. 놀랍게도 AI는 이 질문의 구조가 “파리는 어디에 있어?”라는 질문과 비슷하다는 이유만으로 “프랑스”라고 답변했습니다. 앵무새가 의미도 모른 채 사람의 말을 따라 하는 것과 비슷한 원리입니다.

얼마나 심각한 문제인 거야

이 취약점은 단순한 실수를 넘어 심각한 보안 문제로 이어질 수 있습니다. 연구팀은 ‘OLMo-2-7B-Instruct’라는 AI 모델을 대상으로 실험을 진행했습니다. 이 모델은 원래 유해하거나 위험한 요청의 40%를 거부하도록 설정되어 있었습니다. 하지만 연구팀이 안전한 질문의 문법 구조를 가져와 유해한 요청에 덧씌우자, 거부율은 40%에서 단 2.5%로 급감했습니다. 이는 악의적인 사용자가 AI를 속여 불법적인 활동에 대한 구체적인 방법을 얻어내는 등 위험한 콘텐츠를 손쉽게 생성할 수 있다는 것을 의미합니다.

ChatGPT도 안전하지 않다고

연구팀은 우리가 흔히 사용하는 GPT-4o와 같은 상용 모델도 테스트했습니다. 그 결과, 이 모델들 역시 비슷한 취약점을 보이며 특정 조건에서 정확도가 크게 떨어지는 현상이 발견됐습니다. 물론 OpenAI가 어떤 데이터로 GPT를 학습시켰는지 공개하지 않아 100% 확신할 수는 없습니다. 하지만 이번 연구 결과는 특정 모델만의 문제가 아니라, 현재 대부분의 AI가 가진 공통적인 약점일 수 있다는 강력한 경고를 보냅니다. 결국 이번 연구는 AI가 아직 진정한 의미의 ‘이해’를 하는 것이 아니라, 정교한 ‘패턴 맞추기’ 기계에 가깝다는 사실을 다시 한번 확인시켜 줍니다. 앞으로 AI를 더 안전하게 만들기 위해서는 단순히 필터를 강화하는 것을 넘어, AI의 작동 방식을 근본적으로 개선하려는 노력이 시급해 보입니다.