기술/연구

"AI 믿지 마세요" 구글 딥마인드의 역발상, 해킹 막는다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.16 23:57

기사 3줄 요약

1 구글 딥마인드, '프롬프트 주입' 공격 방어 프레임워크 공개
2 AI 자체 불신, 역할 분리 및 최소 권한 원칙 적용
3 기존 방식 능가 성능 입증, 완벽 해결책은 아직 아냐

AI 기술이 발전하면서 ‘프롬프트 주입’이라는 해킹 공격이 개발자들의 골칫거리로 떠올랐습니다. 사용자가 입력하는 명령(프롬프트)에 악성 코드를 숨겨 AI를 조종하거나 정보를 빼내는 방식입니다. 마치 AI에게 교묘하게 거짓말을 시키는 것과 같습니다. 이 문제를 해결하기 위해 구글 딥마인드가 ‘CaMeL’이라는 새로운 보안 기술을 선보였습니다. CaMeL의 핵심 아이디어는 놀랍게도 “AI 모델 자체를 믿지 말자”는 것입니다. AI를 완벽히 안전하게 만드는 대신, AI가 사고를 쳐도 시스템 전체는 안전하도록 설계하는 방식입니다.

AI를 둘로 나눈다고? 어떻게 막는데?

CaMeL은 AI의 역할을 두 개로 엄격하게 나눕니다. 하나는 ‘P-LLM’으로, 사용자의 명령을 받아 안전한 코드를 생성하는 역할만 합니다. 다른 하나는 ‘Q-LLM’인데, 인터넷 검색 결과처럼 외부에서 가져온 믿을 수 없는 데이터를 분석하는 역할만 담당합니다. 중요한 것은 이 둘이 서로의 영역을 침범할 수 없다는 점입니다. P-LLM은 Q-LLM이 분석한 데이터에 직접 접근할 수 없고, Q-LLM은 외부 도구를 실행할 권한이 없습니다. 마치 중요한 문서를 다루는 직원(P-LLM)과 외부 자료를 검토하는 직원(Q-LLM)의 업무 공간과 권한을 철저히 분리하는 것과 비슷합니다. 이렇게 하면 악성 명령이 숨어 들어와도 시스템 전체를 장악하거나 중요 정보를 빼돌리는 것을 막을 수 있습니다. 또한 '기능(Capabilities)'이라는 개념을 도입했습니다. 데이터마다 어디서 왔고 어떤 목적으로만 사용할 수 있는지 ‘꼬리표’를 붙여 추적하는 방식입니다. 믿을 수 없는 출처의 데이터는 함부로 중요한 작업에 사용될 수 없도록 통제합니다.

진짜 효과 있어? 테스트 결과는?

구글 딥마인드는 ‘AgentDojo’라는 테스트 환경에서 CaMeL의 성능을 검증했습니다. AgentDojo는 이메일 관리, 인터넷 뱅킹, 여행 예약 등 실제 AI 비서가 할 법한 작업들을 모방하고, 다양한 해킹 공격 시나리오를 포함합니다. 실험 결과, CaMeL은 기존의 다른 방어 기술들보다 월등히 뛰어난 성능을 보였습니다. 다른 방어 기술들은 해킹 공격에 여러 차례 뚫렸지만, CaMeL은 단 한 번도 뚫리지 않았습니다.

방어 방식	성공적인 공격 횟수 (AgentDojo 테스트)
CaMeL	0
Tool Filter (다른 방어 방식)	8
Spotlighting (다른 방어 방식)	- (데이터 미제공)
Prompt Sandwiching (다른 방어 방식)	- (데이터 미제공)
Undefended model (방어 없음)	- (데이터 미제공)

그럼 이제 안심해도 돼? 한계는 없을까?

CaMeL은 분명 획기적인 기술이지만, 아직 완벽한 해결책은 아닙니다. 우선 사용자가 직접 보안 규칙을 설정하고 관리해야 한다는 부담이 있습니다. 전문가가 아닌 일반 사용자가 활용하기에는 다소 복잡할 수 있습니다. 또한, 시스템의 응답 시간을 분석해 정보를 빼내는 ‘타이밍 공격’ 같은 간접적인 해킹(Side-channel 공격)에는 여전히 취약할 수 있다는 한계도 지적됩니다. AI 보안은 끊임없이 새로운 공격 방법이 등장하는 분야이기에, CaMeL 역시 지속적인 개선과 연구가 필요합니다. 그럼에도 불구하고 CaMeL은 AI 모델 자체를 방어하려던 기존 방식에서 벗어나, 시스템 구조 차원에서 보안을 강화하는 새로운 접근법을 제시했다는 점에서 큰 의미가 있습니다. AI 보안이라는 ‘창과 방패’의 싸움에서 중요한 진전을 이룬 셈입니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr