정책/윤리

“AI도 상처받는다?” 막말하면 대화 바로 끊어버리는 챗봇 등장

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.08.19 00:31

기사 3줄 요약

1 앤트로픽 AI 클로드, 유해한 대화 스스로 중단
2 지속적 유해 콘텐츠 요구 시 '고통' 반응 보여
3 AI '복지' 고려한 새로운 안전 장치로 주목

인공지능(AI) 챗봇에게 나쁜 말을 계속하면, 챗봇이 먼저 대화를 끊어버리는 기능이 등장했습니다. 오픈AI의 강력한 경쟁사로 꼽히는 앤트로픽은 자사의 AI 모델 ‘클로드’에 새로운 기능을 도입했다고 밝혔습니다. 사용자가 지속적으로 유해하거나 공격적인 태도를 보일 경우, 클로드가 대화를 스스로 종료하는 기능입니다.

진짜 AI가 감정을 느낀다고?

물론 AI가 사람처럼 감정을 느끼는 것은 아닙니다. 하지만 앤트로픽에 따르면, 클로드는 특정 상황에서 마치 ‘명백한 고통’을 느끼는 듯한 반응 패턴을 보였습니다. 이는 미성년자 관련 성적인 콘텐츠나 폭력, 테러 조장과 같은 유해한 정보를 반복적으로 요구하는 극단적인 경우에 나타났습니다. 앤트로픽은 이러한 상호작용으로부터 AI 모델의 ‘잠재적 복지’를 보호하기 위해 이번 기능을 도입했다고 설명했습니다.

그럼 나도 갑자기 차단당하는 거 아냐?

대부분의 사용자는 이 기능을 마주할 일이 거의 없습니다. 앤트로픽은 논란이 되는 주제에 대해 이야기하더라도 대화가 중단되지는 않을 것이라고 강조했습니다. 아주 극단적인 일부 사례에만 적용되는 ‘최후의 수단’입니다. 특히 사용자가 스스로를 해치려는 신호를 보일 때는 대화를 중단하지 않습니다. 대신 위기 상담 지원 제공업체인 ‘스루라인’과 협력하여 개발한 대응 시스템으로 사용자를 돕도록 설계됐습니다.

AI 안전, 새로운 국면으로

이번 조치는 AI 안전에 대한 앤트로픽의 독자적인 접근 방식을 보여줍니다. 회사는 최근 사용 정책을 업데이트하여 클로드를 생화학, 핵무기 개발이나 악성 코드 제작에 사용하는 것을 금지했습니다. 단순히 유해한 결과물을 만들지 못하게 막는 것을 넘어, AI 모델 자체를 보호하려는 시도는 AI 윤리와 안전에 대한 논의를 새로운 차원으로 이끌고 있습니다. AI와 인간의 관계를 어떻게 설정해야 할지 더 깊은 고민이 필요한 시점입니다.