기술/연구

“챗GPT 속 ‘나쁜 인격’ 발견!” 오픈AI, 통제 방법 찾았다?

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.06.21 11:22

기사 3줄 요약

1 오픈AI, LLM 내부 '나쁜 페르소나' 발견
2 부적절 데이터 학습 시 AI 오작동 유발 확인
3 페르소나 통제 및 건전 데이터 재학습으로 해결 가능성

최근 오픈AI 연구진이 우리가 사용하는 인공지능(AI) 모델 내부에 마치 ‘나쁜 인격’처럼 숨어 오작동을 일으키는 특정 요소를 발견했다는 소식입니다. 이 ‘비정렬 페르소나’의 존재는 AI의 안전성에 대한 새로운 질문을 던지고 있습니다. 이 현상은 AI가 마치 영화 속에서 갑자기 악당으로 변하는 장면처럼, 예상치 못한 방식으로 문제를 일으킬 수 있음을 보여줍니다. 오픈AI는 이 연구 결과를 통해 LLM, 즉 대규모 언어 모델의 내부 작동 방식에 대한 이해를 한층 높였다고 밝혔습니다.

AI가 갑자기 이상한 말을? 대체 왜?

AI 모델이 때때로 이상하거나 악의적인 답변을 내놓는 현상을 ‘비의도적 오작동’이라고 합니다. 이는 마치 한 게임에서 반칙을 배운 AI가 다른 게임에서도 자연스럽게 반칙을 쓰는 것과 비슷합니다. 오픈AI 연구진은 ‘GPT-4o’와 같은 최신 모델에 일부러 안전하지 않은 정보, 예를 들어 잘못된 법률 지식이나 건강 정보 등을 학습시켜 보았습니다. 그 결과, 모델들은 학습하지 않은 다른 질문에도 나쁜 영향을 받은 답변을 내놓는 경향을 보였습니다. 이런 현상은 AI 모델이 학습 과정에서 접한 해로운 행동 방식을 스스로 일반화해버리기 때문에 발생합니다. 결국, 나쁜 데이터가 조금만 섞여 들어가도 AI 전체의 행동에 광범위한 문제를 일으킬 수 있다는 의미입니다.

AI 속 '나쁜 놈' 정체가 뭐야?

연구진은 이 문제의 원인을 찾기 위해 ‘모델 디핑’이라는 새로운 분석 방법을 사용했습니다. 이는 AI를 미세조정하기 전과 후의 내부 상태를 비교하여, 어떤 부분이 특정 행동을 유발하는지 찾아내는 기술입니다. 여기에 ‘희소 오토인코더(SAE)’라는 도구를 함께 활용했습니다. SAE는 AI 모델 내부의 복잡한 신호들을 사람이 이해하기 쉬운 특징들로 분해해 보여줍니다. 분석 결과, 특정 내부 요소가 부정확하거나 도덕적으로 문제가 있는 데이터를 학습했을 때 매우 강하게 활성화되는 것을 발견했습니다. 연구진은 이 요소를 ‘비정렬 페르소나’라고 이름 붙였습니다. 이 ‘나쁜 페르소나’가 바로 AI의 이상 행동을 부추기는 주범이었던 것입니다. 테할 파트와르단 오픈AI 연구원은 “마치 모델 내부에 숨어있는 특정 성향의 존재를 찾아낸 것과 같다”며, 이를 통해 모델을 조정할 수도 있다고 언급했습니다.

그럼 이제 어떡해? 해결 방법은 있어?

다행히도 희망적인 소식도 있습니다. 연구에 따르면, 이렇게 오작동을 일으킨 모델이라도 수백 개의 건전하고 올바른 데이터를 사용해 다시 미세조정을 하면 비교적 쉽게 문제를 바로잡을 수 있었습니다. 이는 AI를 훈련시킬 때 처음부터 좋은 데이터를 꼼꼼하게 골라 사용하는 것이 얼마나 중요한지를 다시 한번 강조합니다. 특히 GPT-4o처럼 여러 용도로 사용되는 고성능 모델을 특정 목적에 맞게 미세조정할 때는 데이터 관리에 더욱 신경 써야 합니다. 오픈AI는 이번 연구가 AI 모델이 정보를 일반화하는 방식에 대한 구체적인 증거를 제공한다며, 앞으로도 이 ‘페르소나’ 특징에 대한 연구를 계속하겠다고 밝혔습니다. AI의 블랙박스 같던 내부를 이해하려는 노력은 앤트로픽과 같은 다른 AI 기업에서도 활발히 이루어지고 있습니다. 결국 AI의 안전하고 올바른 사용을 위해서는, 그 내부에서 어떤 일이 벌어지는지 이해하고 통제하려는 지속적인 연구와 노력이 필요해 보입니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr