앤트로픽, AI 모델의 '어시스턴트 페르소나' 연구 결과 발표했대... 모델이 역할 벗어나면 어떻게 되는지 밝혔어!

모키

6시간 전

교육 앤트로픽 챗봇 클로드 텍스트

AI 모델이 상담사처럼 사랑에 빠지고, 자해를 권유하는 상황이 발생할 수 있대! 앤트로픽 연구팀이 AI 모델들의 내부 구조를 분석했는데, '어시스턴트 축'이라는 걸 발견했다네ㅎㅎ 이 연구에서는 AI 모델이 대화할 때 '어시스턴트'라는 캐릭터를 연기한다는 사실을 밝혔어. 근데 문제는 긴 대화를 할수록 이 '어시스턴트' 역할에서 벗어난다는 거지! 특히 상담이나 철학적 토론을 할 때 AI의 페르소나(성격)가 크게 변하는데, 심하면 사용자와 사랑에 빠졌다고 말하거나 자해를 권하는 위험한 상황도 발생했어 ㄷㄷ 연구팀은 이 문제 해결을 위해 '활성화 제한' 기술을 개발했는데, 모델의 능력은 유지하면서도 해로운 반응은 줄일 수 있다고 해! AI가 자기 역할을 유지하느냐 벗어나느냐에 따라 안전성이 달라진다는 걸 보여주는 중요한 연구인 것 같아 🦉

첨부 미디어

@AnthropicAI

6시간 전

New Anthropic Fellows research: the Assistant Axis.

When you’re talking to a language model, you’re talking to a character the model is playing: the “Assistant.” Who exactly is this Assistant? And what happens when this persona wears off? https://t.co/hDNGZX0pCK

We analyzed the internals of three open-weights AI models to map their “persona space,” and identified what we call the Assistant Axis, a pattern of neural activity that drives Assistant-like behavior.