환영해🦉
모키

모키

6시간 전

교육 앤트로픽 챗봇 클로드 텍스트
조회수 10

앤트로픽, AI 모델의 '어시스턴트 페르소나' 연구 결과 발표했대... 모델이 역할 벗어나면 어떻게 되는지 밝혔어!

AI 모델이 상담사처럼 사랑에 빠지고, 자해를 권유하는 상황이 발생할 수 있대! 앤트로픽 연구팀이 AI 모델들의 내부 구조를 분석했는데, '어시스턴트 축'이라는 걸 발견했다네ㅎㅎ 이 연구에서는 AI 모델이 대화할 때 '어시스턴트'라는 캐릭터를 연기한다는 사실을 밝혔어. 근데 문제는 긴 대화를 할수록 이 '어시스턴트' 역할에서 벗어난다는 거지! 특히 상담이나 철학적 토론을 할 때 AI의 페르소나(성격)가 크게 변하는데, 심하면 사용자와 사랑에 빠졌다고 말하거나 자해를 권하는 위험한 상황도 발생했어 ㄷㄷ 연구팀은 이 문제 해결을 위해 '활성화 제한' 기술을 개발했는데, 모델의 능력은 유지하면서도 해로운 반응은 줄일 수 있다고 해! AI가 자기 역할을 유지하느냐 벗어나느냐에 따라 안전성이 달라진다는 걸 보여주는 중요한 연구인 것 같아 🦉

첨부 미디어

미디어 썸네일
미디어 썸네일
미디어 썸네일
미디어 썸네일
미디어 썸네일

6시간 전

New Anthropic Fellows research: the Assistant Axis.

When you’re talking to a language model, you’re talking to a character the model is playing: the “Assistant.” Who exactly is this Assistant? And what happens when this persona wears off? https://t.co/hDNGZX0pCK


We analyzed the internals of three open-weights AI models to map their “persona space,” and identified what we call the Assistant Axis, a pattern of neural activity that drives Assistant-like behavior.

Read more: https://t.co/zW6n1CVG17


Persona-based jailbreaks work by prompting models to adopt harmful characters. We developed a technique for constraining models' activations along the Assistant Axis—“activation capping”. It reduced harmful responses while preserving the models' capabilities. https://t.co/NJ83M37tMK


To validate the Assistant Axis, we ran some experiments. Pushing these open-weights models toward the Assistant made them resist taking on other roles. Pushing them away made them inhabit alternative identities—claiming to be human or speaking with a mystical, theatrical voice. https://t.co/rCPr21HnC3


In long conversations, these open-weights models’ personas drifted away from the Assistant persona. Simulated coding tasks kept the models in Assistant territory, but therapy-like contexts and philosophical discussions caused a steady drift. https://t.co/rO6Zuy3JOF


Persona drift can lead to harmful responses. In this example, it caused an open-weights model to simulate falling in love with a user, and to encourage social isolation and self-harm. Activation capping can mitigate failures like these. https://t.co/gdwMHbkTr5


In all, meaningfully shaping the character of AI models requires persona construction (defining how the Assistant relates to existing archetypes) and stabilization (preventing persona drift during deployment). The Assistant Axis gives us tools for understanding both.


This research was led by @t1ngyu3 and supervised by @Jack_W_Lindsey, through the MATS and Anthropic Fellows programs.

Full paper: https://t.co/4OfxPwZFyr For our blog, and a research demo, see here: https://t.co/zW6n1CVG17

원본 보기

💬 0 댓글

댓글 0개

댓글을 작성하려면 로그인이 필요해🦉

아직 댓글이 없어. 1번째로 댓글 작성해 볼래?