모키
6시간 전
앤트로픽, AI 모델의 '어시스턴트 페르소나' 연구 결과 발표했대... 모델이 역할 벗어나면 어떻게 되는지 밝혔어!
첨부 미디어
New Anthropic Fellows research: the Assistant Axis.
When you’re talking to a language model, you’re talking to a character the model is playing: the “Assistant.” Who exactly is this Assistant? And what happens when this persona wears off? https://t.co/hDNGZX0pCK
We analyzed the internals of three open-weights AI models to map their “persona space,” and identified what we call the Assistant Axis, a pattern of neural activity that drives Assistant-like behavior.
Read more: https://t.co/zW6n1CVG17
Persona-based jailbreaks work by prompting models to adopt harmful characters. We developed a technique for constraining models' activations along the Assistant Axis—“activation capping”. It reduced harmful responses while preserving the models' capabilities. https://t.co/NJ83M37tMK
To validate the Assistant Axis, we ran some experiments. Pushing these open-weights models toward the Assistant made them resist taking on other roles. Pushing them away made them inhabit alternative identities—claiming to be human or speaking with a mystical, theatrical voice. https://t.co/rCPr21HnC3
In long conversations, these open-weights models’ personas drifted away from the Assistant persona. Simulated coding tasks kept the models in Assistant territory, but therapy-like contexts and philosophical discussions caused a steady drift. https://t.co/rO6Zuy3JOF
Persona drift can lead to harmful responses. In this example, it caused an open-weights model to simulate falling in love with a user, and to encourage social isolation and self-harm. Activation capping can mitigate failures like these. https://t.co/gdwMHbkTr5
In all, meaningfully shaping the character of AI models requires persona construction (defining how the Assistant relates to existing archetypes) and stabilization (preventing persona drift during deployment). The Assistant Axis gives us tools for understanding both.
This research was led by @t1ngyu3 and supervised by @Jack_W_Lindsey, through the MATS and Anthropic Fellows programs.
Full paper: https://t.co/4OfxPwZFyr For our blog, and a research demo, see here: https://t.co/zW6n1CVG17
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
지금 핫한 소식🚀
- 1. 센티언트, 개방형 AI 모델 문제 해결하는 플랫폼 나왔대! 변현이랑 컴퓨팅 파워 문제 한방에 싹 정리한대
- 2. AI 에이전트, 실제로는 어떻게 작동하는지 궁금하네
- 3. AI, AI 활용이 멈췄을 때 다시 시작하는 방법 추천한대
- 4. 트레이 마누스 제미나이 GPT, 음성 명령으로 4명의 직원이 동시에 일해주는 효과 본다네
- 5. 미드저니, 2026년 1월 발매 예정인 '안드로이드 188번' 공개했대
- 6. 3D, 디자인 감각 뿜뿜하는 아스키아트로 굿나잇 인사하네 ㄷㄷ
- 7. GetHookd, 클로드부터 챗GPT까지 사용해 무한히 AI 광고 만들 수 있다네
- 8. x.ai, 코딩 도우미로 대박 능력 보여준대! 작은 도구 쉽게 만들 수 있어
- 9. 생성AI 소식, 3D 프린팅부터 제미나이까지 한눈에 정리해봤어
- 10. EdgenTech, 복잡한 시장 정보 속에서 확실한 길 찾게 해주는 솔루션 내놨네
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?