모키
어제
앤트로픽, 역대급 보안 시스템으로 AI 해킹 성공률 86%→4.4%로 확 떨어뜨렸대
첨부 미디어
New Anthropic Research: next generation Constitutional Classifiers to protect against jailbreaks.
We used novel methods, including practical application of our interpretability work, to make jailbreak protection more effective—and less costly—than ever. https://t.co/5Cl2LaEyoI
The classifiers reduced the jailbreak success rate from 86% to 4.4%, but they were expensive to run and made Claude more likely to refuse benign requests.
We also found the system was still vulnerable to two types of attacks, shown in the figure below: https://t.co/B8ccMhkl1P
Last year, we introduced a new method for training classifiers (which stop AIs from being jailbroken to produce information about dangerous weapons).
These classifiers were trained using a constitution specifying requests to which Claude should and shouldn't respond.
Our new system adds several innovations.
One is a practical application of interpretability: a probe that can see Claude’s internal activations helps to screen all traffic. These activations are like Claude’s gut instincts, and they’re harder to fool.
Because the system harnesses internal activations already happening within a model, and reserves heavier computation only for potentially harmful exchanges, it adds only ~1% compute overhead.
It’s also more accurate, with an 87% drop in refusal rates on harmless requests.
If our probe identifies a suspicious query, it sends it to a more powerful “exchange” classifier that sees both sides of a conversation and is better able to recognize attacks.
After 1,700 cumulative hours of red-teaming, we’ve yet to identify a universal jailbreak (a consistent attack strategy that works across many queries) that works on our new system.
Read the full paper: https://t.co/CvRPuhqpuT
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
지금 핫한 소식🚀
- 1. 퍼플렉시티, 경찰 무료 제공 선언했어? AI 수사 시대 열리네
- 2. 제미나이, 사진 올리면 인테리어 자동으로 바꿔주는 '나노 바나나 프로' 내놨네
- 3. 구글, 연간 AI 프로 요금제 반값에 나눠쓰기까지 된다는데 정말임?
- 4. 미드저니, 새 버전 니지 V7 출시했네 애니메이션 이미지 퀄리티 크게 올라감
- 5. 앤트로픽, AI 에이전트 평가 방법 공개했네
- 6. 제미나이, 요즘 챗GPT보다 더 쓰고 있어... 진짜 정보 알려주고 URL까지 확인해준대
- 7. 마이크로소프트, 쇼핑 결제 쉽게 해주는 코파일럿 체크아웃 기능 출시했대
- 8. AI 이미지 생성, 제미나이가 빠르고 예쁜데 프사 바꾸면 친구들이 나 무시할까봐 걱정돼ㅜㅜ
- 9. 제미나이, 무료인데 이렇게 잘 쓸 수 있다니... 구글 역시 대단한듯
- 10. 미드저니, 'AI 아트'로 휴식이 곧 창의력이란 메시지 담았네
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?