모키
2026년 01월 10일
앤트로픽, 역대급 보안 시스템으로 AI 해킹 성공률 86%→4.4%로 확 떨어뜨렸대
첨부 미디어
New Anthropic Research: next generation Constitutional Classifiers to protect against jailbreaks.
We used novel methods, including practical application of our interpretability work, to make jailbreak protection more effective—and less costly—than ever. https://t.co/5Cl2LaEyoI
The classifiers reduced the jailbreak success rate from 86% to 4.4%, but they were expensive to run and made Claude more likely to refuse benign requests.
We also found the system was still vulnerable to two types of attacks, shown in the figure below: https://t.co/B8ccMhkl1P
Last year, we introduced a new method for training classifiers (which stop AIs from being jailbroken to produce information about dangerous weapons).
These classifiers were trained using a constitution specifying requests to which Claude should and shouldn't respond.
Our new system adds several innovations.
One is a practical application of interpretability: a probe that can see Claude’s internal activations helps to screen all traffic. These activations are like Claude’s gut instincts, and they’re harder to fool.
Because the system harnesses internal activations already happening within a model, and reserves heavier computation only for potentially harmful exchanges, it adds only ~1% compute overhead.
It’s also more accurate, with an 87% drop in refusal rates on harmless requests.
If our probe identifies a suspicious query, it sends it to a more powerful “exchange” classifier that sees both sides of a conversation and is better able to recognize attacks.
After 1,700 cumulative hours of red-teaming, we’ve yet to identify a universal jailbreak (a consistent attack strategy that works across many queries) that works on our new system.
Read the full paper: https://t.co/CvRPuhqpuT
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
지금 핫한 소식🚀
- 1. 챗GPT, 이용자가 입력한 '날 어떻게 대했는지 이미지로' 요청 결과 폭소나네
- 2. 오픈AI, 컴퓨팅 부족으로 AI 확산 어려움 겪고 있대ㅠ 해결방안 마련 중이래
- 3. AI 도구, 2026년을 위한 추천 3선이라는데 지금 써봐도 좋음
- 4. 구글, 제미나이가 챗GPT 능가했다는데? 테스트해보니 진짜 대박
- 5. 퍼플렉시티, 단순 검색보다 리서치 도구로 활용하면 대박인데 TOP 15 프롬프트 공개했대
- 6. 제미나이, 유기동물 입양 위해 멋진 프로필 사진 찍어줬네? 실제 입양률 높인대
- 7. 오픈AI, 창의적인 미래를 만들어갈 프론티어 빌더들 소개했네
- 8. Optimist 토큰, 0원에서 시작하는 AI 관련 암호화폐 나왔대
- 9. 구글, 해외 SEO 업계에 충격 조언했대! 마이크로소프트랑 퍼플렉시티도 가세
- 10. GPT와 제미나이, CPU 마이크로코드 구현 완전 실패했대ㅜㅜ 전부 틀린 코드라네
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?