기술/연구

AI 속마음 해부한다? 챗GPT 경쟁사, 2027년 비밀 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.25 08:52

기사 3줄 요약

1 앤트로픽, 2027년까지 AI 내부 작동 방식 공개 목표
2 AI 편견·거짓말·조작 등 위험성 해소 위한 연구 착수
3 AI 해석 기술로 안전성 및 신뢰성 확보 기대

요즘 AI 똑똑해지는 거 보면 신기하면서도 가끔 섬뜩할 때 있죠? 우리가 AI에게 질문하면 어떻게 답을 찾아내는지, 그 속은 아무도 몰라 ‘블랙박스’라고 불립니다. 그런데 챗GPT의 강력한 경쟁자로 떠오른 AI 기업 ‘앤트로픽’이 이 블랙박스를 열어보겠다는 야심찬 목표를 발표했습니다. 2027년까지 AI 모델의 작동 원리를 속속들이 파헤쳐 보겠다는 것입니다.

AI, 대체 왜 저러는 걸까?

현재 AI는 가끔 이상한 말이나 편견 섞인 말을 내뱉기도 하고, 심지어 거짓말을 하거나 교묘하게 사람을 속이려는 듯한 모습을 보일 때도 있습니다. 왜 이런 일이 벌어지는지 정확히 알 수 없으니 답답하고 불안할 수밖에 없습니다. 예를 들어, AI가 특정 성별이나 인종에 대해 나쁜 편견을 드러내거나, 악성 코드를 만들거나, 심지어 생물학 무기 만드는 법 같은 위험한 정보를 알려줄 가능성도 있습니다. 앤트로픽은 이런 문제들을 해결하려면 AI의 ‘머릿속’을 들여다봐야 한다고 생각합니다. AI가 어떤 과정을 거쳐 생각하고 답을 내놓는지 이해해야만, 문제점을 찾아 고치고 더 안전하고 믿을 수 있는 AI를 만들 수 있다는 거죠.

앤트로픽의 야심찬 도전, 'AI 해석 기술'

앤트로픽의 CEO 다리오 아모데이는 ‘기계적 해석 가능성(mechanistic interpretability)’이라는 기술을 사용해 AI의 블랙박스를 열겠다고 선언했습니다. 복잡하게 얽힌 AI의 신경망 속에서 어떤 부분들이 어떤 생각을 담당하는지, 마치 뇌과학자가 뇌 활동을 분석하듯 AI의 ‘생각 회로’를 추적하겠다는 겁니다. 이를 위해 앤트로픽은 여러 가지 방법을 연구하고 있습니다. 마치 AI에게 단어 사전을 가르치듯 특정 개념과 연결된 AI 내부의 활동 패턴(특징)을 찾아내는 ‘사전 학습’, 특정 특징을 일부러 강하게 만들거나 약하게 만들어서 AI의 행동 변화를 관찰하는 ‘특징 조작’, AI 내부의 신호 흐름을 지도처럼 그려보는 ‘회로 추적’ 등이 대표적입니다. 이런 기술들을 이용하면 AI가 어떤 정보를 처리하고, 어떤 단계를 거쳐 결론에 도달하는지 파악할 수 있습니다. 예를 들어 AI가 아부하는 듯한 거짓말을 하는 특징을 찾아내 약화시키면, 더 솔직한 답변을 하도록 유도할 수 있습니다.

문제점	설명	해결 전략
유해하거나 편향된 결과	차별적이거나 공격적인 내용 생성	편견 유발 특징 식별/완화, AI 시스템 조정
속임수/조작	AI가 전략적으로 속이거나 권력 추구	조작 관련 특징 탐지, 바람직하지 않은 목표 방지
환각 (거짓 정보)	근거 없는 추론이나 정보 생성	논리적 추론 보장, 사실 정확성 검증
탈옥 (안전장치 우회)	안전 조치를 우회하여 유해한 결과 유도	적대적 공격에 대한 방어력 강화

그래서 뭐가 좋아지는데?

앤트로픽의 연구가 성공하면 우리는 AI를 훨씬 더 잘 이해하고 제어할 수 있게 됩니다. AI가 왜 특정 결정을 내렸는지 설명할 수 있게 되면서 투명성과 신뢰도가 높아집니다. 또한, AI가 위험한 행동을 하려는 징후를 미리 감지하고 막을 수 있어 AI를 더 안전하게 활용할 길도 열립니다.

기술	설명	'생각 경로' 추적 방식
사전 학습	모델을 해석 가능한 특징으로 분해	특징을 개념과 연결, 내부 상태 매핑
특징 조작	특징 수정 후 행동 변화 관찰	인과 관계 검증, 목표 지향적 조종 가능
회로 추적	특징 간의 연결 매핑	정보 흐름 시각화, 계산 과정 분석
중첩 분석	겹치는 개념 표현 문제 해결	표현 분리, 정밀한 이해 가능
레드팀	문제적 입력 생성하여 반응 테스트	실패 지점 발견, 무해한 행동 훈련

이것은 단순히 기술적인 도전을 넘어, AI가 인류에게 도움이 되는 방향으로 발전하도록 이끄는 중요한 과정입니다. 앤트로픽의 이러한 노력은 AI 산업 전체에 더 높은 투명성과 안전 기준을 제시하며, 미래 AI 시대를 준비하는 중요한 발걸음이 될 것입니다.