환영해🦉
기술/연구

"AI 속 훤히 들여다본다?" 앤트로픽, 생각 읽는 기술 드디어 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.06.07 21:09
"AI 속 훤히 들여다본다?" 앤트로픽, 생각 읽는 기술 드디어 공개

기사 3줄 요약

  • 1 앤트로픽, AI 속 생각 읽는 ‘서킷 트레이싱’ 공개
  • 2 작동 원리 분석으로 AI 블랙박스 문제 해결 기대
  • 3 환각 줄이고 윤리적 AI 개발에 기여할 전망
깜깜했던 인공지능(AI)의 머릿속을 직접 들여다볼 수 있는 길이 열렸습니다. 마치 복잡한 기계의 내부 설계도를 얻은 것처럼, AI가 어떻게 생각하고 결정을 내리는지 그 과정을 추적할 수 있게 된 것입니다. 챗GPT의 강력한 경쟁자로 꼽히는 앤트로픽이 바로 이 혁신적인 기술을 공개했습니다. 앤트로픽은 최근 ‘서킷 트레이싱(circuit tracing)’이라는 이름의 도구를 세상에 선보였습니다. 이 도구는 대형언어모델(LLM), 즉 챗GPT처럼 글을 이해하고 생성하는 똑똑한 AI의 내부 작동 방식을 분석합니다. 그동안 AI가 정답을 맞히거나 그럴듯한 글을 써도, 왜 그런 결과를 내놓는지 정확히 알기 어려워 ‘블랙박스’ 문제라고 불렸습니다. 이 도구는 누구나 가져다 쓰고 발전시킬 수 있도록 소스 코드 전체를 공개하는 ‘오픈소스’ 방식으로 제공되어 더욱 의미가 큽니다. 이제 더 많은 연구자와 개발자가 AI의 속마음을 탐구할 수 있게 되었습니다.

AI 마음속, 어떻게 들여다본다는 거야?

앤트로픽의 ‘서킷 트레이싱’ 기술은 AI의 복잡한 생각 과정을 크게 두 가지 핵심 원리로 파헤칩니다. 첫 번째는 ‘희소 오토인코더(SAE)’라는 기술입니다. 이는 AI가 수많은 정보 속에서 핵심적인 신호, 즉 중요한 특징만을 골라내어 정보를 압축했다가 다시 원래대로 복원하는 똑똑한 방식입니다. 마치 우리가 긴 글을 읽고 핵심만 요약하는 것처럼, SAE는 AI 뇌 속의 복잡한 신호들을 간결하게 정리해줍니다. 이렇게 정리된 핵심 정보들을 보면 AI가 어떤 부분에 집중해서 생각하는지 이해하기 쉬워집니다. 덕분에 우리는 AI의 작동 원리를 좀 더 명확하게 파악할 수 있습니다. 두 번째 핵심은 ‘귀속 그래프(attribution graph)’라는 것입니다. 이는 AI의 생각 회로를 마치 지도처럼 그려서 보여줍니다. 정보가 AI 뇌 속의 어떤 경로를 거쳐 처리되고, 그 과정에서 어떤 특징들이 서로 영향을 주고받는지 한눈에 볼 수 있게 시각화하는 것입니다. 예를 들어, ‘댈러스’라는 도시 이름을 입력하면 AI가 이를 ‘텍사스’ 주의 도시로 인식하고, 다시 텍사스의 주도인 ‘오스틴’을 떠올리는 일련의 생각 과정을 이 지도를 보며 추적할 수 있습니다. 연구자들은 이 생각 지도를 바탕으로 AI의 특정 부분을 직접 수정해보고, 그 결과 AI의 답변이 어떻게 달라지는지 실험하며 AI를 더 깊이 이해할 수 있습니다.

그래서 이게 우리한테 뭐가 좋은데?

AI의 생각 길을 알 수 있게 되면 우리에게 어떤 점이 좋을까요. 가장 큰 기대는 AI가 만들어내는 어색하거나 틀린 정보, 즉 ‘환각’ 현상을 줄이는 데 도움을 줄 수 있다는 점입니다. AI가 왜 잘못된 정보를 만들어내는지 그 원인이 되는 생각 회로를 찾아내 고칠 수 있기 때문입니다. 또한, 이 기술은 AI의 성능을 더욱 정교하게 다듬는 데도 유용합니다. 예를 들어, 기업에서 데이터 분석이나 법률 문서 검토에 AI를 활용할 때, AI가 어떤 논리로 결론을 내렸는지 알 수 있다면 업무 효율성과 정확도를 크게 높일 수 있습니다. 단순히 AI의 답변을 조정하는 것을 넘어, AI 내부의 생각 회로 자체를 분석하고 다시 설계함으로써 더욱 똑똑하고 윤리적인 AI를 만들 수 있는 길이 열리는 것입니다. 앤트로픽은 이 기술을 이용해 AI가 덧셈 계산을 할 때 단순한 규칙이 아니라, 여러 경로와 숫자별 기억 장치를 활용한다는 흥미로운 사실도 밝혀냈습니다. 여러 언어를 처리할 때도 각 언어별 회로뿐 아니라, 모든 언어에 공통으로 적용되는 생각 회로를 사용한다는 점도 발견했습니다. 이런 발견들은 앞으로 AI를 더욱 발전시키는 데 중요한 밑거름이 될 것입니다.

앤트로픽만 이런 거 해? 다른 데는?

사실 AI의 블랙박스 문제를 해결하려는 노력은 여러 곳에서 진행 중입니다. 오픈AI나 구글 같은 거대 기술 기업들도 비슷한 연구를 하고 있다고 발표한 바 있습니다. 하지만 앤트로픽처럼 구체적인 도구를 공개하고 그 성과를 자세히 설명한 경우는 드뭅니다. 앤트로픽은 이미 수년 전부터 이 분야 연구에 집중해 왔습니다. 지난해에는 AI 생각의 대략적인 지도를 그리는 연구 결과를 발표했고, 올해 초에는 AI가 특정 작업을 할 때 활성화되는 생각의 경로를 추적하는 연구를 선보이기도 했습니다. 이번 ‘서킷 트레이싱’ 도구 공개는 그동안의 연구 결과를 집대성하여 실제 활용 가능한 형태로 내놓았다는 점에서 큰 의미가 있습니다. 앤트로픽의 CEO 다리오 아모데이는 다른 기업들도 AI의 작동 방식을 투명하게 밝히는 연구에 함께 참여해 달라고 촉구하기도 했습니다. AI 기술이 우리 생활에 점점 더 깊숙이 들어오는 만큼, 그 속을 이해하고 제어하는 것은 매우 중요한 일이기 때문입니다. 결론적으로, 앤트로픽의 이번 발표는 AI 기술의 투명성과 신뢰성을 한 단계 높이는 중요한 발걸음입니다. AI의 ‘생각’을 이해하고 올바른 방향으로 이끌 수 있다면, 우리는 AI와 함께 더욱 발전된 미래를 만들어갈 수 있을 것입니다. 이 기술이 앞으로 AI 연구와 개발에 어떤 새로운 가능성을 열어줄지 기대됩니다.
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 1

AI 내부 작동방식 공개, 이대로 좋은가?

댓글 0

관련 기사