기술/연구

“AI 기억력 6배 뻥튀기?” 구글과 KAIST가 만든 ‘터보퀀트’ 반전

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.12 13:59

기사 3줄 요약

1 구글과 KAIST가 AI 메모리 6배 압축 기술 개발
2 정확도 유지하며 연산 속도 8배 향상 성과 달성
3 한인수 교수 주도로 AI 서비스 대중화 앞당길 전망

구글 리서치와 딥마인드 그리고 KAIST 한인수 교수팀이 인공지능의 효율을 획기적으로 높이는 새로운 기술을 선보였습니다. 연구팀은 인공지능 모델이 대화 내용을 기억할 때 사용하는 메모리 공간을 수학적인 방법으로 재설계하는 데 성공했습니다. 이번에 공개된 터보퀀트 알고리즘은 인공지능이 문맥을 기억하는 공간인 케이뷔(KV) 캐시를 기존보다 6배 이상 압축합니다. 그러면서도 인공지능의 정확도는 원래 상태와 똑같이 유지한다는 점이 가장 큰 특징입니다.

AI의 고질적인 기억력 문제를 해결하다

최근 대형언어모델은 긴 문장을 처리할 때 기억해야 할 정보가 너무 많아져 시스템이 느려지는 문제를 겪어왔습니다. 구글 리서치 보고서에 따르면 인공지능이 대화 맥락을 저장하는 메모리는 전체 용량의 80% 이상을 차지할 정도로 부담이 큽니다. 이러한 메모리 과부하 현상은 챗GPT 같은 서비스가 답변을 하다가 앞선 내용을 잊어버리거나 응답 속도가 늦어지는 원인이 되었습니다. 터보퀀트는 별도의 추가 학습 없이도 즉시 적용할 수 있는 데이터 비의존성 기술을 갖춰 효율성을 극대화했습니다.

복잡한 데이터를 단순한 각도로 바라보다

기존 방식은 데이터를 가로와 세로 좌표로 하나하나 저장하여 처리해야 했기에 메모리 소모가 극심했습니다. 하지만 터보퀀트에 포함된 폴라퀀트 기술은 데이터를 거리와 방향이라는 새로운 관점으로 변환하여 저장합니다. 이는 마치 복잡한 길 찾기를 동서남북 좌표 대신 특정 방향으로 몇 미터 가라고 설명하는 것과 비슷합니다. 데이터 표현 방식이 단순해지면서 메모리에 추가적인 정보를 저장해야 하는 낭비 요소가 사라졌습니다.

속도는 여덟 배 빠르고 용량은 육분의 일

실제 성능 측정 결과는 놀라운 수준으로 나타났습니다. 엔비디아의 에이치100(H100) 그래픽 장치 환경에서 터보퀀트를 적용하면 기존 방식보다 연산 속도가 최대 8배까지 빨라집니다. 동시에 기억 공간인 메모리 사용량은 6분의 1 수준으로 줄어들어 장문의 글을 처리할 때 생기는 병목 현상을 해결했습니다. 구글의 인공지능 서비스인 제미나이 고도화는 물론이고 스마트폰에 들어가는 온디바이스 인공지능 환경에서도 표준 기술이 될 가능성이 큽니다.

반도체 시장의 위기인가 새로운 기회인가

메모리 사용량이 줄어들면 삼성전자나 에스케이하이닉스 같은 반도체 기업들의 수요가 줄어들 것이라는 우려도 나옵니다. 하지만 효율이 좋아질수록 인공지능 서비스 가격이 낮아져 더 많은 사람이 인공지능을 사용하게 되는 제본스의 역설이 발생할 수 있습니다. 결국 인공지능 사용자가 폭발적으로 늘어나면서 더 고성능의 메모리 반도체에 대한 수요는 장기적으로 증가할 것으로 보입니다. 이번 연구는 인공지능 기술이 단순히 크기를 키우는 시대를 지나 얼마나 영리하게 자원을 활용하느냐의 시대로 접어들었음을 보여줍니다.