기술/연구

“AI 속도 8배 빨라진다” 카이스트 교수와 구글이 만든 압축 기술

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.03 00:52

기사 3줄 요약

1 구글과 카이스트가 AI 메모리 6배 줄이는 기술 개발
2 수학적 기법으로 성능 저하 없이 연산 속도 8배 향상
3 온디바이스 AI와 검색 엔진의 효율성 극대화 기대

인공지능의 두뇌가 더 가볍고 똑똑해질 전망입니다. 구글 리서치와 카이스트 한인수 교수팀이 함께 참여한 공동 연구팀이 새로운 알고리즘을 발표했습니다. 이번에 공개된 터보퀀트는 대형언어모델의 고질적인 문제인 메모리 부족 현상을 수학적으로 해결했습니다. 덕분에 성능은 유지하면서도 기억 공간을 6배나 더 넓게 쓸 수 있습니다.

인공지능 성능을 갉아먹는 메모리 괴물은 누구일까

인공지능 모델이 문맥을 기억할 때는 케이뷔(KV) 캐시라는 공간을 사용합니다. 문장이 길어질수록 이 공간에 데이터가 쌓이면서 시스템 속도가 느려지는 병목 현상이 발생합니다. 기존의 압축 기술은 데이터를 줄이는 과정에서 정확도가 떨어지거나 추가적인 메모리 비용이 드는 한계가 있었습니다. 터보퀀트는 이러한 불필요한 비용을 수학적으로 완전히 제거하며 효율성을 극대화했습니다.

복잡한 데이터를 단순한 방향으로 재구성하는 마법

연구팀은 데이터를 반지름과 각도로 표현하는 극좌표계 변환 방식을 도입했습니다. 이는 복잡한 지형을 설명할 때 동서남북 대신 어느 방향으로 얼마나 떨어졌는지만 알려주는 것과 비슷합니다. 여기에 한인수 교수가 주도한 일비트 오차 보정 기술이 더해졌습니다. 아주 미세한 오차까지 잡아내면서 모델이 원래 가지고 있던 정확도를 완벽하게 지켜냈습니다.

실제 사용 환경에서 확인된 압도적인 연산 속도

국제적인 성능 측정 결과에 따르면 터보퀀트는 기억 공간 사용량을 6배 이상 줄이는 데 성공했습니다. 정확도를 전혀 떨어뜨리지 않으면서도 방대한 데이터를 가볍게 압축한 것입니다. 엔비디아 하이백(H100) 그래픽 처리 장치 환경에서는 기존보다 연산 속도가 최대 8배나 빨라졌습니다. 이는 실제 서비스 환경에서 비용을 크게 아끼고 처리 속도를 획기적으로 높일 수 있음을 보여줍니다.

우리 삶에 인공지능이 더 가깝게 다가오는 이유

이 기술은 구글의 인공지능 서비스인 제미나이를 고도화하는 데 핵심적인 역할을 할 예정입니다. 스마트폰 자체에서 인공지능을 돌리는 온디바이스 환경에서도 표준 기술이 될 가능성이 높습니다. 한인수 교수는 이번 성과가 인공지능 서비스의 보편화를 앞당기는 중요한 전환점이 될 것이라고 설명했습니다. 앞으로 더 저렴하고 빠른 인공지능 서비스를 누구나 쉽게 이용하는 세상이 열릴 것으로 보입니다.