기술/연구

“AI 한계 넘었다” 구글 제미나이 속도 8배 키운 터보퀀트 등장

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.23 09:54

기사 3줄 요약

1 구글과 카이스트가 AI 메모리 6배 압축 기술 공개
2 정확도 유지하며 추론 속도 최대 8배 향상 성공
3 제미나이 고도화와 온디바이스 AI 시장 혁신 기대

구글 리서치와 카이스트 공동연구팀이 인공지능의 고질적인 문제인 메모리 과부하를 해결했습니다. 대형언어모델이 정보를 처리할 때 사용하는 공간인 KV 캐시를 효율적으로 압축하는 알고리즘인 터보퀀트를 발표했습니다. 이번 연구는 단순한 용량 줄이기를 넘어 인공지능 연산 구조 자체를 새롭게 설계했습니다. 별도의 추가 학습 없이도 즉시 적용할 수 있어 인공지능 산업의 판도를 바꿀 기술로 평가받습니다.

터보퀀트가 대체 뭐야

현대 인공지능 모델은 단어의 의미를 수치 집합인 벡터로 이해합니다. 모델이 정교해질수록 이 데이터가 방대해져 시스템을 느리게 만드는 병목 현상이 발생합니다. 기존 기술은 데이터를 압축할 때 추가적인 메모리 비용이 발생하는 한계가 있었습니다. 터보퀀트는 수학적 기법을 활용해 이러한 숨은 비용을 완전히 제거하는 데 성공했습니다.

어떻게 6배나 줄인 걸까

터보퀀트의 핵심인 폴라퀀트 기법은 데이터를 바라보는 좌표계 자체를 바꿉니다. 데이터를 반지름과 각도라는 극좌표계로 변환하여 메모리 오버헤드를 구조적으로 없앴습니다. 여기에 1비트만으로 미세한 오차를 보정하는 QJL 기술이 더해졌습니다. 수학적 오류 제어 장치 역할을 수행하며 모델의 정확도를 원본 수준으로 유지해 줍니다.

성능 지표는 어느 정도야

공동연구팀은 젬마와 미스트랄 등 다양한 모델을 통해 성능을 엄격하게 검증했습니다. 엔비디아의 H100 환경에서 테스트한 결과 연산 속도가 기존보다 최대 8배 빨라졌습니다. 메모리 사용량 역시 6배 이상 줄어들어 장문 처리 능력이 비약적으로 향상되었습니다. 압축 이후에도 데이터 간의 유사도를 정확하게 유지하며 검색 품질까지 높였습니다.

우리 삶에 미칠 영향은

이번 연구에는 카이스트 한인수 교수가 참여해 국내 학계의 높은 역량을 증명했습니다. 한 교수는 1비트 오차 보정 기술을 완성하며 인공지능 압축의 수학적 임계치를 돌파했습니다. 기술의 효율성이 높아지면 인공지능 서비스 단가가 낮아져 대중화가 빨라집니다. 스마트폰 같은 기기에서도 고성능 인공지능을 자유롭게 사용하는 시대가 더 가까워질 전망입니다.