기술/연구

“메모리 6배 더 아낀다” 성능 올린 구글 제미나이 비결

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.28 16:01

기사 3줄 요약

1 구글 리서치 성능 저하 없는 AI 압축 기술 공개
2 메모리 사용량 6배 줄이고 연산 속도는 8배 향상
3 온디바이스 AI와 검색 엔진 효율 극대화 기대

구글 리서치가 인공지능의 고질적인 문제인 메모리 부족을 해결할 터보퀀트 기술을 발표했습니다. 이 기술은 인공지능이 문장을 기억하는 공간을 6배나 압축하면서도 정확도는 그대로 유지합니다. 구글 리서치와 딥마인드 그리고 카이스트 한인수 교수팀이 함께 만든 결과물입니다. 이번 성과는 인공지능 인프라의 효율을 극대화할 수 있는 핵심 기술로 평가받고 있습니다.

대화의 맥락을 기억하는 비결

KV 캐시라는 공간은 인공지능이 긴 대화를 나눌 때 과거 내용을 기억하는 일종의 디지털 요약장입니다. 하지만 데이터가 쌓일수록 메모리를 너무 많이 차지해서 시스템 속도를 늦추는 주범이 됩니다. 구글 리서치 발표에 따르면 이번 터보퀀트 기술은 별도의 학습 과정 없이도 즉시 적용할 수 있습니다. 기존 모델을 다시 교육할 필요가 없어 시간과 비용을 획기적으로 아낄 수 있다는 장점이 있습니다.

수학으로 풀어낸 압축의 원리

터보퀀트의 핵심은 데이터를 바라보는 좌표계 자체를 바꾸는 폴라퀀트 기법에 있습니다. 복잡한 수치를 반지름과 각도로 변환하여 정보의 핵심적인 의미만 남기고 크기를 크게 줄입니다. 여기에 1비트만으로 오차를 보정하는 QJL 기술을 더해 정밀함을 한층 높였습니다. 아주 적은 정보량만 사용하면서도 인공지능이 계산할 때 생기는 오류를 실시간으로 바로잡아 줍니다.

하드웨어 성능을 극대화하는 성과

엔비디아 H100 GPU 환경에서 테스트한 결과 연산 속도가 기존보다 최대 8배나 빨라졌습니다. 메모리 사용량은 6분의 1 수준으로 줄어들어 대규모 서비스를 운영하는 부담이 크게 낮아질 것으로 보입니다. 이러한 효율성은 스마트폰 같은 개인용 기기에서도 고성능 인공지능을 부드럽게 돌릴 수 있는 길을 열어줍니다. 결과적으로 더 정교한 서비스를 어디서나 빠르고 저렴하게 이용할 수 있게 됩니다.

인공지능 대중화의 새로운 이정표

성능 효율이 좋아지면 더 많은 사용자가 낮은 비용으로 고성능 인공지능 혜택을 누리게 됩니다. 한인수 교수는 이번 기술이 온디바이스 인공지능 환경에서 새로운 표준 압축 기술이 될 것이라고 내다봤습니다. 이번 연구 성과는 2026년 4월에 열리는 세계적인 인공지능 학술대회에서 정식으로 발표될 예정입니다. 글로벌 기업들이 이 기술을 도입하면 인공지능 시장의 판도가 크게 바뀔 것으로 기대됩니다.