기술/연구

“삼성전자 긴장해야 할까?” 메모리 1/6로 줄이는 구글 터보퀀트 등장

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.03.31 03:07

기사 3줄 요약

1 구글과 카이스트가 AI 메모리 6배 압축 기술 공개
2 성능 저하 없이 연산 속도 최대 8배 향상 성공
3 인공지능 운영 비용 획기적 절감으로 대중화 기대

구글 리서치와 카이스트 한인수 교수 공동연구팀은 최근 터보퀀트라는 신기술을 공개했습니다. 이 기술은 대형언어모델의 메모리 과부하 문제를 수학적으로 해결한 차세대 알고리즘입니다. 인공지능이 문장을 기억하는 공간인 KV 캐시를 기존보다 6배나 압축하는 데 성공했습니다. 별도의 추가 학습 없이도 즉시 적용할 수 있어 업계의 게임 체인저로 불립니다. 공동연구팀에 따르면 이번 기술은 벡터 기반 인공지능 연산 구조 자체를 재설계한 혁신적인 성과입니다.

인공지능 메모리 6배나 아끼는 비결은

터보퀀트의 핵심은 데이터를 바라보는 방식을 바꾸는 폴라퀀트 기술에 있습니다. 기존 방식과 달리 데이터를 반지름과 각도라는 새로운 좌표계로 변환하여 메모리 낭비를 구조적으로 제거합니다. 고차원 데이터가 특정한 패턴을 가지며 구 표면에 밀집되는 경향을 영리하게 활용한 결과입니다. 여기에 한인수 교수가 주도한 QJL 기법이 더해져 미세한 오차까지 정교하게 잡아냅니다. 단 1비트의 정보만으로 오차를 보정하여 원본 모델과 동일한 정확도를 유지하도록 돕습니다. 덕분에 초저비트 환경에서도 인공지능 모델이 입력 데이터의 핵심을 정확히 파악할 수 있습니다.

속도는 8배 빨라지고 정확도는 그대로

성능 지표에 따르면 엔비디아 H100 GPU 환경에서 연산 속도가 최대 8배나 빨라졌습니다. 단순히 용량만 줄이는 것이 아니라 실제 추론 속도까지 획기적으로 끌어올린 것입니다. 실시간 인공지능 서비스나 대규모 추론 인프라에서 직접적인 비용 절감을 기대할 수 있는 수치입니다. 젬마와 미스트랄 등 다양한 오픈소스 인공지능 모델을 대상으로 한 테스트에서도 압도적인 성적을 거두었습니다. 인공지능이 장문을 처리할 때 발생하는 병목 현상을 근본적으로 해결했다는 평가를 받습니다. 연구팀은 압축 이후에도 데이터 간의 유사도를 정확하게 유지하여 검색 품질까지 높였다고 설명합니다.

인공지능 대중화 이끌 촉매제 될까

효율성이 높아지면 오히려 수요가 폭발한다는 제본스의 역설에 따라 인공지능 시장은 더 커질 전망입니다. 서비스 운영 비용이 낮아지면 더 많은 기업이 고성능 인공지능을 일상적으로 도입할 수 있습니다. 메모리 사용량은 줄었지만 인공지능 활용 범위는 상상 이상으로 넓어질 가능성이 큽니다. 이번 연구는 한국 학계의 역량이 글로벌 빅테크의 핵심 기술 설계에 직접 기여했다는 점에서 큰 의미가 있습니다. 터보퀀트는 향후 온디바이스 인공지능과 글로벌 검색 엔진의 표준 압축 기술이 될 것으로 보입니다. 한인수 교수는 이 기술이 인공지능 서비스 보편화를 앞당기는 중요한 전환점이 될 것이라고 강조했습니다.