기술/연구

“삼성전자 긴장해야?" 성능은 그대로 메모리만 6배 줄인 구글 AI

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.10 15:56

기사 3줄 요약

1 구글과 카이스트팀이 AI 메모리 6배 줄인 터보퀀트 공개
2 모델 성능 유지하며 연산 속도 최대 8배까지 끌어올려
3 온디바이스 AI 확산과 반도체 시장 판도 변화 예고

구글 리서치와 카이스트 한인수 교수 공동 연구팀이 인공지능의 한계를 돌파했습니다. 이번에 공개된 터보퀀트는 대형언어모델의 고질적인 문제인 메모리 과부하를 수학적으로 해결한 알고리즘입니다. 공동 연구팀은 성능 저하 없이 메모리 사용량을 6배 이상 줄이는 데 성공했습니다. 업계에서는 인공지능 인프라의 효율을 극대화할 게임 체인저가 등장했다고 평가합니다.

인공지능의 단기 기억 장치를 가볍게 만들다

대형언어모델은 문맥을 기억하기 위해 브이램이라는 비싼 메모리 공간을 사용합니다. 이를 케이뷔 캐시라고 부르는데 문장이 길어질수록 메모리를 엄청나게 잡아먹습니다. 기존 압축 방식은 데이터를 줄이면 정확도가 떨어지는 문제가 있었습니다. 하지만 터보퀀트는 수학적 기법을 사용하여 숨은 메모리 비용을 완전히 제거했습니다.

좌표를 바꾸고 오차를 잡는 정교한 이중 구조

이 기술의 핵심은 폴라퀀트와 큐제이엘이라는 두 가지 알고리즘의 결합입니다. 데이터를 좌표계로 변환하여 메모리 낭비를 줄이고 아주 작은 오차까지 정밀하게 제어합니다. 특히 카이스트 한인수 교수가 설계를 주도한 큐제이엘은 단 1비트만 사용합니다. 최소한의 정보로 오차를 보정하여 원본과 동일한 수준의 정확도를 유지하게 돕습니다.

연산 속도는 8배 빨라지고 비용은 낮아지다

실제 테스트 결과 최신 가속기 환경에서 연산 속도가 기존보다 최대 8배나 빨라졌습니다. 이는 실시간 인공지능 서비스의 운영 비용을 획기적으로 낮춰줄 수 있습니다. 메모리 효율이 좋아지면 스마트폰 같은 기기에서도 고성능 인공지능을 돌릴 수 있습니다. 이른바 온디바이스 인공지능 시대가 훨씬 더 빠르게 우리 곁으로 다가오게 됩니다.

메모리 수요가 줄어들까 아니면 더 늘어날까

일부에서는 메모리 사용량이 줄어들어 반도체 기업들이 타격을 입을까 걱정합니다. 하지만 효율이 좋아지면 인공지능 사용자가 더 많아져 전체 수요는 오히려 폭발할 수 있습니다. 경제학에서 말하는 제본스의 역설처럼 인공지능의 대중화가 반도체 시장을 더 키울 것입니다. 이번 연구 성과는 다음 달 세계적인 학술대회에서 정식으로 발표될 예정입니다.