기술/연구

“매번 입력하던 프롬프트 끝?” MS, AI 뇌에 직접 심는다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.03.02 12:43

기사 3줄 요약

1 MS, 프롬프트 내재화 기술 OPCD 공개
2 긴 설명 없이도 AI가 스스로 규칙 숙지
3 응답 속도 높이고 비용은 대폭 절감

기업들이 인공지능(AI)을 도입할 때 가장 골치 아픈 문제 중 하나가 바로 ‘비용’과 ‘속도’입니다. AI에게 원하는 답을 얻으려면 회사의 복잡한 규칙이나 안전 지침 같은 ‘시스템 프롬프트’를 매번 입력해야 하기 때문입니다. 이 과정은 돈도 많이 들고 답변 속도도 느리게 만듭니다. 그런데 최근 마이크로소프트(MS)가 이 문제를 해결할 혁신적인 기술을 공개해 화제입니다.

매번 설명 안 해도 알아듣는 AI?

마이크로소프트 연구진은 ‘온-폴리시 컨텍스트 증류(OPCD)’라는 새로운 프레임워크를 발표했습니다. 이름은 어렵지만 원리는 간단합니다. 기존에는 AI에게 일을 시킬 때마다 두꺼운 매뉴얼(프롬프트)을 읽게 시켰다면, 이제는 매뉴얼 내용을 AI의 머릿속(매개변수)에 아예 외우게 만드는 방식입니다. 이렇게 되면 사용자가 일일이 긴 설명을 입력하지 않아도 AI가 이미 규칙을 알고 있어서 즉각적으로 반응할 수 있습니다. 마치 매번 책을 찾아보는 학생과 내용을 완벽히 암기한 학생의 차이와 같습니다. 이 기술을 적용하면 기업은 프롬프트 입력 비용을 아낄 수 있고, 사용자들은 더 빠른 답변을 받을 수 있게 됩니다.

학생이 스스로 풀어보고 교사가 채점해

이 기술의 핵심은 ‘교사-학생’ 학습 방식에 있습니다. 기존 방식은 학생(소형 AI)이 교사(대형 AI)가 만들어둔 정답지만 달달 외우는 식이었습니다. 하지만 이런 방식은 응용력이 떨어져서 조금만 상황이 바뀌어도 엉뚱한 소리를 하는 ‘환각 현상’이 발생하곤 했습니다. 반면 이번에 공개된 OPCD 방식은 다릅니다. 학생 모델이 먼저 스스로 문제를 풀어봅니다. 그 과정을 교사 모델이 지켜보다가 “이 부분은 틀렸어, 이렇게 고쳐”라고 실시간으로 피드백을 줍니다. 학생 AI는 단순히 정답을 베끼는 게 아니라, 자신의 풀이 과정을 교정 받으며 학습합니다. 덕분에 낯선 질문에도 당황하지 않고 안정적으로 답변할 수 있는 능력이 생깁니다.

수학 점수 오르고 안전성은 더 강화돼

실제 실험 결과는 놀라웠습니다. 연구진에 따르면, 이 기술을 적용한 AI 모델은 복잡한 수학 문제 정답률이 75%에서 약 81%로 껑충 뛰었습니다. 특히 안전 규칙을 학습시켰을 때 유해성 분류 정확도가 30%대에서 83%까지 치솟았습니다. 더 놀라운 점은 하나의 규칙을 깊게 배우면 다른 지식을 까먹는 ‘파괴적 망각’ 현상도 거의 없었다는 것입니다. 특정 분야 전문가가 되면서도 일반 상식은 그대로 유지했다는 뜻입니다. MS 연구진은 이 기술이 적은 수의 그래픽처리장치(GPU)로도 구현 가능해 기업들이 쉽게 도입할 수 있을 것이라고 전망했습니다. 앞으로 AI가 스스로 경험을 쌓고 똑똑해지는 ‘자가 발전’ 시대가 열릴지 기대가 모입니다.