기술/연구

AI 코딩, 오류 확 줄었다? 10.9% 더 정확해진 비밀 기술 공개

댓글 0 · 저장 0 2025.04.24 00:04

기사 3줄 요약

1 MIT·구글, AI 코드 생성 정확도 10.9% 높인 SMC 기술 개발.
2 코드 작성 중 실시간 테스트 및 수정으로 오류 가능성 줄여.
3 계산 비용·구현 복잡성 등 한계점 존재, 추가 연구 필요.

인공지능(AI)한테 코딩을 시켰더니 자꾸 엉뚱한 답을 내놓거나 오류를 만들어내서 답답했던 경험, 혹시 없으신가요? 앞으로는 이런 문제가 크게 줄어들지도 모르겠습니다. 미국 MIT, 구글 딥마인드, 하버드 대학 연구진이 AI가 코드를 더 정확하게 만들도록 돕는 새로운 기술을 개발했기 때문입니다. ‘SMC-Guided Decoding’이라고 불리는 이 기술은 AI가 코드를 완성한 후에야 오류를 확인하는 기존 방식과 달리, 코드를 작성하는 중간중간 여러 가능성을 동시에 만들고 테스트하면서 실시간으로 잘못된 부분을 고쳐나갑니다. 마치 학생이 시험 문제를 풀면서 옆에 답안지를 여러 개 펼쳐놓고 계속 채점하며 가장 정답에 가까운 풀이를 찾아가는 것과 비슷합니다. 이 덕분에 어려운 코딩 문제 평가(APPS 벤치마크)에서 기존 AI보다 정답률이 10.9%나 높아지는 성과를 거뒀습니다.

AI가 코딩하다 말고 시험 본다고?

기존의 AI 코딩 도우미들은 일단 코드를 쭉 작성한 다음, 마지막에 가서야 제대로 작동하는지 테스트했습니다. 그러다 보니 중간에 방향을 잘못 잡아도 끝까지 가버리는 경우가 많았고, 결국 시간만 낭비하거나 엉뚱한 코드를 내놓기도 했습니다. 하지만 SMC-Guided Decoding 기술은 다릅니다. 이 기술은 ‘순차적 몬테카를로(Sequential Monte Carlo, SMC)’라는 통계 기법을 활용합니다. 원래 로봇 공학이나 통계학에서 쓰이던 방법인데, 이걸 코드 생성에 맞게 바꾼 것입니다. 쉽게 말해, AI가 코드 한 줄 한 줄 써 내려갈 때마다 여러 가지 가능한 다음 코드를 동시에 떠올립니다. 그리고 미리 준비된 테스트 문제(테스트 케이스)를 가지고 이 후보 코드들을 바로바로 평가합니다. "어? 이 코드는 벌써 틀렸네?" 하면 과감히 버리고, "오, 이건 정답에 가까운데?" 하는 코드는 더 발전시키는 식입니다. 이런 실시간 피드백과 수정을 통해 AI는 처음부터 오류 가능성이 낮은, 더 정확한 코드를 만들게 됩니다.

그래서 얼마나 똑똑해졌는데?

연구진은 이 기술의 성능을 확인하기 위해 ‘APPS’라는 어려운 코딩 문제 세트로 실험했습니다. 그 결과, 기존에 많이 사용되던 AI 코드 생성 방식(빔 서치, 샘플링)보다 정답률이 10.9% 더 높게 나왔습니다. 이는 상당히 의미 있는 발전입니다. 최근 화제가 된 ‘데빈(Devin) AI’ 같은 다른 AI 코딩 시스템과 비교하면 어떨까요? 데빈 AI는 스스로 문제를 이해하고 코드를 짜고, 오류를 고치고, 프로그램을 실행하는 등 소프트웨어 개발 전 과정을 혼자 처리하는 ‘자율 AI 개발자’를 목표로 합니다. 반면, 이번에 개발된 SMC-Guided Decoding 기술은 코드 자체의 ‘정확성’과 ‘신뢰성’을 높이는 데 더 초점을 맞추고 있습니다. 목표와 접근 방식이 조금 다른 셈입니다.

특징	SMC-Guided Decoding	Devin AI
초점	코드 생성 정확도 및 견고성 향상	자율적인 AI 소프트웨어 엔지니어 (개발 전 과정 수행)
방법론	생성 중 여러 후보 유지, 테스트 케이스로 실시간 평가/수정	소스 코드 작성, 디버깅, 배포, 문서 학습 등 자체 도구 활용
정확도	APPS 벤치마크 10.9% 향상, 구현 정확성 강조	기능적 코드 생성 목표, SWE-bench 13.86% 해결률 (제조사 주장)

아직 완벽하진 않다며? 단점은 뭐야?

물론 이 새로운 기술에도 아직 한계는 있습니다. 첫째, 여러 코드 후보를 동시에 만들고 테스트해야 하니 컴퓨터 자원(계산 능력)이 훨씬 많이 필요합니다. 아주 크고 복잡한 프로그램을 만들 때는 비용과 시간이 부담될 수 있습니다. 둘째, 기술 자체가 복잡해서 실제로 적용하기가 까다롭습니다. AI와 통계학 지식이 모두 필요하고, 상황에 맞게 세부 설정을 잘 조절해야 합니다. 셋째, 성능이 ‘테스트 케이스’의 품질에 크게 좌우됩니다. 만약 테스트 문제가 부실하거나 특정 경우만 다룬다면, AI가 만든 코드가 테스트는 통과해도 실제 사용 환경에서는 예상치 못한 오류를 일으킬 수 있습니다. 마지막으로, 완전히 새로운 알고리즘을 만들거나 특정 분야에 대한 깊은 이해가 필요한 창의적인 코딩 작업에는 아직 어려움을 겪을 수 있습니다.

앞으로 AI 코딩, 어떻게 달라질까?

이러한 한계에도 불구하고 SMC-Guided Decoding 기술은 AI가 좀 더 믿을 만한 코드를 만들 수 있게 되었다는 점에서 중요한 진전입니다. 앞으로 연구자들은 계산 비용을 줄이고, 더 복잡한 코딩 문제도 잘 처리하도록 기술을 개선해 나갈 것입니다. 또한, 이 기술을 데빈 AI 같은 다른 AI 코딩 기술과 결합하려는 시도도 있을 수 있습니다. 예를 들어, 데빈 AI가 초안 코드를 빠르게 만들면, SMC 기술로 그 코드의 정확성을 높이는 방식입니다. 다양한 기술들이 서로의 장점을 살려 발전하면서, 미래의 소프트웨어 개발 모습은 지금과는 많이 달라질 것으로 보입니다.