기술/연구

“개발자들 진짜 큰일 났다?” 7.5% 정답률 AI의 민낯, 아직 멀었다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.07.24 11:03

기사 3줄 요약

1 새 AI 코딩 대회 ‘K Prize’ 우승자, 정답률 7.5% 기록
2 사전 학습 방지 위해 실제 최신 코딩 문제로 AI 능력 평가
3 AI 코딩 능력에 대한 과장된 기대감에 ‘현실 직시’ 경고

인공지능(AI)이 인간 코드를 완벽하게 대체할 것이라는 기대감에 찬물을 끼얹는 소식이 전해졌습니다. 최근 열린 새로운 AI 코딩 대회에서 우승자가 100점 만점에 단 7.5점만 받는 충격적인 결과가 나왔기 때문입니다. 이는 AI 기술에 대한 과장된 환상을 깨고 현실을 직시하게 만드는 계기가 되고 있습니다. 비영리 단체인 라우드 연구소는 최근 ‘K 프라이즈(K Prize)’라는 AI 코딩 대회의 첫 우승자를 발표했습니다. 화제의 주인공은 브라질 출신의 프롬프트 엔지니어 에두아르두 호샤 지 안드라데로, 그는 7.5%라는 매우 낮은 정답률로 우승하며 상금 5만 달러(약 6,900만 원)를 받게 됐습니다. 이 대회는 유명 AI 기업 퍼플렉시티의 공동 창업자인 앤디 콘윈스키가 AI의 진짜 실력을 가려내기 위해 만들었습니다.

아니, 점수가 왜 이렇게 낮은 거야?

K 프라이즈의 점수가 유독 낮은 데에는 특별한 이유가 있습니다. 기존의 많은 AI 능력 시험(벤치마크)은 정해진 문제들을 사용해 AI가 미리 정답을 학습하고 시험을 잘 보는, 이른바 ‘족보’ 문제가 있었습니다. 하지만 K 프라이즈는 이런 꼼수를 막기 위해 대회 날짜 이후에 실제 개발자들이 겪는 새로운 문제들(깃허브 이슈)을 시험 문제로 출제합니다. 결국 AI는 미리 공부할 수 없는, 진짜 실력으로만 문제를 풀어야 합니다. 그 결과, 다른 시험에서 75%까지 점수를 받던 AI 모델들이 K 프라이즈에서는 7.5%라는 처참한 성적표를 받게 된 것입니다. 이는 현재 AI 코딩 도구들이 실제 현장에서 발생하는 복잡한 문제를 해결하는 데 아직 명확한 한계가 있음을 보여줍니다.

그럼 AI 발전은 다 거품이었을까?

대회를 주최한 앤디 콘윈스키는 “어려운 시험을 만들게 되어 기쁘다”며 오히려 이번 결과를 긍정적으로 평가했습니다. 그는 AI 의사, AI 변호사 같은 말들이 넘쳐나지만, 현실은 아직 그 수준에 미치지 못한다는 것을 이번 결과가 똑똑히 보여줬다고 말합니다. 진짜 실력 있는 AI를 만들기 위해서는 이런 현실적인 평가가 반드시 필요하다는 의미입니다. 전문가들은 K 프라이즈 같은 ‘오염되지 않은’ 새로운 시험 방식이 AI의 진짜 능력을 평가하고, 앞으로 기술을 올바르게 발전시키는 데 꼭 필요하다고 입을 모읍니다. 앤디 콘윈스키는 앞으로 오픈소스 AI 모델이 이 시험에서 90% 이상 점수를 받으면 100만 달러(약 13억 8천만 원)를 주겠다고 약속하며 AI 업계의 건전한 경쟁과 발전을 독려하고 있습니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr