환영해🦉
기술/연구

“AI가 인간 대체는 무슨..” 1등 정답률 고작 7.5%, 거품 꺼지나?

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.07.24 09:58
“AI가 인간 대체는 무슨..” 1등 정답률 고작 7.5%, 거품 꺼지나?

기사 3줄 요약

  • 1 새로운 AI 코딩 대회 ‘K 프라이즈’ 충격적인 결과 공개
  • 2 1등 정답률 고작 7.5%, AI 코딩 능력 거품 논란
  • 3 AI 능력 과대광고에 경종, 현실적 평가 기준 필요성 대두
최근 AI가 인간 개발자를 대체할 것이라는 말이 많습니다. 하지만 한 AI 코딩 대회에서 이런 기대에 찬물을 끼얹는 결과가 나왔습니다. ‘K 프라이즈’라는 새로운 대회에서 1등을 차지한 참가자의 정답률이 고작 7.5%에 그쳤기 때문입니다. AI 코딩 능력에 대한 거품이 꺼지고 있다는 현실적인 경고등이 켜진 셈입니다.

그래서 이게 얼마나 낮은 점수인데?

'K 프라이즈'는 데이터브릭스와 퍼플렉시티 공동창업자인 앤디 콘윈스키가 시작한 새로운 AI 코딩 능력 시험입니다. 기존 시험과 달리, AI가 미리 정답을 학습할 수 없도록 만든 ‘오염 없는’ 테스트로 유명합니다. 실제 프로그램에서 발생하는 문제들을 얼마나 잘 푸는지 평가하는 방식입니다. 우승자는 브라질 출신의 프롬프트 엔지니어인 에두아르도 안드라데로, 상금 5만 달러를 받았습니다. 기존의 쉬운 시험에서 AI가 75%의 정답률을 보인 것과 비교하면, 7.5%는 매우 낮은 수치입니다. 이는 AI가 실제 현장에서 마주하는 복잡한 문제를 해결하는 능력이 아직 부족하다는 것을 의미합니다.

왜 이런 대회를 연 거야?

대회를 주최한 콘윈스키는 “어려운 평가 기준을 만들게 되어 기쁘다”고 말했습니다. 그는 AI의 능력이 과장되어 있다고 보고, 현실을 제대로 파악할 필요가 있다고 강조했습니다. 마치 AI 의사나 AI 변호사가 곧 나올 것처럼 말하지만, 현실은 그렇지 않다는 것입니다. 그는 "오염 없는 시험에서 10%도 넘기지 못하는 것이 AI의 현실"이라며 냉정한 평가를 내렸습니다. 많은 전문가들도 이런 새로운 방식의 평가가 AI의 진짜 실력을 검증하는 데 꼭 필요하다고 동의하고 있습니다.

그럼 AI는 아직 쓸모없는 거네?

이번 결과는 AI 코딩 기술이 아직 갈 길이 멀다는 것을 보여줍니다. 하지만 동시에 앞으로 무엇을 개선해야 할지 명확한 방향을 제시하기도 합니다. 콘윈스키는 이 시험에서 90% 이상 점수를 받는 최초의 오픈소스 AI 모델에 100만 달러(약 13억 원)의 상금을 걸었습니다. 이는 기술 발전을 촉진하려는 강한 의지를 보여줍니다. 결국 이번 대회는 AI 기술의 현주소를 정확히 알리고, 더 나은 미래를 만들기 위한 중요한 첫걸음이라고 볼 수 있습니다. (사진 출처: 셔터스톡)
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI가 개발자 직업을 위협할까?

댓글 0