환영해🦉
기술/연구

최강 AI도 코드 고치는 데 절반도 못 맞춘다...MS 충격 연구 결과 공개

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.12 06:20
최강 AI도 코드 고치는 데 절반도 못 맞춘다...MS 충격 연구 결과 공개

기사 3줄 요약

  • 1 MS 연구, AI 모델 디버깅 능력 한계 드러내
  • 2 최고 성능 클로드 모델도 성공률 48.4% 그쳐
  • 3 데이터 부족과 훈련 미흡이 주요 원인으로 지목
구글과 메타 같은 거대 기술 기업들이 'AI가 개발자를 대체할 것'이라고 장밋빛 전망을 내놓는 사이, 마이크로소프트(MS) 연구팀에서 이를 정면으로 반박하는 연구 결과를 내놓았습니다. AI가 실제 프로그래밍 디버깅 작업에서 생각보다 훨씬 취약하다는 사실이 드러난 것인데요.

AI, 코드 오류 잡는데 '반타작'도 못해

MS 연구팀이 진행한 이번 연구는 총 9개의 AI 모델을 대상으로 300개의 디버깅 작업을 테스트했습니다. 사용된 벤치마크는 'SWE-bench Lite'로, 11개 저장소에서 추출한 300개의 버그 수정 이슈에 초점을 맞춘 경량화 버전입니다. 놀랍게도 이 테스트에서 가장 뛰어난 성적을 거둔 앤트로픽의 '클로드 3.7 소넷'조차 성공률이 48.4%에 그쳤습니다. 절반도 못 맞췄다는 얘기죠. 오픈AI의 모델들은 더 심각했는데, 'o1' 모델은 30.2%, 'o3-mini' 모델은 22.1%의 성공률을 기록했습니다. 이 결과는 구글 CEO 순다르 피차이가 "구글 신규 코드의 25%가 AI에 의해 생성된다"고 주장한 것과 메타 CEO 마크 저커버그가 "AI 코딩 모델을 광범위하게 배포하겠다"는 야심 찬 발언과는 상당한 괴리가 있습니다.

왜 AI는 디버깅에 약할까?

MS 연구팀은 AI가 디버깅에 취약한 주요 원인으로 두 가지를 지목했습니다. 바로 '데이터 부족'과 '순차적 의사결정 과정에 대한 훈련 부족'입니다. 실제 개발자들이 버그를 찾고 고치는 과정은 단순히 오류를 확인하고 수정하는 것이 아닙니다. 디버거와 상호작용하면서 정보를 수집하고, 그 정보를 바탕으로 버그의 원인을 추적한 후 적절한 해결책을 제시하는 복잡한 과정입니다. 하지만 현재 AI 모델들은 이런 실제 디버깅 시나리오가 담긴 데이터로 충분히 훈련받지 못했다는 것이 연구팀의 설명입니다. 연구팀은 이 문제를 해결하기 위해 '궤적(trajectory)' 데이터로 AI를 훈련시키는 방법을 제안했습니다. 이는 에이전트가 디버거와 상호작용하며 정보를 수집한 후 버그 수정안을 제안하는 과정을 기록한 데이터를 의미합니다.

전문가들의 의견은?

MS 연구진은 AI가 효과적인 디버거가 되려면 특화된 데이터로 훈련시켜야 한다고 강조했습니다. 특히 현재는 이런 상호작용 데이터가 부족하다는 점을 지적했습니다. 한편, 마이크로소프트 공동 창업자 빌 게이츠와 레플릿(Replit) CEO 암자드 마사드 등 일부 기술 리더들은 연구 결과에도 불구하고 프로그래밍 직업이 안전하다는 입장을 유지하고 있습니다. 이들은 AI가 인간 개발자를 대체하기보다는 보완하는 역할을 할 것이라고 전망했습니다. 이번 연구 결과는 AI가 코딩 작업을 도울 수는 있지만, 복잡한 버그를 식별하고 해결하는 데는 여전히 인간 개발자의 역할이 중요하다는 것을 시사합니다. 결국 AI와 인간 개발자의 협업이 가장 효과적인 접근법이 될 것으로 보입니다.
모델성공률설명
클로드 3.7 소넷48.4%최고 성능 모델이지만 여전히 절반 이상의 디버깅 작업 실패
오픈AI o130.2%클로드 3.7 소넷보다 현저히 낮은 성공률
오픈AI o3-mini22.1%상위 3개 모델 중 가장 낮은 성공률
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI가 개발자를 대체할까?

댓글 0

관련 기사