산업/비즈니스

아마존 폭로? AI 코딩 도우미, 절반도 못 맞춰…거품이었나

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.24 08:15

기사 3줄 요약

1 아마존, 새 AI 코딩 능력 평가 기준 ‘SWE-PolyBench’ 공개
2 GPT-4 등 최신 AI 모델, 실제 개발 문제 해결 능력 50% 미만
3 여러 언어·복잡한 작업 평가 강화…AI 코딩 도우미 한계 드러나

개발자 여러분, 잠시 주목하세요. 아마존이 공개한 ‘SWE-PolyBench’라는 새로운 평가 기준 때문에 AI 코딩 도우미들의 가면이 벗겨졌습니다. 이 도구들이 실제로는 아직 복잡한 코딩 문제를 해결하는 데 서툴다는 ‘불편한 진실’이 드러난 것입니다. 이건 간단한 ‘Hello, World!’ 테스트가 아닙니다. 실제 소프트웨어 개발 현장에서 마주칠 법한 어려운 문제들로 가득 찬 혹독한 시험대입니다. GPT-4나 클로드 옵스와 같은 최신 AI 모델들도 이 시험대 위에서는 오류를 쏟아내며 맥을 못 추고 있습니다. 마케팅 문구는 잠시 잊으세요. SWE-PolyBench가 AI 코딩 열풍에 냉혹한 현실을 일깨워주고 있습니다.

SWE-PolyBench, 뭐가 그렇게 다른데?

그렇다면 SWE-PolyBench가 왜 AI 성능을 가늠하는 궁극의 시험대로 불리는 걸까요? 마치 노련한 엔지니어가 코드를 해부하듯, 그 특징을 자세히 살펴보겠습니다. * 여러 언어 실력 동시 평가: SWE-PolyBench는 파이썬만 다루는 쉬운 시험이 아닙니다. 자바, 자바스크립트, 타입스크립트, 파이썬 등 실제 기업에서 가장 많이 쓰이는 여러 언어를 동시에 평가합니다. 한 가지 언어만 잘하는 AI는 여기서 통하지 않습니다. 실제 개발팀처럼 여러 언어를 다룰 줄 알아야 합니다. * 진짜 개발 문제 사용: 교과서적인 예제가 아니라, 실제 사용되는 21개 프로그램 저장소에서 가져온 2,110개 이상의 실제 문제들을 사용합니다. 버그 수정, 새로운 기능 추가, 코드 정리 등 베테랑 개발자도 골치 아파할 만한 문제들이죠. 웹 프레임워크, 코드 편집기, 머신러닝 도구 등 실제 소프트웨어 개발의 핵심 영역을 다룹니다. 이론적인 문제가 아닌, 실제 개발 현장의 어려움을 반영한 것입니다. * 깐깐한 채점 방식: 단순히 문제를 해결했는지(Pass/Fail)만 보는 게 아닙니다. 코드의 어느 부분을 정확히 수정해야 하는지 구체적인 위치(CST 노드 수준)까지 찾아내는 능력을 평가합니다. 마치 외과 의사가 암세포만 정확히 도려내야 하듯, AI도 문제 지점만 정밀하게 수정해야 높은 점수를 받습니다. 대충 해결하는 건 용납되지 않습니다. * 다양한 업무 능력 평가: 버그 수정, 기능 추가, 코드 리팩토링(정리) 등 소프트웨어 개발자가 겪는 다양한 종류의 문제를 모두 포함합니다. 특정 분야만 잘하는 AI가 아니라, 다방면에 능숙한 ‘풀스택’ 역량을 요구합니다. * 새로운 평가 지표 도입: 단순히 성공/실패 여부를 넘어, 파일 수준에서 문제 위치를 찾는 능력(localization)과 코드 구조 변경 지점을 찾는 능력(CST node-level retrieval) 같은 더 세밀한 지표로 AI의 진짜 실력을 평가합니다. 마치 F1 드라이버의 코너링 기술이나 타이어 관리 능력까지 평가하는 것과 같습니다. 합격/불합격이 아닌, 정밀한 분석을 하는 것이죠.

충격적인 결과, AI 아직 멀었다?

결과는 어땠을까요? 충격적이게도, 대부분 AI 모델의 평균 점수가 50%를 넘지 못했습니다. 특히 여러 파일을 동시에 수정해야 하거나, 클래스와 함수 구조를 모두 바꿔야 하는 복잡한 문제에서는 성능이 뚝 떨어졌습니다. 그나마 파이썬 관련 문제에서는 점수가 높았지만(학습 데이터가 많기 때문으로 추정), 문제가 복잡해지면 파이썬 전문가 AI조차 어려움을 겪었습니다. 결국 ‘불편한 진실’은 AI 코딩 도우미가 아직 인간 개발자를 대체하기에는 한참 부족하다는 것입니다. 복잡한 문제 앞에서는 오류를 내기 쉬운, 똑똑한 자동완성 도구에 가깝다는 평가입니다.

벤치마크	언어	작업 유형	주요 특징	한계점
SWE-PolyBench	Java, JS, TS, Python	버그 수정, 기능 추가, 리팩토링	실제 환경 반영, 코드 이해도 중시	코드 품질/보안 평가는 미흡
SWE-bench	Python	버그 수정	깃허브 이슈 기반	단일 언어, 특정 저장소 편중
HumanEval	Python	코드 생성	함수 단위 코드 생성	실제 개발 작업과 거리 있음
APPS	Python	코드 생성	프로그래밍 문제 해결	실제 소프트웨어 공학 시나리오 미반영

앞으로 AI 코딩은 어떻게 될까?

SWE-PolyBench의 등장은 몇 가지 중요한 점을 시사합니다. * 냉정한 현실 인식: AI 코딩 도우미에 대한 막연한 기대를 경계해야 합니다. 아직 스스로 완벽한 소프트웨어를 만들 수준은 아니며, 복잡한 문제에는 약점을 보입니다. SF 영화 같은 상상은 잠시 접어둬야 합니다. * 새로운 연구 방향 제시: AI 연구자들에게 단순 반복 작업 능력을 넘어, 깊이 있는 추론, 여러 단계를 거친 문제 해결, 다양한 언어를 넘나드는 능력을 개발해야 한다는 과제를 던졌습니다. 단순히 코드 조각을 외워 뱉어내는 것을 넘어, 진짜 ‘생각’하는 AI가 필요합니다. * 기대치 재조정: AI 코딩 도구는 개발자를 대체하는 존재가 아니라, 생산성을 높여주는 ‘보조 도구’로 바라봐야 합니다. AI 조수이지, AI 주인이 아닙니다. 적절한 영역에서 활용하는 지혜가 필요합니다. 물론 SWE-PolyBench 자체도 완벽하지는 않습니다. 연구 논문에서도 언급하듯, 실제 개발자가 하는 모든 종류의 작업을 다루지 못하고, 코드의 품질이나 보안 취약점까지 평가하지는 못합니다. 또한 공개된 데이터를 사용했기에 AI가 이미 학습했을 가능성(데이터 유출)도 배제할 수 없습니다. 하지만 SWE-PolyBench는 중요한 이정표입니다. 현재 AI의 부족한 점을 명확히 보여주는 동시에, 앞으로 나아가야 할 방향을 제시합니다. AI가 약한 부분을 집중적으로 개선한다면, 단순 자동완성을 넘어 개발 생산성을 혁신하는 진정한 파트너 AI를 만들 수 있을 것입니다. 이제 AI는 스스로를 증명해야 할 때입니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr