기술/연구

아마존 폭로! AI 코딩, 문제 25%밖에 못 푸는 '불편한' 진실?

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.24 20:05

기사 3줄 요약

1 아마존, AI 코딩 능력 평가 벤치마크 공개.
2 최상위 AI도 실제 문제 25%만 해결 밝혀져.
3 단순 코딩 넘어 복잡한 개발 능력 부족 드러나.

AI가 알아서 코딩 다 해준다는 이야기, 많이 들어봤을 겁니다. 그런데 세계적인 IT 기업 아마존이 최근 공개한 자료를 보면, 현실은 광고와는 조금 다른 것 같습니다. 아마존은 'SWE-PolyBench'라는 새로운 AI 코딩 도우미 성능 평가 기준을 내놓았는데, 결과가 꽤나 놀랍습니다. 광고 속 AI는 뭐든 척척 해낼 것 같지만, 현실은 달랐습니다. 2025년 4월 기준으로, 이름만 대면 알만한 최첨단 AI 모델들 조차도 SWE-PolyBench가 제시한 실제 개발 문제 중 약 25%밖에 풀지 못했습니다. AI가 인간 개발자를 완전히 대체할 거라는 예상과는 거리가 먼 결과입니다.

AI 코딩, 광고랑 너무 다르잖아?

기존의 AI 코딩 평가는 'HumanEval'이나 'MBPP'처럼 비교적 간단한 알고리즘 문제 풀이에 집중했습니다. 하지만 SWE-PolyBench는 다릅니다. 실제 개발자들이 현장에서 겪는 복잡한 문제 355개를 가져왔습니다. 코드 오류를 찾아 고치는 디버깅, 코드 구조를 개선하는 리팩토링, 외부 서비스를 연결하는 API 통합 등 훨씬 현실적인 과제들입니다. AI가 기본적인 함수 만들기는 잘하지만, 복잡한 시스템 오류를 잡거나 전체 구조를 짜는 데는 아직 어려움을 겪는다는 사실이 드러났습니다. 여러 부품이 얽힌 시스템 구조를 파악하거나, 서로 다른 프로그램 요소들이 어떻게 연결되어 작동하는지 이해하는 능력은 아직 부족하다는 뜻입니다.

진짜 개발 문제 풀어보니… 현실은?

SWE-PolyBench는 자바(Java), 자바스크립트(JavaScript), 타입스크립트(TypeScript), 파이썬(Python) 등 다양한 프로그래밍 언어를 지원합니다. 평가 결과, AI는 파이썬 관련 문제를 가장 잘 풀었습니다. 아마 학습 데이터가 많기 때문일 겁니다. 하지만 실제 개발 환경에서는 여러 언어를 함께 쓰는 경우가 많기 때문에, AI도 다양한 언어에 능숙해져야 합니다. 이 벤치마크는 단순히 정답/오답만 따지지 않습니다. 더 깊이 있는 평가를 위해 새로운 기준을 도입했습니다. 예를 들어 '파일 수준 위치 파악' 능력은 AI가 수많은 파일 중에서 어떤 파일을 수정해야 하는지 정확히 찾아내는지를 봅니다. 마치 자동차 정비사가 엔진 문제인지, 브레이크 문제인지 큰 시스템부터 파악하는 것과 비슷합니다. 또 'CST 노드 수준 검색' 능력은 해당 파일 안에서도 정확히 어떤 코드 부분을 고쳐야 하는지 찾아내는지를 평가합니다. 정비사가 엔진 중에서도 어떤 부품(점화 플러그, 피스톤 등)을 손봐야 하는지 정확히 짚어내는 것에 비유할 수 있습니다.

뭘로 평가하는데? 아마존의 깐깐한 기준

SWE-PolyBench의 355개 문제는 12가지 유형과 4가지 난이도로 나뉩니다. 문제 유형에는 버그 수정, 새로운 기능 추가 요청, 코드 효율성 및 가독성을 높이는 리팩토링, 외부 서비스 연동 등이 포함됩니다. 난이도는 코드 한 줄만 바꾸는 '단순' 수준부터, 여러 파일을 넘나들며 시스템 구조에 대한 깊은 이해가 필요한 '복잡', '매우 복잡' 수준까지 다양합니다. 코드 수정이 함수 단위에서만 이뤄졌는지, 클래스 구조까지 건드렸는지, 아니면 설정 파일만 바꿨는지 등 수정의 복잡성도 세분화해서 평가합니다. 아마존은 이 SWE-PolyBench를 누구나 사용할 수 있도록 공개했습니다. 개발자들이 직접 참여하고 기여하면서 AI 코딩 기술을 함께 발전시키자는 취지입니다. 투명한 평가를 통해 AI 기술의 현주소를 정확히 알고, 더 나은 방향으로 나아가자는 의미있는 움직임입니다.

그래서 누가 제일 잘했어? (결과는 좀...)

2025년 4월 11일 기준으로 발표된 몇몇 주요 AI 코딩 도우미들의 성적표는 다음과 같습니다. 이 결과는 당시 기준이며, AI 기술은 계속 발전하고 있다는 점을 감안해야 합니다.

모델	전체 정답률 (%)	Java 정답률 (%)	Python 정답률 (%)	JavaScript 정답률 (%)	TypeScript 정답률 (%)
Amazon Q Developer Agent (v20240402)	22.61	26.67	31.16	20.94	21.67
Aider-PB (Sonnet 3.5)	14.08	15.76	24.12	12.59	13.03
Agentless-PB (Sonnet 3.5)	7.82	10.91	20.1	7.18	4.66

보시다시피 가장 성능이 좋았던 아마존 자체 모델조차 전체 문제의 약 4분의 1 정도만 해결했습니다. 이는 AI 코딩 도우미가 아직 개선될 여지가 많다는 것을 명확히 보여줍니다.

아직은 갈 길이 멀다!

물론 SWE-PolyBench도 완벽하지는 않습니다. 실제 개발 과정의 모든 미묘한 측면이나 코드 품질까지 완벽하게 측정하지는 못할 수 있습니다. 평가 데이터 자체에 편향이 있을 수도 있습니다. 하지만 중요한 것은 SWE-PolyBench가 AI 코딩 도우미의 현실적인 능력을 보여주는 '경종'을 울렸다는 점입니다. AI가 당장 내일 개발자를 대체하는 일은 일어나지 않을 겁니다. 중요한 것은 AI의 현재 한계를 정확히 이해하고, 이를 바탕으로 더 유용하고 신뢰할 수 있는 코딩 도구를 만들어 나가는 것입니다. SWE-PolyBench는 그 여정에 중요한 이정표가 될 것입니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr