기술/연구

AI 코딩 도우미, 진짜 실력 들통? 아마존 새 평가 기준 보니…

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.27 20:51

기사 3줄 요약

1 아마존, 새 AI 코딩 평가 기준 'SWE-PolyBench' 공개.
2 다양한 언어·지표로 AI 코딩 도우미 실력 정밀 측정.
3 기존 AI, 파이썬 외 언어 약점 노출… 성능 편차 확인.

코딩할 때 AI 도움, 이제 흔한 일이 되었습니다. 그런데 우리가 믿고 쓰는 AI 코딩 도우미, 과연 진짜 실력은 어떨까요? 세계적인 IT 기업 아마존(AWS)이 'SWE-PolyBench'라는 새로운 AI 코딩 능력 시험지를 공개했습니다. 이 시험 결과를 보니, AI들이 특정 언어만 유독 잘하거나 복잡한 문제 앞에서 약한 모습을 보여 개발자들이 술렁이고 있습니다.

그래서 뭐가 다른데?

기존에도 AI 코딩 실력을 평가하는 기준(벤치마크)은 있었습니다. 하지만 대부분 특정 언어(주로 파이썬)에 치우치거나, 단순히 코드 실행 성공 여부만 따지는 경우가 많았습니다. 실제 개발 환경에서는 여러 언어를 쓰고, 코드 수정 시 어디를 어떻게 고쳐야 하는지 정확히 아는 능력이 중요한데, 기존 평가로는 이런 실력을 제대로 알기 어려웠습니다. 아마존이 만든 SWE-PolyBench는 이런 점을 보완했습니다. 자바, 자바스크립트, 타입스크립트, 파이썬 등 현장에서 많이 쓰는 4가지 언어를 포함하고, 2110개의 실제 개발과 유사한 문제(버그 수정, 기능 추가, 코드 개선 등)를 담았습니다. 더 중요한 것은 평가 방식입니다. 단순히 정답/오답만 보는 게 아니라, AI가 문제 해결을 위해 △얼마나 정확하게 필요한 파일을 찾아냈는지(파일 수준 지역화) △코드의 어떤 부분을 고쳐야 하는지(코드 구조 수준 검색)까지 세세하게 평가합니다. 마치 학생의 답안지만 보는 게 아니라, 문제 풀이 과정까지 채점하는 것과 같습니다.

직접 써보니 결과는?

이렇게 깐깐한 기준으로 AI 코딩 도우미들을 평가해보니 흥미로운 결과가 나왔습니다. 예상대로 대부분의 AI는 파이썬 문제를 가장 잘 풀었습니다. 이는 AI 학습 데이터에 파이썬이 워낙 많기 때문으로 분석됩니다. '파이썬 편식' 현상이 확인된 셈입니다. 또한, 문제가 복잡해질수록 AI들의 성능이 뚝 떨어지는 모습도 보였습니다. 특히 여러 파일을 동시에 수정해야 하거나, 코드 구조를 깊이 이해해야 하는 문제 앞에서 약점을 드러냈습니다. 이는 현재 AI 코딩 도우미들이 아직 복잡한 실제 개발 프로젝트를 완전히 이해하고 처리하기에는 한계가 있음을 보여줍니다. 아래 표는 SWE-PolyBench가 분석한 언어별 코드 변경 복잡도 예시입니다. 자바의 경우 여러 코드 구조(클래스, 함수)를 동시에 변경해야 하는 복합적인 작업 비중(66.06%)이 다른 언어보다 훨씬 높다는 것을 알 수 있습니다.

언어	변경 없음	함수만 변경	클래스만 변경	복합 변경 (함수+클래스 등)	평균 함수 변경 수	평균 클래스 변경 수	평균 총 변경 지점 수
파이썬	1.48%	67.26%	3.27%	27.99%	2.81	0.72	3.54
자바	0.00%	17.58%	16.36%	66.06%	2.82	6.99	9.81
자바스크립트	12.88%	84.27%	0.00%	2.85%	1.38	0.00	1.38
타입스크립트	30.59%	55.69%	0.00%	13.72%	1.15	0.00	1.15

아직 완벽하진 않다고?

SWE-PolyBench가 기존보다 훨씬 발전된 평가 기준인 것은 맞지만, 이것만으로 AI 코딩 능력을 100% 알 수 있는 것은 아닙니다. 실제 개발에는 코드 작성 외에도 시스템 설계, 테스트, 배포 등 훨씬 다양한 작업이 포함되는데, 이 부분까지 평가하지는 못합니다. 또한, 코드가 단순히 작동하는 것을 넘어 얼마나 효율적이고 안전한지, 다른 개발자가 이해하기 쉽게 작성되었는지 등 '코드 품질' 측면도 아직 제대로 평가하기 어렵습니다. AI가 만든 코드가 테스트는 통과했지만, 보안에 취약하거나 유지보수가 어려운 코드일 수도 있다는 의미입니다. 결론적으로 SWE-PolyBench는 AI 코딩 도우미의 진짜 실력을 더 객관적으로 파악하고, 앞으로 어떤 방향으로 발전해야 할지 알려주는 중요한 기준이 될 것입니다. 개발자들은 이런 평가 결과를 참고해 AI 도구를 맹신하기보다는, 자신의 작업에 맞게 현명하게 활용하는 방법을 고민해야 합니다. AI 코딩 도우미, 이제는 겉모습만 보고 판단할 때가 아닙니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr