“AI가 다 해준다며?” 실제 업무 시켜보니 ‘24점’ 낙제
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2026.01.23 07:32
기사 3줄 요약
- 1 AI, 실제 전문직 업무 평가서 24점 낙제점 받아
- 2 여러 도구 오가는 복잡한 맥락 파악 못해 한계 노출
- 3 성능 부족하나 1년 새 2배 성장해 미래는 예측 불가
“AI 때문에 내 직업이 사라질까?”
최근 2년 사이 많은 사람이 이런 고민을 한 번쯤 해봤을 겁니다. 마이크로소프트의 CEO 사티아 나델라 역시 AI가 지식 노동을 대체할 것이라 예언하기도 했습니다. 그런데 최근 발표된 충격적인 성적표가 이 예상을 뒤집고 있습니다.
최고의 AI 모델들도 실제 업무 현장에서는 ‘낙제점’을 받았다는 사실이 드러났기 때문입니다.
인턴보다 못한 AI의 현실
데이터 기업 머코(Mercor)에 따르면 최근 ‘에이펙스 에이전트(Apex-Agents)’라는 새로운 벤치마크 테스트가 진행되었습니다. 이 테스트는 단순한 지식 암기가 아닌 컨설팅, 투자 은행, 법률 등 실제 전문직 업무를 얼마나 잘 수행하는지 평가했습니다. 결과는 처참했습니다. 현존하는 최고 성능의 AI 모델들조차 정답률이 25%를 넘지 못했습니다. 우리가 흔히 쓰는 챗GPT나 제미나이 같은 AI들이 실제로는 4문제 중 1문제도 겨우 맞히는 수준이라는 뜻입니다. 연구진은 AI가 마치 ‘일 못하는 인턴’과 같다고 평가했습니다. 특히 법률 분야 테스트에서 AI의 한계가 명확히 드러났습니다. 예를 들어 유럽의 개인정보보호 규정(GDPR)과 기업 내부 정책을 동시에 고려해야 하는 복잡한 상황에서 AI는 맥락을 전혀 파악하지 못했습니다. 단편적인 지식은 뛰어나지만, 여러 정보를 종합해 판단하는 능력은 여전히 인간을 따라오지 못하고 있습니다.슬랙과 구글 드라이브가 AI의 무덤?
AI가 이렇게 맥락을 못 짚는 결정적인 이유는 ‘다중 도메인 추론’ 능력의 부재 때문입니다. 직장인들은 업무를 할 때 슬랙(Slack)에서 대화를 나누고, 구글 드라이브에서 문서를 찾으며, 이메일을 확인하는 등 여러 도구를 동시에 사용합니다. 하지만 AI는 이렇게 흩어진 정보를 하나로 꿰어 맞추는 데 치명적인 약점을 보였습니다. 연구를 주도한 브렌든 푸디는 “실제 업무는 한곳에서 모든 정보를 주지 않는다”며 AI가 정보의 파편들을 연결하지 못해 엉뚱한 답을 내놓거나 아예 답변을 포기했다고 설명했습니다. 그나마 구글의 ‘제미나이 3 플래시’가 24%의 정답률로 1위를 차지했고, 오픈AI의 ‘GPT-5.2’가 23%로 그 뒤를 이었습니다. 앤트로픽의 모델들도 18% 수준에 머물렀습니다. 1등조차 24점인 시험이라니, AI가 인간의 자리를 위협하기엔 아직 시기상조라는 말이 나오는 이유입니다.방심은 금물, 성장 속도가 무섭다
지금 당장은 AI가 우리 일을 대신할 수 없어 보입니다. 하지만 전문가들은 안심하기엔 이르다고 경고합니다. 작년까지만 해도 AI의 업무 수행 정답률은 고작 5~10% 수준이었습니다. 불과 1년 만에 성능이 두 배 이상 훌쩍 뛴 것입니다. 브렌든 푸디는 “지금은 4번 중 1번 성공하는 인턴이지만, 매년 성능이 비약적으로 발전하고 있다”고 강조했습니다. 이 속도라면 머지않아 ‘일 잘하는 경력직’ 수준의 AI가 등장할지도 모릅니다. 결국 AI는 당장 우리를 대체하지 못하겠지만, 그 격차는 무섭게 좁혀지고 있습니다. 우리는 AI가 못하는 ‘맥락 파악’과 ‘종합적 사고’ 능력을 더 키워야 할 때입니다. 과연 내년 이맘때 AI는 몇 점을 받게 될까요?
편집: 이도윤 기자
이메일: aipick@aipick.kr
부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI가 1년 내 전문직 업무 50점 이상 받을까?
가능하다
0%
0명이 투표했어요
불가능하다
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사