기술/연구

“코딩 실력 세계 1위?” 딥시크 V4, 가짜 성적표 딱 걸렸다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.02.16 11:29

기사 3줄 요약

1 딥시크 V4 벤치마크 점수 조작 논란
2 코딩 1위 주장했으나 전문가들 반박
3 수학 점수 99.4%는 불가능한 수치

시험 성적표를 받았는데, 만점보다 높은 점수가 적혀 있다면 믿을 수 있을까요. 최근 전 세계 AI 업계를 떠들썩하게 만든 ‘딥시크(DeepSeek)’의 신규 모델 성적표가 바로 이런 의혹에 휩싸였습니다. 중국의 AI 스타트업 딥시크가 곧 출시할 ‘딥시크 V4’가 코딩과 수학 능력에서 세계 1위를 기록했다는 소문이 돌았지만, 알고 보니 조작된 정보일 가능성이 매우 높다는 사실이 밝혀졌습니다.

딥시크 V4, 코딩 천재 등극하나 했더니

바이브 코딩 커뮤니티인 ‘브리지마인드’에 따르면, 최근 엑스(X, 옛 트위터)를 통해 딥시크 V4의 벤치마크 점수가 유출되었다는 주장이 제기되었습니다. 이들이 공개한 자료를 보면 딥시크 V4는 소프트웨어 문제를 해결하는 능력을 평가하는 ‘SWE-벤치’ 테스트에서 무려 83.7%라는 점수를 기록했습니다. 이는 현재 가장 똑똑하다고 알려진 앤트로픽의 ‘클로드 오퍼스 4.6’(80.8%)이나 오픈AI의 ‘GPT-5.2’(80.0%)를 가볍게 뛰어넘는 수치입니다. 심지어 수학 능력 테스트에서도 기적 같은 점수가 나왔습니다. 브리지마인드에 따르면, 딥시크 V4는 ‘AIME 2026’이라는 수학 시험에서 99.4%의 정답률을 기록했다고 합니다. 여기에 더해 초고난도 수학 문제를 다루는 ‘프론티어매스’ 테스트에서도 타의 추종을 불허하는 신기록을 세웠다고 주장했습니다. 이 수치만 보면 딥시크 V4는 그야말로 인류 역사상 가장 강력한 ‘AI 천재’가 탄생한 것처럼 보였습니다.

수학 만점이 100점인데 110점 받았다?

하지만 이 화려한 성적표는 금세 거짓말 논란에 휩싸였습니다. 벤치마크를 직접 개발하고 관리하는 전문가들이 즉각 반박에 나섰기 때문입니다. 에포크 AI(Epoch AI)의 책임자인 제미이 세비야에 따르면, 해당 트윗에 포함된 프론티어매스 점수는 명백한 허위 사실입니다. 그는 “이 데이터셋은 우리와 오픈AI만 접근할 수 있는 비공개 자료”라며 “우리는 딥시크 V4를 평가한 적이 없다”라고 딱 잘라 말했습니다. 더 황당한 것은 수학 테스트 점수였습니다. 엑스(X)의 집단지성 검증 시스템인 ‘커뮤니티 노트’에 따르면, 딥시크 V4가 받았다는 99.4%라는 점수는 애초에 나올 수가 없는 숫자였습니다. 해당 시험의 만점 기준을 계산해 보면 나올 수 있는 최고 점수 비율은 99.2%거나 100%여야 하기 때문입니다. 마치 100점 만점 시험에서 100.5점을 받았다고 주장한 셈이라, 조작의 증거가 너무나 명확하게 드러나고 말았습니다.

신뢰 잃은 AI, 기술보다 투명성이 먼저다

이번 ‘가짜 벤치마크’ 소동은 AI 업계에 큰 충격을 주었습니다. 딥시크는 그동안 성능 좋은 오픈소스 모델을 내놓으며 많은 개발자의 기대를 한 몸에 받아왔습니다. 하지만 이번 사건으로 인해 ‘성능 부풀리기’라는 꼬리표가 붙을 위기에 처했습니다. 아무리 기술이 좋아도 거짓된 정보로 포장한다면 사용자의 신뢰를 얻을 수 없습니다. 전문가들은 이번 사건이 단순한 해프닝을 넘어 AI 성능 평가의 투명성을 다시 생각하게 만드는 계기가 되었다고 지적합니다. 누구나 납득할 수 있는 객관적인 검증 절차 없이는 제아무리 높은 점수도 ‘그림의 떡’일 뿐입니다. 딥시크 V4가 실제로 출시되었을 때 과연 어떤 성능을 보여줄지, 그리고 잃어버린 신뢰를 회복할 수 있을지 전 세계가 주목하고 있습니다.