믿었던 AI 순위마저 조작? 메타·구글 특혜 의혹
댓글 0
·
저장 0
2025.05.01 09:59

기사 3줄 요약
- 1 LM Arena, 대형 AI 기업 특혜 주는 벤치마크 조작 의혹
- 2 비공개 테스트 후 최고 점수 모델만 공개, 불공정 논란
- 3 AI 평가 신뢰도 추락, 투명성 강화 및 새 평가 방식 요구
최근 인공지능(AI) 업계가 발칵 뒤집혔습니다. AI 모델 성능을 비교하고 순위를 매기는 유명 플랫폼 'LM Arena'가 특정 대기업들에게 유리하게 시스템을 조작했다는 의혹이 제기된 것입니다. 코히어, 스탠포드대, MIT 등 유명 연구기관 소속 연구진들이 이런 내용을 담은 연구 결과를 발표하면서 논란이 커지고 있습니다.
LM Arena의 '챗봇 아레나'는 여러 AI 챗봇들을 경쟁시켜 순위를 매기는 곳으로 많은 개발자와 사용자들이 참고하는 지표였습니다. 그런데 이번 연구는 이 순위의 공정성에 심각한 의문을 제기합니다. 메타, OpenAI, 구글, 아마존 같은 거대 기술 기업들이 혜택을 받았다는 주장입니다.
LM Arena는 모델 간 공정한 경쟁 기회를 보장하기 위해 새로운 샘플링 알고리즘을 개발하겠다고 발표했지만, 비공개 테스트 제한이나 점수 전체 공개 같은 더 근본적인 요구는 받아들이지 않았습니다. 새 알고리즘이 언제 적용될지도 미지수입니다.
이번 사건은 AI 벤치마크의 한계와 투명하고 신뢰할 수 있는 평가 방식의 중요성을 다시 한번 일깨워줍니다. AI 기술이 점점 더 복잡해지고 우리 삶에 깊숙이 들어오는 만큼, 단순히 순위 점수만 볼 것이 아니라 실제 성능, 안정성, 윤리적 문제 등 다양한 측면을 종합적으로 고려해야 합니다. AI 순위만 믿었다간 큰코다칠 수 있다는 교훈을 얻었습니다.
이게 무슨 일이야? AI 순위 조작설?
연구진이 지적하는 가장 큰 문제는 바로 '비공개 테스트와 선택적 공개'입니다. 예를 들어 메타는 새로운 AI 모델인 '라마 4'를 출시하기 전에 무려 27개의 다른 버전 모델들을 LM Arena에서 몰래 테스트했다고 합니다. 하지만 최종적으로는 그중 가장 성능이 좋게 나온 단 하나의 모델 점수만 대중에게 공개했다는 것입니다. 다른 버전들의 점수는 공개되지 않고 조용히 사라졌습니다. 이런 방식이라면 기업들은 수많은 모델을 시험해보고 가장 잘 나온 결과만 '짠'하고 보여줄 수 있습니다. 마치 시험을 여러 번 보고 가장 잘 본 점수만 제출하는 것과 비슷합니다. 또 다른 문제는 특정 기업의 모델들이 평가 대결에 더 자주 등장하도록 설정되었다는 의혹입니다. 더 많이 싸울 기회를 얻으니 순위가 올라갈 확률도 높아집니다. 게다가 누구나 자유롭게 쓸 수 있는 오픈소스 모델들은 상대적으로 불리하게 평가에서 제외되는 비율이 높았다는 점도 지적됐습니다. 오픈소스 모델 243개 중 205개가 조용히 사라졌다고 합니다.LM Arena는 뭐라고 해명하는데?
LM Arena 측은 연구 결과가 부정확하고 분석에 문제가 있다며 혐의를 강력히 부인했습니다. 개선할 점이 있다는 것은 인정하면서도, 현재의 정책이 기업들이 좋은 점수만 골라내는 '체리피킹'을 막기 위한 것이라고 방어했습니다. 하지만 비판적인 전문가들은 LM Arena의 해명이 핵심을 비껴갔다고 지적합니다. AI 전문가 사이먼 윌리슨은 "상업적 회사들이 수십 개 모델을 제출하고 최고 점수만 공개한 뒤 나머지를 조용히 철회할 수 있다면, 그건 시스템을 악용하도록 적극적으로 부추기는 꼴"이라고 꼬집었습니다.그래서 앞으로 어떻게 되는 건데?
이번 논란으로 AI 커뮤니티는 LM Arena 순위 점수를 더 이상 신뢰하기 어렵다는 반응을 보이고 있습니다. '리더보드 착시 현상'이라는 논문까지 나오면서, 단순히 벤치마크 점수만으로 AI 성능을 평가하는 방식의 한계에 대한 논의가 활발해졌습니다. 유명 AI 연구자 안드레이 카파시는 실제 사용 사례를 기반으로 하는 'OpenRouterAI LLM 순위' 같은 대안적인 평가 방식을 제안하기도 했습니다. 많은 사람들이 LM Arena에 각 기업이 테스트한 모델 버전 수와 모든 테스트 점수를 투명하게 공개하라고 요구하고 있습니다.연구진의 개선 요구사항 | LM Arena의 입장 |
---|---|
비공개 테스트 횟수 투명하게 제한 | 거부 |
모든 테스트 점수 공개 | 거부 |
모든 모델에 동등한 평가 기회 부여 | 새로운 샘플링 알고리즘 개발 예정 |

부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 벤치마크 조작, 대기업 특혜인가?
댓글 0개
관련 기사
최신 기사



