환영해🦉
기술/연구

AI 순위 조작? LM Arena, 구글·OpenAI만 밀어줬나

댓글 0 · 저장 0 2025.05.02 07:58
AI 순위 조작? LM Arena, 구글·OpenAI만 밀어줬나

기사 3줄 요약

  • 1 LM Arena AI 순위표, 대기업 모델 편향 논란 제기.
  • 2 비공개 테스트 남용, 불균등 샘플링 등 지적.
  • 3 투표 조작 가능성까지, 신뢰도 ‘흔들’.
요즘 어떤 AI가 가장 똑똑한지 보여주는 인기 순위표 'LM Arena'가 도마 위에 올랐습니다. 코히어 랩스, 프린스턴대, MIT 연구진이 "LM Arena가 구글, OpenAI 같은 대기업의 비공개(proprietary) 모델에 유리하게 편향되어 있다"는 연구 결과를 내놓았기 때문입니다. 한마디로 AI계의 빌보드 차트가 공정하지 않다는 의혹이 제기된 셈입니다.

AI 순위표, 정말 믿을 만해?

LM Arena는 사용자들이 두 AI 모델의 답변을 보고 더 마음에 드는 쪽에 투표하는 방식으로 순위를 매깁니다. 많은 사람이 AI 모델을 선택할 때 참고하는 중요한 지표였죠. 그런데 이번 연구는 이 순위표의 신뢰성에 큰 물음표를 던졌습니다. 연구진은 LM Arena가 특정 기업들에게 불공정한 이점을 제공한다고 주장합니다. 예를 들어, 메타(Meta) 같은 회사가 아직 공개하지 않은 여러 버전의 모델(예 Llama-4)을 몰래 테스트하고, 그중 가장 좋은 성적만 골라 순위표에 올릴 수 있게 허용했다는 점을 지적했습니다.

왜 불공정하다는 거야?

연구진이 지적하는 불공정 문제는 크게 세 가지입니다. 첫째, 비공개 테스트 남용입니다. 일부 기업이 수많은 비공개 모델을 테스트하며 '최상의 결과'만 공개해 순위를 인위적으로 높일 수 있다는 것입니다. 둘째, 불균등한 데이터 샘플링입니다. 구글과 OpenAI 모델이 전체 데이터의 34% 이상을 차지할 정도로 자주 등장하는데, 이는 해당 기업 모델들이 더 많은 평가 기회를 얻어 점수 올리기에 유리하다는 의미입니다. 오픈소스 모델 개발자들은 상대적으로 불리한 조건에 놓이게 됩니다. 셋째, '느낌 기반(vibes-based)' 평가 방식의 허점입니다. 사용자들이 답변의 정확성보다는 단순히 더 친절하거나 길게 설명하는, 즉 '사람 비위 잘 맞추는' AI를 선호하게 만들 수 있다는 지적입니다. 정작 중요한 문제 해결 능력보다는 겉으로 보이는 스타일에 점수가 좌우될 수 있다는 우려입니다.

투표 조작까지 가능하다고?

더 심각한 문제는 투표 조작 가능성입니다. 한 연구 논문("Improving Your Model Ranking on Chatbot Arena by Vote Rigging")에 따르면, 특정 모델에 유리하게 투표하는 방식으로 순위를 조작하는 것이 실제로 가능하다고 합니다. 특히 'Omnipresent Rigging'이라는 방식은 단 몇백 개의 투표만 조작해도 모델의 점수(Elo rating)를 크게 올려 순위를 바꿀 수 있음을 보여줬습니다. 돈과 자원이 많은 기업이 마음만 먹으면 얼마든지 순위를 조작할 수 있다는 뜻입니다. 최근 메타가 LM Arena 순위를 높이기 위해 대화 능력에만 최적화된 Llama 4 버전을 제출했다가 논란이 된 것도 이런 맥락입니다. 정작 공개된 버전은 성능이 떨어져 LM Arena 순위의 신뢰성에 대한 의문을 키웠습니다.

그럼 어떻게 바꿔야 할까?

연구진은 몇 가지 대안을 제시합니다. 비공개 테스트 횟수를 제한하고 그 결과를 투명하게 공개하며, 모든 모델이 공평하게 평가받도록 등장 횟수를 조정하고, 평가자에게 보상을 지급하는 방식 등입니다. 특정 분야 전문성을 평가하는 맞춤형 벤치마크나, 기업 내부적으로 약점을 찾는 테스트(Red Teaming)를 강화하는 방안도 거론됩니다.
대안 평가 방법 설명 예시
비공개 테스트 제한 AI 회사가 몰래 할 수 있는 테스트 횟수 제한 회사당 비공개 테스트 5회로 제한
점수 공개 비공개 테스트 점수도 모두 공개 잘 나온 점수뿐 아니라 모든 테스트 점수 공개 의무화
샘플링 비율 조정 모든 모델이 비슷한 횟수만큼 평가받도록 조정 모델별 평가 횟수 동일하게 맞추는 알고리즘 사용
평가자 보상 모델 평가에 참여하는 사람들에게 보상 지급 평가 시간과 노력에 대한 비용 지불
동적/전문 벤치마크 특정 분야(의료, 금융 등) 전문가가 평가하는 맞춤형 벤치마크 활용 의료 AI는 의사가, 금융 AI는 금융 전문가가 평가
물론 LM Arena가 AI 모델 평가를 대중화하고 사용자 참여를 이끌어낸 공로는 인정해야 합니다. 누구나 쉽게 AI 성능을 가늠해볼 수 있는 창구를 제공했죠. 하지만 이번 논란은 현재 AI 평가 방식의 한계를 명확히 보여줍니다. 앞으로 더 공정하고 신뢰할 수 있는 AI 평가 기준을 만드는 것이 중요해 보입니다. AI 기술이 발전하는 만큼, 그 기술을 제대로 평가하는 방법 역시 함께 발전해야 할 것입니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI 순위표 조작 가능성, 심각한 문제인가?

댓글 0

최신 기사

사용자 피드백