기술/연구

“AI 순위, 진짜 믿을 수 있나?” 1300억 투자 LM Arena, 조작 논란에 '발칵'

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.05.22 04:25

기사 3줄 요약

1 LM Arena, 1억 달러(약 1300억 원) 투자 유치 성공
2 앤드리슨 호로위츠 등 유명 투자사 대거 참여해 기대감 상승
3 AI 모델 순위 공정성 및 조작 논란 함께 불거져 파장

최근 AI 업계의 '성적표'로 불리며 주목받던 LM Arena가 약 1300억 원(1억 달러)이라는 어마어마한 시드 투자를 유치했다는 소식이 전해졌습니다. 하지만 동시에 AI 모델 순위의 공정성을 두고 '조작 논란'까지 불거지면서, 과연 이 AI 순위를 믿어도 되는지에 대한 의문이 커지고 있습니다. 이번 투자 유치와 논란은 AI 기술의 평가 방식과 신뢰성에 대한 중요한 질문을 던지고 있습니다.

LM Arena가 뭐길래 이렇게 난리야?

LM Arena는 2023년에 설립된 AI 모델 평가 플랫폼으로, 주로 미국 UC 버클리 소속 연구진들이 운영하고 있습니다. 이곳은 OpenAI의 GPT 시리즈나 구글의 제미나이, 앤트로픽의 클로드 같은 유명 AI 모델들을 사용자들이 직접 비교 평가하고, 그 결과를 바탕으로 순위를 매기는 'AI 모델 배틀' 방식으로 유명세를 탔습니다. 이전까지는 구글의 데이터 과학 플랫폼 '캐글'이나 유명 투자사 '앤드리슨 호로위츠(a16z)', '투게더 AI' 등으로부터 지원금이나 기부를 받아 운영되었습니다. 하지만 단순히 학문적인 프로젝트를 넘어, 이제는 어엿한 스타트업으로 발돋움하며 AI 업계의 뜨거운 관심을 한 몸에 받고 있습니다. 많은 AI 개발사들이 자사 모델의 성능을 알리고 경쟁력을 입증하는 창구로 LM Arena를 활용하고 있기 때문입니다. 그만큼 LM Arena의 순위는 AI 모델의 우수성을 나타내는 중요한 지표 중 하나로 여겨져 왔습니다.

1300억이나? 돈벼락 맞은 이유는?

이번 1억 달러 규모의 투자는 실리콘밸리의 유명 벤처캐피털(VC)인 '앤드리슨 호로위츠(a16z)'와 캘리포니아 대학교(UC)의 투자 부문인 'UC 인베스트먼츠'가 주도했습니다. 라이트스피드 벤처 파트너스, 펠리시스 벤처스, 클라이너 퍼킨스 등 쟁쟁한 투자사들도 참여하면서 LM Arena의 기업 가치는 무려 6억 달러(약 7800억 원)로 평가받았습니다. 이는 AI 기술이 발전함에 따라 객관적이고 신뢰할 수 있는 AI 모델 평가, 즉 벤치마킹(성능 비교 테스트)의 중요성이 얼마나 커졌는지를 보여주는 대목입니다. LM Arena 측은 투자금을 AI 모델 평가 플랫폼을 더욱 고도화하고, 평가의 투명성과 공정성을 높이는 데 사용할 계획이라고 밝혔습니다. 더 다양한 AI 모델을 공정하게 평가할 수 있도록 지원하고, 평가 기준과 방법론을 투명하게 공개하며, 외부 전문가의 참여를 확대하는 방안도 고려 중인 것으로 알려졌습니다. AI 기술이 세상을 바꾸는 만큼, 그 기술을 제대로 평가하는 기준 역시 중요해졌다는 공감대가 형성된 것입니다.

근데 왜 '조작' 얘기가 솔솔 나오는 거야?

문제는 이렇게 거액의 투자를 유치하며 승승장구하는 듯 보였던 LM Arena를 향해 최근 '리더보드 조작' 의혹이 제기되었다는 점입니다. 코히어(Cohere), 스탠퍼드 대학교, MIT, 알렌 인공지능 연구소(AI2) 등 유수의 연구기관 소속 연구자들이 LM Arena의 공정성에 의문을 제기하고 나선 것입니다. 이들은 LM Arena가 메타, OpenAI, 구글, 아마존 같은 특정 대형 AI 기업들에게만 유리하게 비공개 테스트를 여러 차례 허용하고, 성능이 낮게 나온 모델의 점수는 공개하지 않는 방식으로 리더보드 순위를 '관리'해왔다고 주장했습니다. 쉽게 말해, 특정 기업의 AI 모델이 더 좋아 보이도록 '꼼수'를 부렸다는 의혹입니다. LM Arena는 이러한 주장에 대해 "터무니없는 소리"라며 강력하게 반박하고 있지만, 논란은 쉽게 가라앉지 않고 있습니다. 만약 이러한 의혹이 사실이라면, 우리가 참고했던 AI 모델 순위의 신뢰성은 크게 흔들릴 수밖에 없습니다.

그래서 LM Arena, 믿고 걸러? 앞으로의 미래는?

이번 논란은 LM Arena에게 큰 숙제를 안겨주었습니다. 어떻게 하면 '보여주기'식 평가라는 의심에서 벗어나, AI 모델의 진짜 실력을 객관적으로 검증할 수 있는 신뢰받는 플랫폼으로 거듭날 수 있을지가 관건입니다. 투명한 평가 기준 공개, 다양한 전문가 집단의 검증 참여, 그리고 제기된 의혹에 대한 명확한 해명이 필요해 보입니다. AI 기술이 우리 생활 깊숙이 들어오면서, 어떤 AI가 더 뛰어나고 안전한지 판단하는 것은 매우 중요해졌습니다. LM Arena가 이번 논란을 어떻게 극복하고 AI 벤치마킹 분야에서 신뢰를 회복할 수 있을지, 혹은 또 다른 '그들만의 리그'로 남게 될지는 앞으로의 행보에 달려있습니다. 사용자들 역시 AI 모델의 순위나 평가를 맹신하기보다는 비판적인 시각으로 정보를 분별하는 자세가 필요합니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr