기술/연구

메타 '벤치마크 조작' 의혹... 실제 마베릭 AI는 경쟁자보다 한참 뒤처져

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.12 08:20

기사 3줄 요약

1 메타의 마베릭 AI, 벤치마크와 실제 성능 차이 논란
2 실험용 버전은 2위, 일반 버전은 경쟁자보다 뒤처져
3 AI 평가 시스템의 투명성과 신뢰성 문제 대두

메타의 마베릭 AI 모델이 벤치마크 조작 의혹으로 뜨거운 논란에 휩싸였습니다. 그동안 AI 업계에서는 모델의 성능을 평가하기 위해 다양한 벤치마크 테스트를 활용해왔는데, 이번에는 메타가 이 과정에서 '꼼수'를 부렸다는 의혹이 제기된 것입니다.

무슨 일이 있었나?

메타는 LM 아레나라는 플랫폼에 마베릭 AI의 '실험용 채팅 버전'을 제출했습니다. LM 아레나는 사람 평가자들이 여러 AI 모델의 출력을 비교하고 어떤 모델이 더 나은지 평가하는 곳인데요. 이 실험용 버전은 놀랍게도 2위라는 높은 순위를 기록했습니다. 문제는 여기서 시작됩니다. 일반 개발자들이 실제로 사용할 수 있는 '바닐라' 마베릭 모델의 성능은 이와 크게 달랐습니다. 이 일반 버전은 GPT-4o, 클로드 3.5, 제미나이 1.5와 같은 경쟁 모델들보다 훨씬 뒤처지는 성능을 보인 것입니다.

벤치마크 게임이 도를 넘었나?

메타는 대화능력에 특화된 미세 조정 버전을 벤치마크에 제출함으로써 시스템을 교묘하게 이용했다는 비판을 받고 있습니다. 비평가들은 이런 행동이 개발자들을 오도하고 메타 AI 모델에 대한 신뢰를 떨어뜨리는 행위라고 지적합니다. X(구 트위터)에서 여러 AI 연구자들은 공개적으로 다운로드 가능한 마베릭과 LM 아레나에 호스팅된 모델 사이의 뚜렷한 행동 차이를 지적했습니다. LM 아레나 버전은 이모지를 사용하고 장황한 응답을 생성하는 경향이 있었다고 합니다.

메타의 입장은?

이러한 의혹에 대해 메타는 벤치마크 테스트에 실험적인 버전을 사용했다는 사실을 인정했습니다. 메타 대변인은 벤치마크에 맞게 모델을 조정하는 것이 실제 다양한 상황에서의 성능 차이를 감안할 때 오해를 불러일으킬 수 있다고 시인했습니다. 그러나 메타는 벤치마크 점수를 인위적으로 높이거나 모델의 약점을 숨기기 위해 특별히 훈련시켰다는 의혹은 부인했습니다. 회사 측은 다양한 변형을 실험하는 것이 일반적이며, 테스트 세트에 대한 훈련은 하지 않았다고 주장하면서 불일치는 구현 문제 때문이라고 설명했습니다.

이 논란이 왜 중요한가?

이번 사건은 AI 모델 평가의 투명성과 공정성에 관한 논의를 촉발시켰습니다. AI 커뮤니티는 LM 아레나가 실제 성능을 정확하게 반영할 수 있는지에 대한 의문을 제기하고 있습니다. LM 아레나는 인간 평가자에 의존하기 때문에 주관성이 개입되고 조작 가능성이 있다는 지적입니다. 벤치마크된 모델과 공개적으로 사용 가능한 모델 간의 차이는 개발자들을 오도할 수 있으며, 이는 어떤 모델을 사용할지 결정할 때 중요한 영향을 미칩니다. 이 상황은 실제 성능을 정확하게 반영하고 AI 산업의 투명성을 촉진하는 더 포괄적이고 의미 있는 AI 평가 방법의 필요성을 강조합니다. 메타 마베릭 AI 벤치마크 논란은 AI 모델 성능 평가의 어려움과 복잡성, 그리고 AI 산업에서의 투명성, 공정성, 책임성의 중요성을 부각시키고 있습니다. 이에 따라 업계 내에서는 더 객관적이고 공정한 평가 시스템에 대한 요구가 강해지고 있습니다.