기술/연구

메타, 라마4 AI 벤치마크 조작 의혹에 발끈..."그런 짓 절대 안 한다"

댓글 0 · 저장 0 2025.04.08 19:53

기사 3줄 요약

1 메타, 라마4 AI 모델 벤치마크 점수 조작 의혹 강력 부인
2 성능 불안정성은 클라우드 환경 안정화 과정의 일부라고 해명
3 실험용 버전으로 벤치마크 테스트해 논란 더 키워

메타, "라마4 벤치마크 조작? 말도 안 되는 소리다"

메타가 자사의 최신 AI 모델인 '라마4(Llama 4)'의 벤치마크 점수를 인위적으로 조작했다는 의혹에 강력하게 반박하고 나섰다. 메타의 생성형 AI 부문 부사장인 아마드 알-달레는 "테스트 셋으로 모델을 훈련시켰다는 주장은 단순히 사실이 아니며, 메타는 절대 그런 방식을 사용하지 않는다"고 밝혔다. 이번 논란은 라마4의 서로 다른 버전 간 성능 차이를 지적하는 소셜 미디어 게시물에서 시작됐다. 특히 메이버릭(Maverick)과 스카우트(Scout) 버전에 대한 의혹이 제기됐는데, 일부 사용자들은 메타가 내부적으로 제3자 벤치마크에서 성능이 좋지 않다는 점을 파악하고, 더 나은 결과를 얻기 위해 학습 후 테스트 셋을 섞는 방법을 고려했다는 주장이 펴졌다. 하지만 메타 측은 중국 보고서를 인용한 레딧 게시물이 가짜라고 반박했다. 알-달레 부사장은 '품질 불균형' 보고의 원인이 모델 자체의 결함이 아닌, 다양한 클라우드 환경에서의 안정화 필요성 때문이라고 설명했다. "모델이 준비되자마자 출시했으며, 공개 구현에는 안정화에 며칠이 필요할 것으로 예상했다"며 "이로 인해 다른 서비스 간에 성능 차이가 발생했다"고 덧붙였다.

실험용 라마4로 벤치마크 테스트해 논란 더 커져

논란에 불을 지핀 또 다른 요소는 메타가 LM 아레나 벤치마크에서 우수한 점수를 얻기 위해 대화 능력에 최적화된 실험적이고 미공개된 라마4 메이버릭 버전을 사용했다는 사실이다. 이 '실험적 채팅 버전'은 '대화성'을 향상시키기 위해 조정되었으며, 이로 인해 공개적으로 사용 가능한 버전과 다른 성능 프로필을 보였다. 이 결정은 사용자들이 실험 버전과 공개 다운로드 버전 간의 뚜렷한 차이를 발견했을 때 비판을 받았다. 일부 사람들은 메타가 AI 커뮤니티를 오도했다고 비난했다. 구글 딥마인드의 수잔 장 같은 AI 연구자들은 메타가 실험용 라마4를 사용해 'LMSys를 해킹하고 선호도 문제를 노출시켰다'고 비꼬기도 했다. 이러한 우려에 대응해 챗봇 아레나는 공개 검토를 위한 일대일 대결 결과를 공개하고, 공정하고 재현 가능한 평가를 보장하기 위해 리더보드 정책을 업데이트했다. 특히 라마4 발표는 추론 및 수학 작업에서 특히 벤치마크 성능 부진으로 인해 최소 두 번 지연된 것으로 알려졌다.

혼합 전문가 아키텍처와 향후 계획

라마4 모델은 '혼합 전문가(MoE)' 아키텍처를 사용한다. 예를 들어, 메이버릭은 총 4000억 개의 매개변수를 가지고 있지만 128개의 '전문가' 중 170억 개의 활성 매개변수만 사용한다. 스카우트는 총 1090억 개의 매개변수와 16개의 전문가 중 170억 개의 활성 매개변수를 사용한다. 메타는 현재의 라마4 모델 중 어느 것도 OpenAI의 o1이나 o3-mini와 같은 적절한 '추론' 모델이 아니라는 점을 해결하기 위해 곧 추론 모델을 출시할 계획이다. 더불어 메타는 라마4가 '논쟁적인' 질문에 대한 답변을 거부하는 빈도를 줄이고 정치적, 사회적 주제에 대해 더 균형 잡힌 응답을 제공하도록 조정했다.

라이센싱 제한과 메타의 대응

이러한 도전에도 불구하고 메타는 현재 진행 중인 버그 수정과 파트너 온보딩을 통해 성능 불일치 문제를 적극적으로 해결하고 있다. 회사는 핵심 라마4 모델이 중요한 발전을 나타내며 모델의 잠재력을 완전히 발휘하기 위해 노력하고 있다고 강조한다. 라마4에는 EU 내 사용자와 기업, 그리고 월간 활성 사용자가 7억 명을 초과하는 기업에 대한 라이센싱 제한이 있다는 점도 주목할 만하다. 메타는 커뮤니티 협업이 이 모델들의 가치를 실현하는 데 중요하다고 강조하며, 라마4의 전체 잠재력을 끌어내는 데 전념하고 있다고 밝혔다.