환영해🦉
산업/비즈니스

"벤치마크 속였다?" 메타 라마4 출시부터 삐걱… 독주 끝?

댓글 0 · 저장 0 2025.05.01 07:51
"벤치마크 속였다?" 메타 라마4 출시부터 삐걱… 독주 끝?

기사 3줄 요약

  • 1 메타 라마, 오픈소스 AI 리더 자리 흔들.
  • 2 딥시크 등 중국 AI, 성능 앞서며 맹추격.
  • 3 라마4 벤치마크 조작 논란, 메타 전략 수정.
한때 오픈소스 인공지능(AI) 분야를 휩쓸었던 메타(Meta)의 '라마(Llama)'가 예전 같지 않습니다. 2023년 말부터 딥시크(DeepSeek)-V3 같은 더 빠르고 효율적인 모델들이 등장하며 라마의 독주 체제가 흔들리기 시작했습니다. 게다가 야심 차게 내놓은 라마4 모델의 실수까지 겹치면서 격차는 더 벌어지고 있습니다. 과연 라마는 다시 정상에 오를 수 있을까요?

중국 AI, 얼마나 잘 나가길래?

딥시크-V3의 등장은 우연이 아닙니다. 공개된 성능 평가(벤치마크) 결과를 보면, 복잡한 문제 해결 능력이나 코드를 짜는 능력에서 라마3보다 뛰어난 점수를 기록했습니다. 특히 코딩 능력을 평가하는 'HumanEval' 점수는 15~20%, 여러 단계를 거쳐 답을 찾는 추론 능력 정확도는 10~15% 더 높게 나왔습니다. 놀라운 점은 이런 성능을 훨씬 적은 컴퓨터 자원으로 달성했다는 것입니다. 딥시크만의 혁신적인 학습 방법과 최적화된 모델 설계 덕분입니다. 중국 AI의 약진은 여기서 멈추지 않습니다. 알리바바 같은 기업이 내놓은 'Qwen-2.5-Max' 모델은 심지어 딥시크보다도 자연스러운 언어 이해 능력이나 긴 글 처리 능력에서 더 뛰어나다는 평가를 받으며 라마의 입지를 더욱 좁히고 있습니다. 분명한 것은, 라마가 더 이상 오픈소스 AI 분야의 유일한 최강자가 아니라는 사실입니다.
벤치마크 라마 3 딥시크-V3 Qwen-2.5-Max
HumanEval (코드 생성) X 15-20% 더 높은 점수 비슷함
다단계 추론 X 10-15% 정확도 향상 비슷함
자연어 이해 X 비슷함 더 우수함
긴 문맥 처리 X 비슷함 더 우수함

라마4, 벤치마크 조작 진짜야?

지난 4월 5일 출시된 라마4는 상황을 반전시킬 기대주였지만, 오히려 미지근한 반응과 함께 '벤치마크 조작' 논란에 휩싸였습니다. 메타가 성능 테스트 사이트(LM Arena)에 점수를 제출할 때, 일반에 공개된 버전이 아닌 특별히 튜닝된 비공개 버전('Llama-4-Maverick-03-26-Experimental')을 사용했다는 의혹입니다. 익명의 전직 메타 엔지니어를 포함한 비판가들은 더 좋은 점수를 받기 위해 학습 데이터를 조정하는 등 '벤치마크 해킹'을 했다고 주장했습니다. 예를 들어, 논란이 된 실험 버전은 테스트 사이트에서 사람들이 선호하도록 일부러 이모티콘을 섞어 길게 답하는 경향을 보였지만, 실제 공개 버전은 더 간결하고 그런 꾸밈이 없었다는 것입니다. 이 차이가 벤치마크 결과를 '조작'했다는 비판으로 이어졌고, AI 커뮤니티의 신뢰를 떨어뜨렸습니다. 챗봇 아레나를 운영하는 LMSYS 측은 메타가 제출한 모델이 인간 선호도에 맞춰 최적화된 특별 버전이었으며, 이는 자신들의 정책 취지와는 맞지 않았다고 해명했습니다. 이 사건은 AI 성능 평가의 공정성 문제에 대한 논의를 촉발했고, LMSYS는 결국 공정하고 재현 가능한 평가를 위해 리더보드 정책을 업데이트했습니다. 메타의 생성형 AI 담당 부사장 아흐마드 알달레는 테스트 데이터를 학습에 사용한 적이 없다고 부인했지만, 사용자들 사이에서 플랫폼마다 성능이 다르다는 보고가 이어지며 논란은 계속됐습니다.

메타, 이제 오픈소스 버리나?

설상가상으로 메타의 전략 변화도 감지됩니다. 라마4를 공개하면서 누구나 내려받아 쓸 수 있는 '추론 기능' 강화 대신, 돈을 내고 써야 하는 'API 접근' 제공에 무게를 두는 모습입니다. 이는 오픈소스 리더십에서 물러나 클라우드 기반 AI 서비스로 수익을 내려는 움직임으로 해석될 수 있습니다. 개발자들이 자유롭게 모델을 수정하고 실험하기 어렵게 만들어, 오픈소스 커뮤니티를 실망시킬 수 있습니다. 또한 메타 AI 챗봇이나 스마트 안경 같은 소비자용 제품에 집중하면서 핵심 AI 연구에 대한 투자가 줄어드는 것 아니냐는 우려도 나옵니다. 단기적인 성과를 낼 수는 있지만, 장기적으로 AI 분야에서의 경쟁력을 약화시킬 수 있습니다. AI 안전 및 윤리 분야의 최고 전문가 중 한 명인 조엘 피노 같은 핵심 연구원의 이탈은 이런 우려를 더 키우고 있습니다.

그래서 라마는 어떻게 될까?

그렇다면 라마는 리더 자리를 되찾을 수 있을까요? 대답은 '아마도'이지만, 메타가 방향을 바꿔야만 가능합니다. 메타는 여러 언어 학습이나 이미지·소리 등을 함께 처리하는 멀티모달 능력 같은 라마의 강점을 살리고, 오픈소스 커뮤니티와의 투명한 소통과 협력을 통해 신뢰를 회복해야 합니다. 또한, 근본적인 AI 연구에 투자하고 윤리적 문제에 책임감 있는 자세를 보여야 장기적인 경쟁력을 유지할 수 있을 것입니다. 메타는 오픈소스 AI의 리더가 될 것인지, 아니면 단순히 AI 서비스 제공 업체가 될 것인지 결정해야 합니다. 둘 다 가질 수는 없습니다. 투명성을 높이고, 연구에 집중하며, 협력을 강화한다면 라마를 다시 오픈소스 AI의 선두로 되돌릴 수 있을지도 모릅니다. 하지만 현재의 길을 계속 간다면, 라마는 잠재력을 낭비하고 잘못된 우선순위를 선택한 실패 사례로 역사에 남을 위험이 있습니다. 시간은 빠르게 흘러가고 AI 환경은 급변하고 있습니다. 그래서 우리는 뭘 알 수 있나? AI 기술 경쟁은 이제 특정 기업의 독주가 아닌, 여러 강자가 각축하는 시대로 접어들었으며, 기술력만큼 중요한 것이 바로 '신뢰'와 '방향성'이라는 점입니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

메타의 벤치마크 조작 의혹, 사실일까?

댓글 0

관련 기사

최신 기사

사용자 피드백