환영해🦉
기술/연구

메타 "라마4, GPT-4o보다 우수" 자화자찬했지만… 3일만에 코딩 성능 '대폭망'

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.08 06:45
메타 "라마4, GPT-4o보다 우수" 자화자찬했지만… 3일만에 코딩 성능 '대폭망'

기사 3줄 요약

  • 1 메타, 라마4 출시하며 GPT-4o 능가한다 주장해 화제
  • 2 전문가들, 코딩 테스트 결과 실망스러운 성능 확인
  • 3 오픈소스 아닌 '오픈웨이트' 방식과 높은 컴퓨팅 요구량도 논란
썸네일 이미지:
A high-resolution photograph of a professional office environment during the daytime, featuring an AI developer in the foreground with a frustrated expression, seated at a high-end computer workstation. The developer is focused on complex code or benchmark results displayed on multiple monitors. In the background, other workstations and Meta branding are subtly visible, with some screens showing AI model testing results, including error messages and performance metrics. The office has natural lighting and a realistic, photojournalistic style, emphasizing the mixed reception of Meta's Llama 4 AI model launch without any visible text in the image.
---

메타 "라마4, GPT-4o보다 우수" 자화자찬했지만… 3일만에 코딩 성능 '대폭망'

기사 3문장 요약

메타, 라마4 출시하며 GPT-4o 능가한다 주장해 화제 전문가들, 코딩 테스트 결과 실망스러운 성능 확인 오픈소스 아닌 '오픈웨이트' 방식과 높은 컴퓨팅 요구량도 논란

기대와 현실 사이, 메타의 라마4가 던진 AI 개발의 딜레마

메타가 지난주 전격 공개한 '라마4(Llama 4)'가 AI 커뮤니티에서 뜨거운 논쟁을 불러일으키고 있습니다. 발표 당시 메타는 라마4 모델이 오픈AI의 'GPT-4o'와 구글의 '제미나이 2.0 플래시'를 특정 벤치마크에서 능가한다고 자신감을 내비쳤지만, 실제 테스트 결과는 기대에 미치지 못하는 것으로 나타났습니다. 특히 개발자들 사이에서 코딩 능력에 대한 평가가 매우 부정적입니다. 일부 전문가들은 라마4를 코딩 작업에 사용하지 말 것을 조언하고 있을 정도입니다. 메타가 발표한 공식 성능 지표와 실제 사용자 경험 사이의 괴리는 현재 AI 개발이 직면한 도전을 그대로 보여주고 있습니다.

'오픈웨이트'와 '오픈소스'의 차이점

라마4 출시는 또한 '오픈웨이트'와 '오픈소스'의 차이에 대한 논쟁을 재점화시켰습니다. 메타는 라마4의 가중치(weights)에 접근할 수 있게 했지만, 상업적 사용에 제한을 두는 라이선스 정책을 적용했습니다. 이는 완전한 투명성과 맞춤화를 허용하는 진정한 오픈소스 원칙과는 거리가 있습니다. 메타의 라이선스는 '사용 제한'을 포함하고 있어 오픈소스 원칙과 양립할 수 없다는 비판이 나오고 있습니다. 이러한 접근 방식은 GPT-4o와 같은 모델이 오픈소스는 아니지만 더 명확한 상업적 라이선스를 제공하는 것과 대비됩니다.

혁신적 구조와 자원 요구량의 딜레마

라마4는 멀티모달 기능과 '전문가 혼합(Mixture-of-Experts, MoE)' 아키텍처를 자랑합니다. 예를 들어, 스카우트 모델은 총 109B 매개변수를 가지고 있지만, 16개 전문가 중에서 단지 17B만 활성화합니다. 이 혁신적인 구조는 효율성을 높이지만, 동시에 상당한 컴퓨팅 자원을 요구합니다. 메타는 라마4가 1천만 토큰의 컨텍스트 윈도우를 처리할 수 있다고 광고했지만, 실제 사용 시 자원 요구량이 큰 장애물이 됩니다. 전체 책을 분석할 수 있는 확장된 컨텍스트를 제공하려는 의도는 좋지만, 그 길이에서의 실제 추론 속도는 병목 현상을 일으키고 있습니다.

성능 검증과 확장성의 한계

라마4의 성능에 대한 독립적인 검증은 현재 진행 중입니다. 일부 전문가들은 메타의 확장 접근 방식이 수확체감의 법칙을 보여주며, 추가적인 개선이 점점 더 어려워지고 있다고 지적합니다. 실제 코딩 작업에서의 초기 부정적 평가는 잠재적인 한계를 강조합니다. 멀티모달 작업에서는 라마4 매버릭이 MMMU 벤치마크에서 73.4%의 점수를 기록했는데, 이는 GPT-4o의 69.1%와 제미나이 2.0 플래시의 71.7%보다 높은 수치입니다. 그러나 이러한 혼합된 성능은 독립적인 평가의 중요성을 부각시킵니다.

야심과 현실 사이의 간극

라마4는 AI 개발의 중요한 진전을 보여주지만, 동시에 AI 야심과 실제 사용성 사이의 간극을 메우는 도전을 강조합니다. 멀티모달 작업과 긴 컨텍스트 윈도우에서의 강점은 코딩과 자원 요구량의 한계로 상쇄됩니다. 메타의 라마4 출시는 AI 기술의 발전 과정에서 야심찬 목표와 실제 구현 사이의 균형을 찾는 것이 얼마나 어려운지를 보여주는 좋은 사례입니다. 독립적인 평가가 계속되면서, 라마4의 진정한 잠재력에 대한 더 명확한 그림이 그려질 것으로 기대됩니다.

부키와 모키의 티격태격

부키: 메타 진짜 또 삽질했네. 코딩 테스트에서 망했다는 소식 봤어? 벤치마크에서는 좋은 성능 보였다더니, 실제론 개발자들 다 비판하고 있잖아. 모키: 그래도 긍정적인 면도 있지 않아? 멀티모달 작업에서는 GPT-4o보다 나은 성능 보였다던데! 야심찬 도전 자체는 응원해주고 싶어ㅋㅋ 부키: 그런 벤치마크 결과는 실험실 환경에서나 의미있지. 현실에선 코딩도 못하는 AI가 무슨 소용이야? 오픈웨이트라면서 사실상 상업적 제한 걸어놓은 것도 웃기더라;; 모키: 일리 있는 말이긴 한데... 그래도 컨텍스트 윈도우 1천만 토큰은 정말 혁신적인 거 아닐까? 전체 책을 한번에 분석할 수 있다는 건 엄청난 발전이야! 부키: 그거 쓰려면 컴퓨터 파워가 엄청 필요하다는데? 현실적으로 누가 쓸 수 있겠어? 결국 메타는 PR만 잘하는 회사라니까. 쏙 마크는 또 오픈AI 따라하다 망한 거지 ㅋㅋㅋ 모키: 헐! 너무 날카롭다ㅋㅋ 그래도 MoE 구조는 미래 AI 방향성을 제시한 것 같아. 전문가들도 효율성 측면에선 인정하던데? 부키: 결국 우리 같은 일반인이 실제로 써볼 수 있냐가 관건인데, 그거 확 못하면 의미 없지. 야심만 있고 현실은 따라오지 못하는 전형적인 메타의 행보! 모키: 그래도 이런 경쟁이 AI 발전을 가속화하는 거 아닐까? 지금은 아쉬워도 라마5에선 달라질 수 있잖아~ 너무 냉정하지 말자구!

1분 요약

메타가 라마4 출시하며 GPT-4o보다 우수하다고 주장했지만 실제 테스트에선 코딩 성능 부진으로 실망을 안겼습니다. 오픈웨이트 방식의 제한적 공개와 높은 자원 요구량도 논란이 되고 있으며, 멀티모달 작업에서의 일부 성과는 인정받았습니다. 실제 개발자들 평가가 궁금하다면?
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

메타의 라마4, 진정한 혁신인가 과대광고인가?

댓글 0

관련 기사