기술/연구

머스크의 AI, 실상은 '봉'? 그록3 API 출시했지만 GPT보다 비싸고 성능은 논란

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.12 06:27

기사 3줄 요약

1 그록3 API, 추론 능력과 X 플랫폼 정보 강점
2 벤치마크 논란과 높은 가격으로 경쟁력 의문
3 멀티모달 강점에도 컨텍스트 윈도우 제한적

일론 머스크의 xAI가 그록3 API를 출시하며 AI 시장에 도전장을 내밀었습니다. GPT-4o와 제미나이 같은 강력한 경쟁자들이 포진한 시장에서 과연 그록3는 어떤 성적표를 받게 될까요? 강점과 약점을 살펴보며 그 가능성을 알아보겠습니다.

추론 능력과 최신 정보가 그록3의 강점

그록3의 가장 큰 강점은 '생각하는 모드(Think mode)'를 통한 복잡한 문제 해결 능력입니다. 이 기능은 AI가 문제를 해결하는 과정을 단계별로 보여주어 신뢰성을 높였습니다. 전 테슬라 AI 디렉터였던 안드레이 카파시는 "그록3의 생각 모드가 오픈AI의 o1 프로 모델과 유사하면서도 딥시크 R1과 제미나이 2.0보다 조금 더 낫다"고 평가했습니다. 또한 그록3는 X 플랫폼(구 트위터)에 접근할 수 있어 최신 정보와 트렌드를 실시간으로 반영할 수 있습니다. 머스크의 비전에 맞춰 '반(反)각성(anti-woke)' 접근법을 채택해 필터링이 적은 솔직한 답변을 추구한다는 점도 특징입니다. 다만 이전 버전들에서는 사회적 이슈에 대해 여전히 진보적 성향을 보였다는 분석도 있어, 이 '솔직함'이 양날의 검이 될 수도 있습니다. 이미지와 비디오 이해를 포함한 멀티모달 작업에서도 준수한 성능을 보여, 다양한 데이터 유형을 효과적으로 처리할 수 있음을 증명했습니다.

벤치마크 논란과 높은 가격이 발목 잡아

하지만 그록3에는 약점도 있습니다. 가장 큰 문제는 '최고의 모델'이라는 초기 주장을 둘러싼 논란입니다. 독립적인 평가에서 성능이 불일치하게 나타났고, xAI의 성능 지표에 대한 투명성 문제가 제기되었습니다. 특히 성능을 크게 향상시키는 'cons@64' 점수를 생략했다는 점은 더 큰 논란을 불러일으켰습니다. API의 컨텍스트 윈도우(한 번에 처리할 수 있는 텍스트 양)도 131,072 토큰으로 제한되어, 초기에 주장한 100만 토큰에 크게 못 미칩니다. 이는 제미나이 2.5 프로와 같은 경쟁 모델보다 더 적은 양의 문서를 처리할 수 있다는 의미입니다. 가격 측면에서도 앤트로픽의 클로드 3.7 소네트와 비슷한 수준이지만 구글의 제미나이 2.5 프로보다 높아, 비용에 민감한 개발자와 기업들의 채택을 제한할 수 있습니다. 또한 일부 사용자들은 그록3가 코딩 작업에 어려움을 겪고 단순한 질문 응답에서는 경쟁사 대비 성능이 떨어진다고 보고했습니다.

그록3 vs GPT-4o vs 제미나이: 누가 더 나을까?

아직 포괄적인 벤치마크 비교가 완전히 나오지 않았지만, 현재 정보를 기반으로 보면 그록3은 '생각하는 모드'와 X 플랫폼을 통한 실시간 데이터 접근에서 강점을 보입니다. 반면 컨텍스트 윈도우 크기와 가격 경쟁력에서는 불리한 위치에 있습니다. 특히 코딩 능력에서는 일관되지 않은 결과를 보이는 반면, GPT-4o와 제미나이는 이 부분에서 강점을 유지하고 있습니다. 필터링되지 않은 응답을 추구하는 '반각성' 입장은 그록3만의 차별점이 될 수 있지만, 이것이 시장에서 얼마나 가치를 인정받을지는 아직 불확실합니다. 그록3의 실제 활용 가능성은 실시간 정보 검색, 창의적 콘텐츠 생성, 복잡한 문제 해결, 그리고 교육 목적 등 다양한 분야에서 찾아볼 수 있습니다. 특히 비용 효율적인 추론 능력을 갖춘 그록3 미니는 제한된 자원으로 운영되는 교육 기관과 연구 단체에 유용할 수 있습니다. xAI가 벤치마크 논란을 해소하고, 컨텍스트 윈도우를 확장하며, 가격 경쟁력을 높이는 등의 과제를 해결한다면 혼잡한 AI 시장에서 그록3만의 영역을 구축할 가능성은 충분합니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr