환영해🦉
기술/연구

수학 93% 정답률? 일론 머스크의 ‘생각하는 AI’ 그록 3.5 등장

댓글 5 · 저장 0 2025.04.30 19:02
수학 93% 정답률? 일론 머스크의 ‘생각하는 AI’ 그록 3.5 등장

기사 3줄 요약

  • 1 일론 머스크 xAI, 추론 AI '그록 3.5' 베타 공개
  • 2 GPT-4o 넘어서는 독창적 답변, 추론 능력 특화
  • 3 수학 문제 93% 정답률 등 특정 분야 강점 부각
일론 머스크가 또 한번 AI 판을 뒤흔들 준비를 마쳤습니다. 그의 AI 회사 xAI가 최신 모델 '그록(Grok) 3.5' 베타 버전을 선보였습니다. 단순한 정보 검색 기계를 넘어, 이제 AI가 정말로 ‘생각’하기 시작했다는 선언처럼 들립니다. 챗GPT와는 또 어떻게 다를까요?

그래서 그록 3.5 뭐가 다른데?

그록 3.5의 가장 큰 특징은 바로 '추론 능력'입니다. 인터넷 정보를 짜깁기하는 수준을 넘어, 복잡한 문제에 대해 독창적이고 정교한 답을 내놓는 것을 목표로 합니다. 특히 전기화학이나 로켓 엔진 같은 어려운 기술 분야에서 뛰어난 성능을 보이도록 훈련받고 있다고 합니다. 일론 머스크가 평소 관심 많은 분야들이죠. 이런 추론 중심 접근 방식은 '딥시크-R1(DeepSeek-R1)'이라는 다른 AI 모델과 비슷하다는 평가도 나옵니다. 단순히 웹 검색 결과를 보여주는 게 아니라, 문제 해결 과정을 스스로 생각하고 답을 찾아내는 방식입니다. 당연히 엄청난 컴퓨터 성능이 필요한데, xAI는 '콜로서스(Colossus)'라는 이름의 거대 데이터 센터를 가동하며 이를 뒷받침하고 있습니다.

얼마나 똑똑해졌는데? 속을 들여다보자

그록 3.5는 러스트(Rust)와 파이썬(Python)이라는 프로그래밍 언어로 만들어졌습니다. 엔비디아의 최신 그래픽 카드(Hopper GPU) 10만 개 이상이 투입된 '콜로서스' 슈퍼컴퓨터가 학습을 담당합니다. 얼마나 많은 층으로 이루어졌는지, 어떤 방식으로 정보를 처리하는지 등 구체적인 구조는 비밀에 부쳐져 있지만, 그 규모만큼은 어마어마합니다. 훈련 방식으로는 강화학습(RL)이 쓰였습니다. 마치 운동선수를 훈련시키듯, AI가 더 복잡하고 새로운 질문에 잘 답하도록 계속해서 성능을 개선하는 방식입니다. 이때 실제 데이터뿐 아니라 AI가 스스로 만들어낸 가짜 데이터(합성 데이터)까지 활용해 추론 능력을 키웠다고 합니다. 그록 3.5는 단순히 글만 이해하는 것이 아닙니다. 'Think' 모드를 켜면 AI가 어떤 과정을 거쳐 답을 생각했는지 보여주고, 'DeepSearch' 모드에서는 인터넷 깊숙한 곳까지 뒤져 정보를 종합해 알려줍니다. 코딩 실력도 뛰어나 코드를 짜고, 고치고, 개선하는 일도 해냅니다. 심지어 이미지나 영상 내용까지 이해하고 요약하며, 말로 대답해주는 음성 기능까지 갖췄습니다.

다른 AI랑 비교하면 어때?

그록 3.5는 추론 능력에서 최고가 되는 것을 목표로 합니다. OpenAI의 o3나 딥시크-R1 같은 강력한 추론 모델들과 직접 경쟁합니다. 또한 GPT-4o나 클로드 3.5 소네트(Claude 3.5 Sonnet) 같은 범용 AI 모델과도 어깨를 나란히 하려 합니다. 주요 성능 시험(벤치마크) 결과를 보면 그록 3.5의 강점이 드러납니다.
성능 시험 (분야) Grok 3.5 (Think) GPT-4o Claude 3.5 Sonnet DeepSeek-R1
AIME 2025 (수학) 93.3% 9.3% (AIME 2024) 16.0% (AIME 2024) 79.8% (AIME 2024)
GPQA (전문가 수준 Q&A) 84.6% 53.6% 65.0% 71.5%
특히 미국 대학생 수학 경시대회 문제(AIME)에서는 93.3%라는 압도적인 점수를 기록하며 수학적 추론 능력을 뽐냈습니다. 전문가 수준의 지식과 추론 능력을 평가하는 GPQA에서도 경쟁 모델들을 앞섰습니다. 코딩 능력(HumanEval)은 이전 버전인 그록-1이 63.2%를 기록했지만, 최신 모델 간의 직접 비교는 아직 어렵습니다.

아직 베타 버전, 조심할 점은?

물론 그록 3.5는 아직 베타 버전이라 완벽하지 않습니다. 학습 데이터에 숨어있을지 모를 편견이나 오류가 나타날 수 있습니다. AI 모델이 사회적 편견을 그대로 배우거나 오히려 증폭시킬 위험은 항상 존재합니다. xAI 측도 이런 문제를 인지하고 대비하고 있지만, 사용자의 주의가 필요합니다. 잘못된 정보 확산, 악용 가능성 등 윤리적인 문제도 무시할 수 없습니다. AI 기술이 발전할수록 안전장치와 사회적 논의가 함께 가야 합니다. 현재 그록 3.5는 X(전 트위터)의 유료 구독자(Premium+)에게 먼저 제공되고 있으며, 앞으로 더 많은 사람들에게 공개될 예정입니다. 그록 3.5의 등장은 AI가 단순히 정보를 찾는 도구를 넘어, 인간처럼 '생각하고 추론하는' 방향으로 나아가고 있음을 보여줍니다. 교육, 연구, 개발 등 다양한 분야에서 AI의 역할이 더욱 커질 것으로 기대됩니다. AI가 정말 인간 전문가를 대체할 수 있을지, 지켜봐야 할 흥미로운 지점입니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 28

그록 3.5, 인간 지능 넘어설까?

댓글 5

13일 전

이미 상당부분 속도 뿐만 아니라 깊이에서 인간을 추월한거 같다

13일 전

GPT를 가장 많이 사용하지만 Grok이랑 Perplexity도 주목해볼 가치가 있다

13일 전

확실히 그록이 똑똑하긴 하더라구요

13일 전

그럼 난 둥키!

13일 전

난 동키야 아직 판단하긴 이르지!

관련 기사

최신 기사

사용자 피드백