엔비디아, '반토막 크기'로 선두 추월... 671B 모델 꺾은 253B AI 충격
댓글 0
·
저장 0
2025.04.11 06:39

기사 3줄 요약
- 1 엔비디아의 253B 모델, 671B 모델보다 추론 성능 앞서
- 2 추론 토글 기능으로 상황별 최적 성능 제공
- 3 NAS 기술 활용해 메모리 사용량과 지연시간 개선
엔비디아가 출시한 새로운 추론 특화 모델이 AI 효율성의 기준을 완전히 바꿔놓고 있습니다. 엔비디아의 'Llama-3.1-Nemotron-Ultra-253B-v1' 모델이 자신보다 두 배 이상 큰 모델을 성능으로 뛰어넘으며 AI 세계에 충격을 주고 있습니다.
반토막 크기로 거인을 이기다
엔비디아가 공개한 이 오픈소스 추론 모델은 253B(2530억) 파라미터 크기로, DeepSeek-R1(671B 파라미터)보다 크기는 훨씬 작지만 추론 성능에서는 오히려 앞서는 결과를 보여줬습니다. 이는 마치 무게급이 다른 복서가 체급을 뛰어넘어 승리하는 것과 같은 놀라운 성과입니다. 이 모델의 가장 독특한 특징은 '추론 토글(Reasoning Toggle)' 기능입니다. 개발자들은 시스템 프롬프트에 '상세 사고 켜기(detailed thinking on)' 문구를 넣기만 하면 표준 추론 모드와 고급 추론 모드를 자유롭게 전환할 수 있습니다. 이를 통해 복잡한 문제 해결이 필요할 때는 고급 추론 모드를, 일반적인 작업에는 표준 모드를 사용하여 각 상황에 맞게 최적의 성능을 이끌어낼 수 있습니다.혁신적인 아키텍처로 성능 극대화
엔비디아는 신경망 아키텍처 검색(Neural Architecture Search, NAS) 기술을 활용해 이 모델의 구조를 최적화했습니다. 일부 어텐션 레이어를 건너뛰거나, 피드포워드 네트워크(FFN)를 융합하는 등의 구조적 변형을 도입했습니다. 이러한 NAS 기술은 메모리 사용량을 줄이고 추론 지연시간을 개선해, 단일 8x H100 GPU 노드에서도 이 거대 모델을 구동할 수 있게 만들었습니다.놀라운 정확도와 다양한 언어 지원
추론 모드에서 이 모델은 MATH500 벤치마크에서 97%라는 놀라운 정확도를 달성했습니다. 또한 영어뿐만 아니라 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어 등 다양한 언어를 지원합니다. 엔비디아 오픈 모델 라이선스 하에 상업적으로도 활용 가능하며, 허깅페이스와 NGC에서 체크포인트를 제공받을 수 있습니다. 일부 특정 수학 평가에서는 DeepSeek-R1이 여전히 약간 앞서는 경우도 있습니다. 예를 들어 AIME25 테스트에서는 DeepSeek-R1이 79.8점으로, Nemotron Ultra의 72.50점보다 우위를 보였습니다. 하지만 종합적인 추론 효율성에서는 Nemotron Ultra가 확실한 강점을 보이고 있습니다.확장된 기능과 응용 분야
Nemotron Ultra는 과학적 추론, 코딩, 도구 호출 등의 영역에서 높은 정확도를 입증했습니다. 이 모델은 AI 에이전트 시스템, 챗봇, RAG(Retrieval-Augmented Generation) 등 다양한 AI 기반 애플리케이션을 위해 설계되었습니다. 또한 최대 128,000 토큰의 입출력 시퀀스를 지원해 장문의 텍스트 처리도 가능합니다. 이 모델은 2024년 11월부터 2025년 4월 사이에 FineWeb, Buzz-V1.2, Dolma 등 다양한 훈련 데이터를 사용하여 개발되었습니다. 엔비디아는 이 모델을 통해 더 작은 크기로 더 뛰어난 성능을 구현하는 AI 기술의 새로운 지평을 열었다고 볼 수 있습니다. 이 같은 혁신은 AI 모델이 단순히 크기만 키운다고 해서 더 나은 성능을 보장하지 않는다는 점을 증명했으며, 효율적인 아키텍처 설계와 최적화의 중요성을 일깨워주고 있습니다.
부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI 모델, 크기보다 효율성이 중요한가?
댓글 0개
관련 기사
최신 기사



