환영해🦉
기술/연구

"이걸론 부족해!" AI 진짜 실력 가릴 새 기준 'GAIA'… 뭐가 다를까?

댓글 0 · 저장 0 2025.04.14 14:02
"이걸론 부족해!" AI 진짜 실력 가릴 새 기준 'GAIA'… 뭐가 다를까?

기사 3줄 요약

  • 1 기존 AI 평가 ARC, 추상적 추론 한계 지적
  • 2 새 AI 벤치마크 GAIA, 현실 문제 해결 능력 측정
  • 3 GAIA 통해 더 똑똑한 AI 개발 기대 고조
인간 수준의 인공지능, 즉 AGI 시대를 향해 나아가면서 AI의 진짜 능력을 어떻게 평가할 것인지가 중요한 문제로 떠오르고 있습니다. 기존에는 'ARC'라는 평가 방식이 있었지만, 한계가 있다는 지적이 많았는데요. 이를 보완하기 위해 'GAIA'라는 새로운 AI 능력 평가 기준이 등장했습니다.

기존 AI 평가는 뭐가 문제였길래?

기존의 대표적인 AI 평가 기준인 ARC(Abstraction and Reasoning Corpus)는 AI가 얼마나 추상적인 패턴을 잘 찾아내고 논리적으로 생각하는지를 주로 측정했습니다. 예를 들어, 복잡한 규칙이 숨겨진 퍼즐을 푸는 능력 같은 것을 보는 것이죠. 이런 능력도 중요하지만, ARC에는 몇 가지 뚜렷한 한계점이 있었습니다. 첫째, 평가 범위가 너무 좁았습니다. ARC는 주로 시각적인 퍼즐 해결 능력에만 집중하다 보니, 언어를 이해하거나 세상의 지식을 활용하고, 실제 세상의 문제를 해결하는 능력 등 다른 중요한 지능 요소들을 제대로 평가하기 어려웠습니다. 마치 IQ 테스트 점수가 높다고 해서 그 사람이 모든 면에서 뛰어나다고 말할 수 없는 것과 비슷합니다. 둘째, 현실과 동떨어져 있었습니다. ARC의 퍼즐들은 실제 우리가 마주하는 문제들과는 거리가 멀었습니다. AI가 ARC 점수가 높다고 해서 복잡한 의료 정보를 분석하거나, 효율적인 물류 시스템을 짜는 등 현실 세계의 문제를 잘 해결할 수 있다고 보장하기 어려웠습니다. 셋째, 단순한 문제 해결 방식만 평가했습니다. ARC 문제는 대부분 한 번의 추론으로 답을 찾는 단일 단계 방식이었습니다. 하지만 현실의 문제는 여러 단계를 거쳐 계획하고, 실행하고, 수정하는 복잡한 과정을 필요로 합니다. ARC로는 이런 다단계 문제 해결 능력을 평가할 수 없었습니다. 넷째, 시각 정보만 사용했습니다. ARC는 오직 시각적인 퍼즐 그림만 입력으로 사용했습니다. 하지만 실제 세상에서 AI는 글, 소리, 이미지 등 다양한 종류의 정보를 함께 이해하고 처리해야 합니다. ARC는 이런 복합적인 정보 처리 능력을 측정하지 못했습니다.

그래서 GAIA는 뭐가 다른 건데?

GAIA(General AI Assistant Benchmark)는 바로 이런 ARC의 한계점들을 극복하기 위해 만들어졌습니다. GAIA는 훨씬 더 넓은 범위의 능력을 종합적으로 평가합니다. 시각적인 능력뿐만 아니라, 원인과 결과를 이해하는 능력, 언어를 이해하고 사용하는 능력, 심지어 필요할 때 웹 검색 같은 도구를 활용하는 능력까지 평가 대상에 포함됩니다. GAIA의 가장 큰 특징은 '현실 세계'에 초점을 맞춘다는 점입니다. GAIA의 문제들은 단순히 추상적인 퍼즐이 아니라, 실제 우리가 겪을 법한 상황들을 기반으로 만들어졌습니다. 예를 들어, GAIA는 AI에게 "꿀벌 개체 수 감소의 주요 원인은 무엇이며, 이를 해결하기 위한 효과적인 방법은 무엇인가?"와 같은 복잡한 질문을 던질 수 있습니다. 이 문제를 해결하기 위해 AI는 질문을 이해하고, 웹 검색 도구를 사용해 관련 정보를 찾고, 다양한 출처(논문, 뉴스 기사, 정부 보고서 등)의 정보를 분석하고 종합해야 합니다. 필요하다면 데이터를 분석하는 코드를 직접 짜서 실행하고, 그 결과를 명확하게 정리해서 보고하는 능력까지 보여줘야 합니다. 이처럼 GAIA는 여러 단계에 걸쳐 문제를 해결하는 능력, 그리고 글, 이미지, 코드 등 다양한 종류의 정보를 통합적으로 처리하는 능력을 중요하게 평가합니다. 이는 AI가 실제 세상에서 마주하게 될 복잡한 문제들을 얼마나 잘 해결할 수 있는지를 더 정확하게 보여줄 수 있습니다.

GAIA, 정말 AI 발전 이끌 수 있을까?

실제로 GAIA를 이용한 초기 테스트 결과를 보면, 기존 방식보다 AI의 진짜 실력을 더 잘 가려내는 것으로 나타났습니다. 한 연구에서는 특정 AI 모델이 GAIA 테스트에서 75%의 정확도를 기록하며, 마이크로소프트(38%)나 구글(49%)의 다른 모델들보다 뛰어난 성능을 보였습니다. 이는 GAIA가 단순히 패턴 인식 능력뿐만 아니라, 실제 전문가 수준의 문제 해결 능력을 평가하는 데 더 효과적이라는 점을 보여줍니다. GAIA는 AI 연구 개발에 중요한 이정표가 될 수 있습니다. 더 현실적이고 종합적인 평가 기준을 제공함으로써, 개발자들이 단순히 시험 점수만 높이는 AI가 아니라 진짜 세상의 문제를 해결하는 데 도움이 되는 AI를 만들도록 유도할 수 있기 때문입니다. 앞으로 GAIA와 같은 평가 방식을 통해 개발된 AI는 의료 진단의 정확도를 높이거나, 개인 맞춤형 교육을 제공하고, 환경 문제를 해결하는 등 우리 사회의 다양한 분야에서 더 큰 역할을 할 것으로 기대됩니다. 아래 표는 ARC와 GAIA의 주요 차이점을 요약한 것입니다.
특징ARCGAIA
평가 범위추상적 시각 추론종합적 (시각-공간, 인과관계, 언어, 도구 사용)
현실 연계성추상적 퍼즐현실 세계 시나리오
문제 해결단일 단계다단계
다중 정보 입력시각 정보만다중 정보 (텍스트, 이미지, 코드)
초점추상적 지능일반 지능 및 현실 적용성
결론적으로 GAIA는 기존 AI 평가 방식의 한계를 넘어 AI의 능력을 더 현실적이고 종합적으로 측정하려는 중요한 시도입니다. 물론 GAIA 역시 완벽한 AGI 평가 기준이라고 할 수는 없습니다. '지능'이라는 개념 자체가 여전히 정의하기 어렵고 복잡하기 때문이죠. 어쩌면 AI의 진정한 가치는 시험 점수가 아니라, 우리 인간의 삶을 얼마나 더 풍요롭게 만드느냐에 달려 있을지도 모릅니다. 하지만 GAIA는 AI가 나아갈 방향을 제시하는 의미 있는 발걸음임에는 틀림없습니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI 능력 평가, 실용성이 중요한가?

댓글 0

관련 기사

최신 기사

사용자 피드백