GPT-4도 틀리는 문제? AI '들쭉날쭉 지능' 잡는 기술 등장
댓글 0
·
저장 0
2025.05.01 22:03

기사 3줄 요약
- 1 AI, 특정 작업선 불안정한 '들쭉날쭉 지능' 문제 심각.
- 2 세일즈포스, AI 신뢰도 높일 새 벤치마크/모델 공개.
- 3 기업 환경 맞는 '믿음직한 AI' 개발 목표 제시.
요즘 인공지능(AI) 진짜 똑똑한 것 같죠? 그런데 가끔 정말 어이없는 실수를 할 때가 있습니다. 마치 천재인 줄 알았는데, 아주 쉬운 덧셈 뺄셈을 틀리는 느낌이랄까요. 이런 AI의 이상한 변덕스러움을 '들쭉날쭉한 지능(jagged intelligence)'이라고 부릅니다. 세계적인 기업용 소프트웨어 회사 세일즈포스(Salesforce)는 기업들이 이런 변덕쟁이 AI를 참지 못할 거라고 보고, 이 문제를 해결하기 위해 팔을 걷어붙였습니다.
AI, 똑똑한 척하다 왜 바보가 될까?
세일즈포스 연구팀은 '들쭉날쭉 이해도 측정 프로젝트(JUMP)'라는 것을 시작했습니다. 핵심은 'SIMPLE'이라는 이름의 공개 테스트 데이터인데요. 여기에는 고등학생 수준의 간단한 논리 추론 문제 225개가 들어있습니다. 인간 수준 지능을 자랑하는 AI라면 식은 죽 먹기여야 할 문제들이죠. 하지만 결과는 놀라웠습니다. GPT-4 같은 최첨단 AI 모델조차 이 간단한 문제들 앞에서 당황하는 모습을 보였습니다. 멋진 시를 쓸 수는 있지만, 10대 청소년이라면 당연히 알 만한 기본적인 공간 논리나 명백한 사실을 놓치는 경우가 발견된 것입니다. 이런 '들쭉날쭉함' 때문에 AI를 실제 업무에 믿고 맡기기가 어렵다는 문제가 생깁니다.세일즈포스는 뭘 만들었나?
그래서 세일즈포스는 단순히 특정 분야에서만 뛰어난 AI가 아니라, 다양한 작업에서 '꾸준히' 제 몫을 해내는 AI 모델 개발에 집중하기로 했습니다. 단순히 글만 쓰는 게 아니라 실제 '행동'을 예측하도록 설계된 새로운 AI, 'xLAM V2(대규모 행동 모델)'를 선보였습니다. 이 모델은 크기도 다양해서, 작은 것은 10억 개, 큰 것은 700억 개의 매개변수(AI의 지능을 가늠하는 단위)를 가집니다. 작은 모델도 특정 작업 수행 능력은 뛰어나다고 하네요. 기존 언어 모델과 달리, xLAM은 다음에 어떤 행동을 해야 할지 예측하고 수행하도록 훈련받아, 복잡한 회사 시스템 안에서 스스로 움직이는 'AI 직원'에게 꼭 필요한 기술입니다. 물론 능력만 있고 통제가 안 되면 재앙이겠죠? 세일즈포스는 'SFR-Guard'라는 안전장치 모델도 개발했습니다. 공개 데이터와 세일즈포스 내부 데이터를 함께 학습시켜 AI가 정해진 규칙과 윤리적 경계 안에서만 작동하도록 돕습니다. AI의 '디지털 양심' 같은 역할이죠.진짜 쓸만할까? 테스트 결과는?
세일즈포스는 이 AI들을 실제처럼 테스트하기 위해 'CRMArena'라는 가상 고객 관리 환경까지 만들었습니다. 여기서 AI가 고객 서비스 담당자, 분석가, 관리자 역할을 얼마나 잘 수행하는지 평가했죠. 결과는 아직 갈 길이 멀다는 것을 보여줍니다. 현재 최고 수준의 AI 에이전트도 주어진 역할을 제대로 수행하는 성공률이 65% 미만에 그쳤습니다. AI의 잠재력과 실제 업무 현장에서의 신뢰성 사이에는 아직 큰 격차가 있다는 뜻입니다. 이 외에도 세일즈포스는 AI가 문맥을 더 깊이 이해하도록 돕는 'SFR-Embedding', 개발자들이 코드를 쉽게 찾도록 돕는 'SFR-Embedding-Code' 등 다양한 기술을 함께 공개했습니다.믿을 수 있는 AI를 향한 여정
세일즈포스의 최고 과학자 실비오 사바레세는 이런 노력을 '기업용 일반 지능(EGI)'을 향한 길이라고 말합니다. 이론적인 인공 일반 지능(AGI)을 쫓기보다, 실제 기업 환경의 복잡한 문제 해결에 초점을 맞춘, 능력과 '일관성'을 모두 갖춘 AI를 만들겠다는 것입니다. 결국 세일즈포스는 단순히 더 똑똑한 AI가 아니라, '믿을 수 있는' AI를 만들고 있습니다. AI에 대한 의존도가 높아지는 세상에서, 어쩌면 이 '신뢰'야말로 가장 중요한 가치가 될지 모릅니다. 앞으로 AI 경쟁은 누가 더 화려한 기술을 선보이느냐가 아니라, 누가 더 지루할 정도로 '믿음직한' AI를 만드느냐에 달려있을지도 모르겠습니다.
부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI의 실수, 인간보다 위험한가?
댓글 0개
관련 기사
최신 기사



