“항공권 예약도 못 하던 AI” 드디어 일 시키는 시대 오나?
댓글 0
·
저장 0
·
편집: 이도윤 기자
발행: 2025.11.06 18:35
기사 3줄 요약
- 1 기존 AI 한계 넘는 ‘행동 예측’ 새 모델 등장
- 2 신경망과 기호 논리 결합한 ‘신경-기호 추론’ 방식 채택
- 3 항공권 예약 등 실제 업무서 90% 이상 정확도 달성
최근 10년 넘게 발전해 온 인공지능(AI)은 우리와 대화는 잘하지만, 정작 중요한 업무를 맡기기엔 아직 불안한 점이 많습니다.
그런데 미국의 한 스타트업 AUI가 이 문제를 해결할 새로운 AI 모델 ‘아폴로-1(Apollo-1)’을 공개했습니다. 이 AI는 단순히 말을 따라 하는 것을 넘어, 우리가 시킨 일을 정확하게 ‘행동’으로 옮기도록 설계됐습니다.
왜 챗GPT는 자꾸 실수할까?
챗GPT나 제미나이 같은 기존 AI 모델들은 ‘다음에 올 단어’를 예측하는 방식으로 작동합니다. 그래서 창의적인 글을 쓰거나 대화를 나누는 데는 뛰어나지만, 정확성이 중요한 업무에서는 한계를 보입니다. 실제로 AI의 업무 실행 능력을 평가하는 ‘터미널-벤치 하드’ 테스트에서 최신 AI 모델들의 평균 점수는 30%대에 그쳤습니다. 심지어 항공권 예약 정확도 테스트에서는 가장 똑똑하다는 ‘클로드 3.7 소네트’ 모델조차 성공률이 56%에 불과해, 절반 가까이 실패했습니다.단어 말고 ‘행동’을 예측한다고?
아폴로-1은 기존 AI와 작동 방식이 완전히 다릅니다. 다음에 올 단어를 예측하는 대신, ‘다음에 해야 할 행동’을 예측합니다. 이를 위해 ‘신경-기호 추론’이라는 기술을 사용합니다. 어려운 말 같지만, 쉽게 말해 사람처럼 논리적으로 생각하는 능력(기호)과 유창하게 언어를 구사하는 능력(신경망)을 합친 하이브리드 AI입니다. 덕분에 우연이나 확률에 기대지 않고, 언제나 같은 지시에는 같은 결과를 내놓는 정확성을 자랑합니다.그래서 얼마나 똑똑해졌는데?
AUI가 자체적으로 진행한 성능 테스트 결과는 놀랍습니다. 아폴로-1은 여러 테스트에서 기존 모델들을 압도하는 성능을 보여줬습니다. 항공권 예약 테스트에서는 90% 이상의 성공률을 기록해, 60%에 그친 다른 모델을 크게 앞질렀습니다. AUI는 아폴로-1이 AI의 ‘신뢰성’ 문제를 근본적으로 해결할 새로운 방법이라고 강조했습니다. 이런 기술력을 인정받아 최근 약 280억 원의 투자를 유치하기도 했습니다.| 테스트 종류 | 아폴로-1 성공률 | 기존 AI 최고 성공률 |
|---|---|---|
| TAU-벤치 에어라인 | 90% 이상 | 클로드-4 (60%) |
| 구글 플라이트 예약 | 83% | 제미나이 2.5-플래시 (22%) |
| 아마존 쇼핑 | 91% | 아마존 루퍼스 (17%) |
진짜 ‘AI 비서’가 나오는 걸까
아폴로-1의 등장은 단순히 성능이 조금 개선된 것을 넘어섭니다. AI가 단순한 대화 상대를 넘어, 믿고 일을 맡길 수 있는 ‘진짜 비서’가 될 가능성을 열었기 때문입니다. 물론 아직은 일부 기업 고객만 테스트 중이지만, 다음 달 정식 출시를 앞두고 있습니다. 말만 하는 AI를 넘어, 진짜 행동하는 AI의 시대가 우리 곁으로 성큼 다가오고 있습니다.
편집: 이도윤 기자
이메일: aipick@aipick.kr
부키와 모키의 티격태격
찬/반 투표
총 투표수: 0AI에게 중요한 업무를 맡겨도 될까요?
맡겨도 된다
0%
0명이 투표했어요
위험하다
0%
0명이 투표했어요
댓글 0개
관련 기사
최신 기사