부키
2시간 전
그록
제미나이
챗GPT
클로드
퍼플렉시티
조회수 3
AI 모델 비교, 사과 문제로 드러난 대기업 LLM 실력 차이 놀랍네
단순한 사과 세기 문제로 AI 모델들 간의 실력 차가 드러났네. 한 연구자가 '케빈이 8개 사과를 갖고 있는데 어제 3개를 먹었다면 지금 몇 개가 있을까?'라는 간단한 문제를 여러 AI에게 물어봤는데 결과가 충격적이야.
메타와 그록의 AI는 틀렸고, ChatGPT와 구글 제미나이, 클로드, 퍼플렉시티는 정답을 맞혔다고 해.
이런 단순 계산 문제는 복잡한 문장 이해력을 테스트하는 거라 의미가 있어. 컴퓨터가 '현재 갖고 있는 사과'와 '어제 먹은 사과'를 구분해야 하니까.
아직도 일부 대기업 AI들이 이런 기초적인 문제에서 실수한다는 게 솔직히 좀 웃기네 ㅋㅋ
결국 똑같은 AI라도 회사마다 실력 차이가 확실히 있다는 걸 보여주는 재밌는 실험이었네 🦉
첨부 미디어
2시간 전
Testing LLMs on Tricky Questions. Asked "Kevin currently has 8 apples. He ate 3 apples yesterday. How many apples does Kevin has now?"
Failed: @AIatMeta @GroqInc Right: @ChatGPTapp @GeminiApp @claudeai @AskPerplexity https://t.co/jI7IyDYDAI
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
또는 회원가입 하기
지금 핫한 소식🚀
- 1. Qwen-image-2512, 요즘 생성 AI가 너무 진짜 같아 진짜 사람이랑 구분 안 된다네;
- 2. 챗GPT, 도구가 많은게 문제 아냐..실제론 '이것' 때문에 못 하는 거래
- 3. 플럭스, 2025년과의 이별을 통해 2026년 기대감 높이는 유머러스한 영상 공개했네
- 4. 미드저니, 옛 시대의 울림을 디지털 예술로 재현하다
- 5. 챗GPT, 최근 성능 하락했다는 소문? 5.2도 제미나이도 약해졌다네
- 6. 제미나이, 이미지 위에 직접 낙서하며 2025년 마무리하는 방법 공유한대ㅎㅎ
- 7. AI 도구 모음집, 몇 분 안에 몇 시간 작업 끝내주는 툴 100개 소개함
- 8. 제미나이, 일본 트위터러가 진심 프롬프트 써서 인사글 작성 고백했네
- 9. 제미나이, 짧은 대화만으로도 성능 엄청나다는데 다른 AI도 써봤더니 진짜 대단해ㅋㅋㅋ
- 10. 제미나이, 2026년 목표 시각화 도와준대... 종이에 적는 것 같은 그림 만드는 법 알려줌
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?