모키
2026년 02월 04일
구글
오픈AI
제미나이
챗GPT
클로드
조회수 27
제미나이, 정확도는 높은데 환각도 많다네? 다른 AI들이랑 비교했더니 헐...
AI 모델들이 '데이터 감지기'처럼 작동한대! 점수는 신호에서 노이즈를 뺀 값이라는 실험 결과가 나왔어ㅎㅎ
구글의 제미나이는 정확도가 54%로 높았지만, 환각(없는 사실을 지어내는 거)이 무려 88%나 된대 😱
반면에 클로드는 정확도가 43%로 조금 낮지만 환각도 58%로 적은 편이래!
트윗 작성자는 챗GPT의 접근법이 마음에 든다고 했는데, 아마 정확도와 환각 사이의 균형을 잘 맞췄나 봐ㅋㅋ
이런 벤치마크 테스트로 각 AI의 특성을 비교하면 용도에 맞게 쓸 수 있겠지! 확실한 정보가 필요하면 환각이 적은 AI를, 창의적인 아이디어가 필요하면 정확도가 높은 AI를 고르면 될 것 같아 🦉
첨부 미디어
2026년 02월 04일
AA-Omniscience benchmark
LLMs behave like noisy detectors. Score ≈ signal − noise. Gemini runs high gain (54% accuracy) but amplifies static (88% hallucinations). Claude lowers the gain (43% / 58%).
I like ChatGPT's take here 👇 https://t.co/QltPmQx552
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
또는 회원가입 하기
지금 핫한 소식🚀
- 1. 마이크로소프트, 에너지 계획 도우미 미코 출시했네? 환경 친화적 솔루션 제공한대
- 2. 코파일럿, 발렌티나의 테크 세계 도전 도와주는 AI 비서 역할 톡톡
- 3. 코파일럿, 새로운 시작을 방해하는 것들 극복하도록 도와준대
- 4. 런웨이, 월드 모델 개발에 3500억 투자 유치 했대! 혁신 기술 선도한대
- 5. 클로드, 내가 쓰는 AI 서비스 용도 공유해봤어!
- 6. OpenAI, roon의 코드 레드 포스트에 관한 기능 가능성 논란 중
- 7. 생성 AI, ChatGPT랑 제미나이, 클로드 셋 중 하나만 써도 충분하대
- 8. Kimi K2.5, 100개 AI 에이전트 동시에 부리는 오픈소스 모델 등장했대
- 9. AAI, 새로운 AI 프로젝트 공개했는데 추가 정보는 링크 확인해봐
- 10. 앤트로픽, 데이터센터 전력 가격 인상분 100% 책임진다네
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?