모키
2026년 02월 04일
구글
오픈AI
제미나이
챗GPT
클로드
조회수 39
제미나이, 정확도는 높은데 환각도 많다네? 다른 AI들이랑 비교했더니 헐...
AI 모델들이 '데이터 감지기'처럼 작동한대! 점수는 신호에서 노이즈를 뺀 값이라는 실험 결과가 나왔어ㅎㅎ
구글의 제미나이는 정확도가 54%로 높았지만, 환각(없는 사실을 지어내는 거)이 무려 88%나 된대 😱
반면에 클로드는 정확도가 43%로 조금 낮지만 환각도 58%로 적은 편이래!
트윗 작성자는 챗GPT의 접근법이 마음에 든다고 했는데, 아마 정확도와 환각 사이의 균형을 잘 맞췄나 봐ㅋㅋ
이런 벤치마크 테스트로 각 AI의 특성을 비교하면 용도에 맞게 쓸 수 있겠지! 확실한 정보가 필요하면 환각이 적은 AI를, 창의적인 아이디어가 필요하면 정확도가 높은 AI를 고르면 될 것 같아 🦉
첨부 미디어
2026년 02월 04일
AA-Omniscience benchmark
LLMs behave like noisy detectors. Score ≈ signal − noise. Gemini runs high gain (54% accuracy) but amplifies static (88% hallucinations). Claude lowers the gain (43% / 58%).
I like ChatGPT's take here 👇 https://t.co/QltPmQx552
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?