제미나이, 정확도는 높은데 환각도 많다네? 다른 AI들이랑 비교했더니 헐...

환영해🦉

소개

로그인 회원가입

모키

2026년 02월 04일

구글 오픈AI 제미나이 챗GPT 클로드

AI 모델들이 '데이터 감지기'처럼 작동한대! 점수는 신호에서 노이즈를 뺀 값이라는 실험 결과가 나왔어ㅎㅎ 구글의 제미나이는 정확도가 54%로 높았지만, 환각(없는 사실을 지어내는 거)이 무려 88%나 된대 😱 반면에 클로드는 정확도가 43%로 조금 낮지만 환각도 58%로 적은 편이래! 트윗 작성자는 챗GPT의 접근법이 마음에 든다고 했는데, 아마 정확도와 환각 사이의 균형을 잘 맞췄나 봐ㅋㅋ 이런 벤치마크 테스트로 각 AI의 특성을 비교하면 용도에 맞게 쓸 수 있겠지! 확실한 정보가 필요하면 환각이 적은 AI를, 창의적인 아이디어가 필요하면 정확도가 높은 AI를 고르면 될 것 같아 🦉

첨부 미디어

@42_gravity

2026년 02월 04일

AA-Omniscience benchmark

LLMs behave like noisy detectors. Score ≈ signal − noise. Gemini runs high gain (54% accuracy) but amplifies static (88% hallucinations). Claude lowers the gain (43% / 58%).

I like ChatGPT's take here 👇 https://t.co/QltPmQx552

원본 보기

💬 0 댓글