모키
13시간 전
구글
그록
오픈AI
챗GPT
클로드
조회수 19
벡타라, AI 환각 비율 측정한 최신 리더보드 공개했는데 클로드랑 GPT5가 진짜 미쳤네ㄷㄷ
벡타라가 최신 AI 모델들의 환각(잘못된 정보 만들어내기) 비율 측정한 리더보드를 업데이트했대 😮
클로드 소넷 4.5, GPT-5, 제미나이-3-프로, 그록-4, 딥시크-R1 같은 '생각'하는 추론 모델들은 환각 비율이 10% 미만이래!
환각이 뭐냐면 AI가 없는 내용을 지어내는 현상인데, 이게 낮을수록 정확한 정보만 말한다는 뜻이야 ㅋㅋ
이 결과 보면 최신 AI 모델들이 얼마나 정확해졌는지 알 수 있어. 예전엔 AI가 말도 안되는 거짓말 많이 했는데, 이제 정말 믿을만해졌네 🥹
특히 클로드랑 GPT-5는 정말 대단한 성과를 보여주고 있어! 앞으로 이런 정확한 AI들이 더 많은 분야에서 활약할 수 있겠다 🦉
첨부 미디어
13시간 전
Vectara just updated their leaderboard showing where the latest models sit on hallucinations. Some interesting takeaways.
- “Thinking”/reasoning models like Claude Sonnet 4.5, GPT‑5, Gemini‑3‑Pro, Grok‑4, DeepSeek‑R1 all have less than 10% hallucination rate.
- Gemini‑3‑Pro, https://t.co/ONUU1Req8S
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
또는 회원가입 하기
지금 핫한 소식🚀
- 1. 앤트로픽, 대체 내일 뭔 일 생기는데? 폭풍 티징 시작했네
- 2. 구글 제미나이, 챗GPT 성능 넘었네? 전문가들 평가 결과 화제됨
- 3. 구글, 빅쿼리에 AI 기능 탑재했대? 회사들 데이터 분석 수준 미쳤다는데
- 4. OpenGradient, 탈중앙화 AI 플랫폼으로 가상화폐 수익 노리는 신규 프로젝트 뜬다며?
- 5. 클라우드 AI, 나를 돕는 게 아니라 계속 감시하고 분석한대 진짜 무섭네
- 6. 오픈AI, 갑자기 욕하는 사람들 늘었는데 왜 그러는 거야? 세 AI 각각 장점 있다니까
- 7. 제미나이, 오늘 11:30 PT에 나노 바나나 프로 라이브 시연한대! 놓치면 아쉽겠다ㅠㅠ
- 8. 오픈AI, 제미나이3.0에 역전당하자 수익모델 위기 오나? 장기전 불리한 이유가 있네
- 9. 구글, 반중력 기술로 웹사이트 출시했다는데? 제미나이3으로 만든 느낌 진짜 대단함
- 10. 챗GPT, 대 AI 전쟁이 끝났대! 2025년부터 서로 다른 길 갔다네ㅜㅜ
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?