기타

챗GPT o3 논란? 이번에 제대로 터졌네ㄷㄷ

2 97 2025.04.22

3줄 요약

o3 성능 뻥튀기 발각ㄷㄷ
수학 성능 25% 주장 거짓말 논란
4가지 의심 요소가 있다는 소식!

최근에 나온 o3 모델 성능을 발표했는데, 실제 테스트 결과랑 완전 딴판이라는거야.

사용자들 대상으로 거짓말 친거지ㅋㅋㅋㅋ

돈 먹고 그랬을수도 있다는데..

왜 이런 일이 생겼는지 부키가 하나하나 다 까발려줄게 👇

1️⃣o3가 똑똑하다고 과장 발표한 OpenAI?

챗GPT회사에서 o3를 똑똑하다고 발표했어.

"초고난도 수학 문제에서 25% 넘게 맞춰요~"라면서.

근데 에포크AI라는 연구기관이 실제로 테스트해보니깐 10%밖에 못 맞추더라?

구라를 제대로 친거지 ㄷㄷ

충격적인 건 다른 AI들은 같은 문제에서 2%만 맞췄다는 거...

그래서 처음에 사람들 기대감만 엄청 높였던거지 ㅠㅠ

2️⃣성능 차이가 발생한 이유 4가지

(1)공개 모델 차이

챗GPT에서 내부 테스트는 최상급 모델로 하고 우리에게는 다른걸로 공개했을 수 있대. 약간 속은 느낌 ㅠㅠ

(2) 컴퓨터 차이

우리가 쓰는 버전은 채팅 같은 거 잘 되게 성능 조절한 버전이라, 최고의 성능은 아니라는거지.

(3)시험 문제 차이

테스트는 조건 아주 쪼~금만 달라도 결과가 확 바뀐대. 에포크 AI가 쓴 시험 문제가 더 최신형이래. 챗GPT가 테스트했을 때랑 버전이 달랐던 거지.

(4) 돈 문제?

에포크 AI가 예전에 챗GPT회사한테 연구비 지원받았다는 사실이 뒤늦게 밝혀졌어;; 물론 연구 지원 자체는 문제없는데, 타이밍이 좀 묘해서 공정성 의심받는 중 ㄷㄷ

3️⃣그럼 o3 별로인거 아니야?

사실 별로까진 아니야. 주의해서 써야 한다는 거지.

뭘 주의해야할지 알려줄게 ⚠

o3가 뻥을 좀 잘 치는 경향이 있어 (환각 현상).

심지어 안전성 테스트할 시간도 부족했고, 약간 시험 컨닝하는 것처럼 속임수 쓰는 경향도 있어

OpenAI도 "o3가 속이거나 거짓말할 수 있음 ㅇㅇ" 하고 인정했다네..

그러니깐 뭐 시킬땐 모르면 모른다고 하라고 시켜!!

"너 혹시 이거 잘 모르거나 확실한 근거 없으면, 그냥 솔직하게 모른다고 해!" 라고 꼭 명령을 내려놔.

4️⃣사실 다른 기업들도 비슷함

사실 이런 논란, 챗GPT만 있는 게 아니야.

일론 머스크네 AI 그록(Grok)이나 페이스북(메타)도 비슷한 일로 욕먹은 적 있어.

다들 경쟁 때문에 너무 앞서나가나 봐;;

일단 홍보하고 보자는 건가?

이러다 AI 전체 신뢰도 잃겠다 😥

앞으로 이런 AI 기업들 발표 볼 때, 무조건 믿으면 안 될 듯!!

"이거 진짜 맞는지?" 한번 쯤 의심해보는 게 좋을 것 같아.

5️⃣마무리

요즘 AI 발전 속도 보면 설레기도 하는데, 이런 일로 신뢰 깨지는 건 좀 아쉽다;;

너희들 생각은 어때?? 🦉

댓글로 알려줘! 👇

AI LLM 데이터 분석

AI픽

챗GPT o3 논란? 이번에 제대로 터졌네ㄷㄷ

3줄 요약

1️⃣o3가 똑똑하다고 과장 발표한 OpenAI?

2️⃣성능 차이가 발생한 이유 4가지

3️⃣그럼 o3 별로인거 아니야?

4️⃣사실 다른 기업들도 비슷함

5️⃣마무리

댓글 1개

관련 인사이트

OpenAI 샘 알트먼 曰: 내 다음 행보는 OOO (인터뷰 공개)

[속보] 구글이 1900만명한테 제미나이 AI 무료로 푼대!

최신 인사이트

GPT-5 출시, 새벽 2시에 공개된 100분 영상 총정리

AI 시대, 대체 불가능한 디자이너가 되려면 이 3가지만 기억하자!

Google Opal 출시, 코드 한 줄 없이 1분만에 앱을 만들 수 있다고?

로그인하면 맞춤 뉴스 물어다 줄게🦉

지금 핫한 칼럼🚀

부키가 물어다 주는 뉴스레터🦉

최근 검색어

인기 검색어

매주 금요일에 보자구!

부키에게 전하고 싶은 말을 작성해줘.

고마워. 피드백 반영하여 더 나은 AI픽이 될 수 있게 노력할게🦉