환영해🦉
기술/연구

OpenAI 최신 AI 성능, 반토막? 조작 논란 일파만파

댓글 0 · 저장 0 2025.04.23 13:27
OpenAI 최신 AI 성능, 반토막? 조작 논란 일파만파

기사 3줄 요약

  • 1 OpenAI 최신 AI 'o3' 성능, 발표와 달리 크게 낮아.
  • 2 AI 업계, '벤치마크 부풀리기' 관행 논란 확산 중.
  • 3 투명성 부족, 신뢰도 하락 문제 해결 시급 지적돼.
최근 AI 업계가 발칵 뒤집혔습니다. 세계적인 기업 OpenAI가 야심 차게 내놓은 최신 AI 모델 'o3'의 성능 발표가 실제와 크게 다르다는 주장이 나왔기 때문입니다. 처음 OpenAI는 이 모델이 어려운 수학 문제 벤치마크(성능 시험)에서 25% 이상의 정답률을 보였다고 자랑했지만, 독립적인 기관의 테스트 결과는 고작 10% 수준에 그쳤습니다. 이 엄청난 차이는 '벤치마크 조작' 논란에 불을 지폈습니다. AI 모델이 특정 시험에서만 점수를 잘 받도록 과도하게 최적화시켜, 실제 능력보다 부풀려 보인다는 의혹입니다. 마치 시험 전날 벼락치기만 해서 특정 과목 점수만 잘 받는 것과 비슷합니다.

OpenAI 점수, 왜 이렇게 달라?

OpenAI 측은 논란이 커지자, 대중에게 공개된 o3 모델은 실제 사용 편의성과 속도에 맞춰 조정된 버전이라 벤치마크 성능이 낮을 수 있다고 해명했습니다. 시험용 모델과 실전용 모델이 달랐다는 이야기입니다. 하지만 테스트를 진행한 기관 'Epoch AI'가 OpenAI로부터 연구 자금을 지원받았다는 사실이 뒤늦게 알려지면서, 객관성에 대한 의문도 제기됐습니다. Epoch AI 측은 정보 공개가 늦었던 점은 실수였다고 인정하며, 투명성 확보에 더 노력했어야 했다고 밝혔습니다.

너도나도 점수 부풀리기?

이번 문제는 OpenAI만의 일이 아닙니다. 일론 머스크의 xAI나 페이스북 모회사 메타 같은 다른 거대 기술 기업들도 비슷한 논란에 휩싸인 적이 있습니다. 메타는 더 성능 좋은 모델을 숨기고 실험용 버전을 공개해 성능이 향상된 것처럼 보이게 했다는 비판을 받았고, xAI 역시 모델 '그록 3'의 성능을 과장된 그래프로 발표했다는 지적을 받았습니다. 전문가들은 기업들이 벤치마크 시험만을 위해 AI를 '맞춤 튜닝'하는 관행 때문에, 시험 점수가 실제 AI의 종합적인 능력을 제대로 반영하지 못하고 있다고 지적합니다. 특정 시험 점수만 높다고 해서 AI가 진짜 똑똑하다고 보기 어렵다는 것입니다.

진짜 성능은 어떻게 알지?

이처럼 AI 성능 측정의 신뢰도가 흔들리자, 새로운 평가 방식이 필요하다는 목소리가 커지고 있습니다. 일부 전문가는 특정 시험 점수보다는 실제 의료, 교육 등 현장에서 AI가 얼마나 유용한지를 평가하는 '실용성' 중심의 벤치마크가 필요하다고 주장합니다. 또한, AI 기업들이 자사의 성능을 발표할 때 제3의 독립 기관으로부터 검증을 받도록 의무화하거나, 시험 방법과 데이터 사용 내역 등을 투명하게 공개해야 한다는 의견도 나옵니다.
제안된 해결책 설명 고려할 점
독립 기관 검증 의무화 제3자가 AI 성능 주장을 검증해 객관성 확보 비용 증가, 출시 지연, 표준화된 검증 방법 필요
표준화된 시험 방법 일관된 기준의 벤치마크로 비교 가능성 높임 기준 정의 어려움, 빠른 기술 발전에 뒤처질 위험
자금 출처 및 데이터 투명성 이해관계 충돌 방지 및 윤리적 문제 완화 기업의 정보 공개 저항, 경쟁력 약화 우려
실제 사용 환경 중심 평가 현실 문제 해결 능력을 더 정확히 평가 현실 모방 어려움, 평가의 일반화 어려움

믿을 수 있는 AI 만들려면?

벤치마크 논란은 단순히 기술적 문제를 넘어섭니다. 부풀려진 성능 정보는 AI 시스템에 대한 사회적 불신을 키우고, 편향된 AI가 불평등을 심화시킬 수도 있습니다. AI 기술이 사회 전체에 긍정적인 영향을 미치려면, 개발 과정부터 투명하고 정직해야 합니다. AI 개발자, 연구자, 정책 입안자, 그리고 우리 모두가 함께 노력해야 합니다. 명확한 윤리 기준을 세우고, 서로를 감시하며 책임감을 갖는 문화를 만들어야 합니다. 그래야만 AI가 인류에게 진정으로 도움이 되는 방향으로 발전할 수 있을 것입니다.
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI 성능 부풀리기, 기업 생존 전략?

댓글 0

관련 기사

최신 기사

사용자 피드백