정책/윤리

충격! 오픈AI, 안전성 테스트 6개월→1주일로 축소... 개발자들 패닉에 빠지다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.04.13 20:18

기사 3줄 요약

1 오픈AI, AI 안전성 테스트 시간 6개월→1주일로 대폭 축소
2 위험 기능 발견 시간 부족 우려에 회사는 자동화 효율성 주장
3 EU AI 법안 시행 앞두고 투명한 안전성 테스트 압박 예상

오픈AI가 AI 모델 안전성 테스트 시간을 대폭 줄여 논란의 중심에 섰습니다. GPT-4 모델은 6개월 동안 안전성 테스트를 거쳤지만, 최신 'o3' 모델은 단 1주일만 테스트했다는 사실이 밝혀졌습니다. 이 급격한 감소는 AI 안전성 전문가들 사이에서 심각한 우려를 낳고 있습니다.

위험한 기능 놓칠 수도... 전문가들 경고음

전문가들이 특히 걱정하는 부분은 오용 가능성, 편향성 증폭, 환각 현상 증가와 같은 위험한 기능들을 발견하는 데 보통 몇 개월이 걸린다는 점입니다. GPT-4 테스트 과정에서도 몇 달이 지난 후에야 잠재적 위험이 발견됐다고 합니다. 이런 상황에서 테스트 기간을 1주일로 단축한다는 것은 위험 요소를 놓칠 가능성이 크게 높아진다는 의미입니다.

오픈AI의 해명... "자동화로 효율성 높였다"

오픈AI는 이러한 비판에 대해 자동화 기술의 발전과 더 효율적인 테스트 방법 도입으로 인해 테스트 품질을 희생하지 않고도 테스트 시간을 줄일 수 있었다고 주장합니다. 자동화된 테스트가 평가 과정의 상당 부분을 차지하고, 인간 테스터들은 더 복잡하고 미묘한 시나리오에 집중할 수 있게 되었다는 설명입니다. 하지만 자동화 테스트와 수동 테스트의 효과를 비교하는 구체적인 지표는 공개되지 않았고, 얼마나 많은 테스트가 자동화되었는지, 시간이 지남에 따라 그 균형이 어떻게 변화했는지도 명확하지 않습니다. 이러한 투명성 부족이 자동화 프로세스의 실제 효율성에 대한 의구심을 키우고 있습니다.

테스트 모델과 출시 버전의 차이점도 문제

또 다른 논쟁은 테스트 모델이 출시 버전의 동작을 정확히 반영하지 못할 수 있다는 우려에 관한 것입니다. 이러한 불일치는 기본 하이퍼파라미터, 구성의 차이, 또는 테스트 단계 이후에 도입된 미묘한 코드 변경으로 인해 발생할 수 있습니다. 테스트 환경이 실제 환경을 완전히 반영하지 못한다면, 중요한 문제점들이 모델이 배포되기 전까지 발견되지 않을 수 있으며, 이는 많은 사용자에게 영향을 미칠 가능성이 있습니다.

경쟁 압박이 안전보다 우선?

샘 알트만 오픈AI CEO는 공개적으로 철저한 AI 안전성 테스트의 필요성을 강조해왔지만, 테스트 시간의 대폭 감소는 이러한 발언과 대조되는 모습입니다. 일부 비평가들은 경쟁 압력과 새로운 모델을 빠르게 배포하려는 욕구가 안전성 고려사항보다 우선시되고 있다고 주장합니다. 오픈AI가 AI 로드맵을 재구성하여 GPT-5를 중심으로 노력을 집중하고 이전에 계획된 o3 독립 출시를 취소한 것도 테스트 시간 감소에 영향을 미쳤을 가능성이 있습니다. 혁신과 안전성 사이의 균형에 관한 내부 의견 불일치도 보고되면서 논쟁에 불을 지피고 있습니다.

EU AI 법안, 더 엄격한 안전성 평가 요구할 듯

올해 말 시행될 예정인 EU AI 법안은 유럽 연합 내에서 운영되는 고급 AI 모델에 대한 안전성 평가를 의무화할 것입니다. 이 법은 오픈AI가 더 철저하고 투명한 안전성 평가를 실시하도록 강제할 가능성이 높으며, 이는 그들의 개발 및 배포 일정에 영향을 미칠 수 있습니다. 이러한 우려에도 불구하고, 오픈AI는 2025년 1월 31일에 출시된 o3-mini 모델에 대해 안전성 평가와 외부 레드 팀(악의적 사용 가능성을 테스트하는 팀)을 포함한 안전성 작업을 수행했다는 점은 주목할 만합니다. 그러나 이전 모델과 비교했을 때 이 테스트의 범위와 엄격성은 여전히 논쟁의 대상으로 남아 있습니다.

편집자: 이도윤 기자

제보·문의: aipick@aipick.kr