환영해🦉
기술/연구

"불법 데이터 없이 AI 가능?" 8TB '클린 AI 교과서' 나왔다!

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.06.07 03:12
"불법 데이터 없이 AI 가능?" 8TB '클린 AI 교과서' 나왔다!

기사 3줄 요약

  • 1 EleutherAI, 8TB 규모 합법 AI 학습 데이터셋 공개
  • 2 저작권 문제없는 자료로 구성, AI 연구 투명성 기대
  • 3 해당 데이터로 만든 AI, 기존 모델과 유사 성능 입증
AI를 개발하려면 엄청나게 많은 데이터가 필요한데, 이 데이터의 저작권 문제가 항상 뜨거운 감자였습니다. 최근 AI 연구기관인 EleutherAI가 이런 걱정을 덜어줄 수 있는 아주 특별한 'AI 교과서'를 공개했습니다. 무려 8테라바이트(TB) 크기의 합법적인 텍스트 데이터 모음, '더 커먼 파일(The Common Pile) v0.1'이 바로 그것입니다. 이 데이터셋은 AI 기업들이 저작권 침해 소송에 휘말리는 상황을 피하면서도 AI 모델을 훈련할 수 있도록 만들어졌습니다. EleutherAI는 이 거대한 데이터셋을 만들기 위해 약 2년 동안 여러 AI 스타트업, 허깅페이스 같은 기업, 그리고 여러 대학 연구기관과 힘을 합쳤습니다. 그 결과, 저작권 걱정 없는 '클린'한 데이터로 가득 찬 AI 학습의 새로운 길이 열린 셈입니다.

진짜 저작권 문제없는 데이터라고?

네, 그렇습니다. '더 커먼 파일 v0.1'은 이름처럼 누구나 합법적으로 사용할 수 있는 데이터들로 구성되어 있습니다. 여기에는 미국 의회도서관이나 인터넷 아카이브가 디지털화한 30만 권 이상의 공공 도서, 즉 저작권이 만료되어 자유롭게 이용 가능한 책들이 포함됩니다. 또한, 오픈AI가 공개한 음성인식 모델 '위스퍼(Whisper)'를 활용해 오디오 콘텐츠를 텍스트로 변환한 자료들도 들어갔습니다. EleutherAI는 이 모든 과정을 법률 전문가와 상의하며 진행했다고 밝혀, 데이터의 합법성을 확보하기 위해 많은 노력을 기울였음을 알 수 있습니다. 과거 EleutherAI는 저작권이 있는 자료가 포함된 '더 파일(The Pile)'이라는 데이터셋을 공개해 논란이 되기도 했습니다. 하지만 이번 '더 커먼 파일 v0.1'은 그러한 과거의 실수를 반복하지 않겠다는 의지를 보여주는 결과물로 평가받고 있습니다.

이걸로 만든 AI, 성능은 괜찮을까?

아무리 합법적인 데이터라도 AI 모델의 성능이 떨어진다면 소용이 없겠죠. EleutherAI는 '더 커먼 파일 v0.1'의 일부 데이터(전체 8TB 중 일부)로 '콤마(Comma) v0.1-1T'와 '콤마 v0.1-2T'라는 두 가지 AI 모델을 직접 만들었습니다. 이 모델들은 각각 70억 개의 파라미터, 즉 AI의 똑똑함을 결정짓는 중요한 요소들을 가지고 있습니다. 놀랍게도 이 모델들은 코딩, 이미지 이해, 수학 문제 해결 능력 등 다양한 평가 항목에서 메타(구 페이스북)가 만든 첫 번째 '라마(Llama)' AI 모델과 비슷한 수준의 성능을 보여줬습니다. 이는 저작권 문제가 없는 데이터만으로도 충분히 경쟁력 있는 AI를 개발할 수 있다는 가능성을 보여준 것입니다. EleutherAI는 앞으로 공개된 합법 데이터가 많아질수록 모델의 성능도 더욱 향상될 것으로 기대하고 있습니다.

왜 이런 걸 만들었을까? EleutherAI의 속내

EleutherAI는 AI 기업들이 저작권 소송을 의식해 AI 모델 학습에 어떤 데이터를 사용했는지 투명하게 공개하지 않는 점이 AI 연구 전체에 해가 된다고 지적합니다. 데이터 출처가 불분명하면 AI 모델이 어떻게 작동하는지, 어떤 문제점을 가질 수 있는지 파악하기 어렵기 때문입니다. '더 커먼 파일 v0.1' 공개는 이러한 문제를 해결하고, 더 투명하고 윤리적인 AI 연구 환경을 만들려는 노력의 일환입니다. EleutherAI는 앞으로도 연구 및 인프라 파트너들과 협력하여 오픈 데이터셋을 더 자주 공개할 계획이라고 밝혔습니다. 이를 통해 더 많은 연구자들이 저작권 걱정 없이 AI 연구에 참여하고, AI 기술 발전에도 긍정적인 영향을 줄 것으로 보입니다. 결국 '더 커먼 파일 v0.1'의 등장은 단순히 거대한 데이터셋 하나가 추가된 것을 넘어, AI 개발 방식에 대한 새로운 질문을 던지고 있습니다. 앞으로 AI가 더욱 발전하기 위해서는 기술력뿐만 아니라, 데이터의 투명성과 윤리성에 대한 고민도 함께 이루어져야 할 것입니다.
편집자: 이도윤 기자
제보·문의: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

저작권 없는 데이터로 AI 개발 가능?

댓글 0

관련 기사