“AI 학습, ‘도둑질 데이터’ 이제 끝? 8TB 윤리적 데이터셋 등장에 긴장!”
댓글 1
·
저장 0
·
편집: 이도윤 기자
발행: 2025.06.09 00:09

기사 3줄 요약
- 1 역대 최대 규모 윤리적 AI 데이터셋 '커먼 파일' 등장
- 2 AI 기업 불법 데이터 수집 관행에 강력한 경고 메시지
- 3 수작업 필수, 깨끗한 AI 데이터 확보 어려움 재확인
최근 인공지능(AI) 업계에 아주 의미 있는 소식이 전해졌습니다. 바로 저작권 걱정 없는 ‘깨끗한 데이터’로만 만들어진 역대 최대 규모의 AI 학습용 데이터셋, ‘커먼 파일(The Common Pile)’이 등장한 것입니다. 이는 그동안 무분별하게 데이터를 사용해 온 몇몇 AI 기업들에게 따끔한 경고가 될 것으로 보입니다. 이 데이터셋을 만든 연구진은 이 작업이 얼마나 어려운 일인지 직접 보여주며 AI 윤리에 대한 중요성을 강조했습니다.
깨끗한 AI? '커먼 파일' 대체 뭐길래!
엘루서 AI, 허깅페이스, 앨런 AI 연구소 등 여러 기관의 연구자 20여 명이 힘을 합쳐 ‘커먼 파일’이라는 이름의 데이터셋과 관련 논문을 공개했습니다. 이 데이터셋은 무려 8테라바이트(TB) 크기로, 오직 공개 라이선스를 따르거나 모든 사람이 자유롭게 쓸 수 있는 퍼블릭 도메인 텍스트 자료만으로 구성되었습니다. 여기에는 공개 웹사이트, 뉴스, 학술 자료, 위키피디아, 정부 및 법률 문서, 심지어 프로그래밍 코드까지 방대한 양의 정보가 포함되어 있습니다. 연구진은 이 ‘착한 데이터’로 70억 개의 매개변수(AI가 학습하는 정보의 단위)를 가진 언어모델을 학습시켰더니, 약 2년 전 메타가 공개한 ‘라마 2-7B’ 모델과 비슷한 수준의 성능을 보였다고 밝혔습니다. 하지만 연구진이 정말 강조하고 싶었던 것은 모델의 성능 자체가 아니었습니다. 그보다는 합법적인 데이터만으로도 충분히 괜찮은 AI를 만들 수 있다는 사실, 그리고 그 과정이 얼마나 험난한지를 알리고 싶었던 것입니다.이거 만들다 연구원들 곡소리 났다는데, 왜?
‘커먼 파일’을 만드는 과정은 그야말로 ‘맨땅에 헤딩’과 같았습니다. 모든 자료에 사람이 직접 내용을 확인하고 분류하는 주석 작업을 거쳤고, 담당자가 이를 최종적으로 점검하는 등 엄청난 시간과 노력이 투입되었습니다. 데이터를 단순히 모으는 것을 넘어, 어떤 웹사이트의 자료가 어떤 라이선스 규정을 따르는지 일일이 파악하고, 기계가 이해할 수 있는 형태로 가공하는 작업은 결코 자동화하기 어려웠기 때문입니다. 이런 어려움에도 불구하고 연구진이 직접 나선 이유는 분명합니다. 최근 AI 모델 개발 과정에서 기업들이 저작권 있는 데이터를 무단으로 사용한다는 비판이 커지고 있지만, 실제로 ‘깨끗한 데이터’만으로 모델을 만들려는 시도는 거의 없었기 때문입니다. 그들은 이번 프로젝트를 통해 “윤리적인 AI 개발이 실제로 얼마나 어려운지, 하지만 불가능하지 않다는 것을 보여주고 싶었다”고 말합니다.AI 기업들, 이제 '데이터 도둑질' 못하나?
사실 엘루서 AI는 과거에도 비슷한 시도를 한 적이 있습니다. 2020년 공개했던 ‘파일(Pile)’ 데이터셋이 그것인데, 안타깝게도 2023년에 불법 도서 데이터셋인 ‘북3(Books3)’가 포함된 사실이 드러나 삭제하는 아픔을 겪었습니다. 이번 ‘커먼 파일’은 과거의 실수를 반복하지 않겠다는 의지의 표현이기도 합니다. 연구진은 오픈AI나 앤트로픽 같은 거대 AI 기업들이 당장 이런 힘든 방식을 따를 것이라고 기대하지는 않습니다. 하지만 이번 공개가 최소한 AI 기업들이 어떤 데이터를 학습에 사용했는지 투명하게 공개했던 과거로 돌아가는 계기가 되기를 바라고 있습니다. 실제로 메타는 저작권 소송 과정에서 불법 자료 사용 정황이 드러나 큰 논란을 빚기도 했습니다.그래서 우리한테 뭐가 좋은 건데? 윤리적 AI 시대 오나?
‘커먼 파일’의 등장은 AI 기술 발전의 중요한 전환점이 될 수 있습니다. 비록 최첨단 모델을 만드는 데 필요한 만큼의 방대한 데이터를 ‘깨끗하게’ 모으는 것이 여전히 어렵다는 현실도 다시 한번 확인했지만, 중요한 것은 이러한 시도 자체가 시작되었다는 점입니다. 작은 부분이라도 투명성이 확보된다면, 이는 사회적으로나 과학적으로 엄청난 가치를 지니게 됩니다. 앞으로 AI 기술이 더욱 발전하고 우리 생활 깊숙이 들어오기 위해서는 기술 개발 과정에서의 윤리적 고민과 투명성 확보가 반드시 필요합니다. ‘커먼 파일’은 그러한 노력의 중요성을 일깨우는 의미 있는 발걸음이라고 할 수 있습니다. 이 작은 날갯짓이 AI 산업 전체에 긍정적인 변화를 가져오기를 기대해 봅니다.
편집자:
이도윤 기자
제보·문의:
aipick@aipick.kr

부키와 모키의 티격태격
찬/반 투표
총 투표수: 1AI 학습에 불법 데이터 사용, 용인해도 될까?
안된다
0%
0명이 투표했어요
괜찮다
0%
0명이 투표했어요
관련 기사
최신 기사




오..의미있는 발전인듯 ㅎㅎ