환영해🦉
기술/연구

“공짜 데이터는 없었다” AI 거인들, 몰래 훔친 기사로 학습

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.11.04 23:47
“공짜 데이터는 없었다” AI 거인들, 몰래 훔친 기사로 학습

기사 3줄 요약

  • 1 AI 모델 학습에 언론사의 유료 기사가 무단 사용된 정황 포착
  • 2 비영리 재단 ‘커먼 크롤’이 페이월 우회해 데이터를 수집, 제공
  • 3 뉴욕타임스 등 언론사들, 저작권 침해로 AI 기업에 소송 제기
우리가 매일 사용하는 인공지능(AI)이 똑똑해진 비결이 밝혀졌습니다. 바로 전 세계 언론사들이 돈을 받고 파는 유료 기사를 몰래 학습 데이터로 사용했다는 의혹입니다. 최근 보도에 따르면, ‘커먼 크롤(Common Crawl)’이라는 비영리 재단이 이런 일을 가능하게 한 핵심 통로로 지목됐습니다. 이 재단은 OpenAI, 구글, 아마존 같은 거대 AI 기업들이 언론사의 고급 콘텐츠를 무료로 학습에 이용할 수 있도록 뒷문을 열어준 셈입니다.

아니, 유료 기사를 어떻게 공짜로 긁어모아?

커먼 크롤은 웹사이트의 콘텐츠를 긁어모으는 ‘스크레이퍼’라는 프로그램을 사용합니다. 이 프로그램은 일반 사용자가 사이트에 접속할 때 작동하는 ‘결제 창’ 같은 코드를 실행하지 않습니다. 그래서 유료 구독자에게만 보이는 기사 전문을 그대로 수집할 수 있었던 것입니다. 이런 방식으로 뉴욕타임스, 월스트리트저널, 이코노미스트 등 수많은 유명 언론사의 기사 수백만 건이 AI의 학습 데이터로 흘러 들어갔습니다. AI 기업들은 이 고품질 데이터를 이용해 진짜 기자처럼 글을 쓰는 ChatGPT 같은 모델을 만들었습니다.

언론사들은 가만히 있었어?

문제를 인지한 언론사들은 뒤늦게 대응에 나섰습니다. 많은 언론사들이 커먼 크롤의 접근을 차단하고, 이미 수집된 기사를 삭제해달라고 공식적으로 요청했습니다. 뉴욕타임스는 2023년 7월, 커먼 크롤에 자사 콘텐츠 삭제를 요구했습니다. 커먼 크롤은 요청에 따랐다고 밝혔지만, 실제로는 데이터가 거의 삭제되지 않은 것으로 드러났습니다. 덴마크의 한 언론 단체가 삭제를 요청한 지 6개월이 지났을 때, 커먼 크롤 측은 “약 50%가 삭제됐다”고 답했습니다. 하지만 조사 결과, 지난 9년간 데이터가 수정된 흔적은 발견되지 않았습니다.

비영리 단체가 왜 이런 일을 하는 거야?

커먼 크롤의 이사인 리치 스크렌타는 “로봇도 사람이다”라며 AI가 인터넷의 모든 정보를 자유롭게 읽을 권리가 있다고 주장합니다. 그는 심지어 언론사들을 향해 “인터넷에 공개되기 싫었다면 콘텐츠를 올리지 말았어야 했다”고 말하기도 했습니다. 흥미로운 점은 커먼 크롤이 2023년부터 OpenAI와 앤트로픽 같은 AI 기업들로부터 수십만 달러의 기부금을 받았다는 사실입니다. 비영리를 표방하지만, 사실상 거대 AI 기업들의 데이터 공급처 역할을 하며 이들의 ‘더러운 일’을 대신 해주고 있다는 비판이 나오는 이유입니다.

저작권 전쟁, 이제 시작이다

현재 뉴욕타임스는 OpenAI와 마이크로소프트를 상대로 대규모 소송을 진행 중입니다. 이번 소송 결과는 AI 산업 전체의 미래를 결정할 중요한 분수령이 될 전망입니다. AI 기업들은 저작권 자료 사용이 ‘공정 이용’에 해당한다고 주장하지만, 법원은 점차 콘텐츠 제작자의 손을 들어주는 추세입니다. AI 기술의 발전과 창작자의 권리 보호 사이에서 사회적 합의가 시급한 시점입니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI가 유료 기사로 학습해도 괜찮은가?

댓글 0

관련 기사

부키가 물어다 주는 뉴스레터🦉

미리보기

구독하면 이메일로 AI 소식과 팁들을 보내줄게!

초보자 가이드
사용자 피드백