환영해🦉
산업/비즈니스

“웹 데이터는 쓰레기” AI 기업들, 예술가 고용해 데이터 직접 캔다

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2025.10.17 04:58
“웹 데이터는 쓰레기” AI 기업들, 예술가 고용해 데이터 직접 캔다

기사 3줄 요약

  • 1 AI 업계, 웹 데이터 대신 고품질 ‘자체 데이터’ 확보 전쟁
  • 2 예술가, 요리사 고용해 특정 행동 영상 직접 촬영하기도
  • 3 데이터 품질이 AI 성능과 경쟁력 좌우하는 핵심으로 부상
최근 한 예술가는 룸메이트와 함께 머리에 고프로 카메라를 쓰고 그림을 그리고 조각을 했습니다. 인공지능(AI) 시각 모델을 훈련시키기 위해서였습니다. 이는 AI 학습 방식의 거대한 변화를 보여주는 상징적인 장면입니다. 과거 AI 기업들은 인터넷에 널려 있는 방대한 데이터를 마구잡이로 긁어모았습니다. 하지만 이제는 웹 데이터 대신, 직접 수집한 고품질의 ‘독점 데이터’를 확보하는 데 사활을 걸고 있습니다. AI 성능을 가르는 진짜 승부처가 데이터의 양이 아닌 질로 옮겨가고 있기 때문입니다.

진짜 AI는 데이터 양이 아니라 질?

AI 이메일 관리 서비스 ‘픽서(Fyxer)’의 사례가 이를 잘 보여줍니다. 픽서 창업자는 초기에 방대한 데이터보다 소수의 전문가가 꼼꼼히 고른 데이터로 AI를 훈련시킬 때 성능이 훨씬 좋아진다는 사실을 발견했습니다. 이는 ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)’는 AI 업계의 오랜 격언을 증명합니다. 웹에서 무분별하게 수집한 데이터에는 편견이나 부정확한 정보가 섞여 있어 오히려 AI의 성능을 망칠 수 있습니다. 결국 잘 정제된 고품질 데이터가 AI의 똑똑함을 결정하는 핵심 열쇠인 셈입니다.

예술가부터 요리사까지, 왜 이런 사람들을?

‘튜링 랩스(Turing Labs)’라는 회사는 예술가, 요리사, 건설 노동자 등 손으로 일하는 사람들을 고용해 그들의 작업 과정을 영상으로 담고 있습니다. 단순히 그림이나 요리를 가르치려는 것이 아닙니다. 특정 작업을 순서대로 해결하는 과정과 시각적 상황 판단 능력 등 추상적인 능력을 AI에 가르치기 위함입니다. 인터넷 데이터로는 얻기 힘든 특정 분야의 전문적인 노하우와 미묘한 작업 방식을 학습시키는 것입니다. 이렇게 수집된 고품질 원본 영상은 AI가 수많은 가상 시나리오를 만들어 학습하는 ‘합성 데이터’의 바탕이 되기에 더욱 중요합니다.

결국 ‘데이터’가 진짜 무기네

AI 기업들이 이렇게 데이터 수집에 공을 들이는 이유는 이것이 곧 강력한 경쟁력이 되기 때문입니다. 누구나 사용할 수 있는 공개 AI 모델에 차별점을 만드는 것은 결국 독점적인 고품질 데이터뿐입니다. 이러한 데이터는 경쟁사가 쉽게 따라 할 수 없는 ‘해자(moat)’ 역할을 합니다. 단기적으로는 비용과 노력이 많이 들지만, 장기적으로는 회사의 가장 중요한 자산이 되어 시장에서의 생존과 성공을 보장하는 것입니다. AI 시대의 진정한 전쟁은 알고리즘이 아닌 데이터에서 시작됐습니다.
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 0

AI 학습용 데이터, 직접 수집이 옳은가?

댓글 0

관련 기사