환영해🦉
기술/연구

“빅테크 독점 막겠다” 위키피디아, AI 핵심 데이터 전격 무료 공개

댓글 1 · 저장 0 · 편집: 이도윤 기자 발행: 2025.10.02 10:47
“빅테크 독점 막겠다” 위키피디아, AI 핵심 데이터 전격 무료 공개

기사 3줄 요약

  • 1 위키미디어, AI 개발자를 위한 위키데이터 무료 공개
  • 2 3천만 개 항목을 벡터로 변환해 AI 학습 쉽게 만들어
  • 3 빅테크와 소규모 개발사 간의 기술 격차 해소 기대
위키피디아의 자매 프로젝트인 위키데이터가 인공지능(AI) 개발의 새로운 문을 열었습니다. 거대 기술 기업의 전유물로 여겨졌던 고품질 데이터를 AI가 쉽게 학습할 수 있는 형태로 가공해 무료로 공개한 것입니다. 이는 자본이 부족한 소규모 AI 개발사나 연구자들에게 단비 같은 소식이며, AI 기술의 독점을 막는 중요한 전환점이 될 수 있습니다.

그래서, 데이터가 어떻게 바뀌는데?

이번 프로젝트의 핵심은 '벡터 변환' 기술입니다. 기존 위키데이터는 정보가 나열된 형태라 AI가 문맥을 이해하기 어려웠습니다. 하지만 이제는 3천만 개가 넘는 항목들을 벡터라는 특수한 형태로 바꿨습니다. 벡터는 정보들을 서로 연결된 점과 선으로 표현하는 방식과 같습니다. 예를 들어 '더글러스 애덤스'라는 작가 정보는 '인간'이라는 점과 연결되고, 그가 쓴 책 제목들과도 이어지는 식입니다. 이렇게 하면 AI가 단순히 정보를 암기하는 것을 넘어, 각 정보 사이의 관계와 의미, 즉 문맥까지 파악할 수 있게 됩니다.

이게 왜 작은 개발사한테 좋은 소식이야?

사실 이런 데이터 가공 작업은 막대한 비용과 자원이 필요합니다. OpenAI나 앤트로픽 같은 거대 기업들은 자체적으로 이런 작업을 할 능력이 충분합니다. 하지만 소규모 개발사에게는 그림의 떡과 같은 이야기였습니다. 위키미디어 독일 지부가 이 데이터베이스를 무료로 제공하면서 상황이 달라졌습니다. 이제 작은 회사들도 거대 기업들과 비슷한 출발선에서 AI 모델을 개발할 기회를 얻게 된 것입니다. 실제로 위키데이터를 활용해 전 세계 공무원들의 연락처를 찾아주는 '거버먼트디렉토리(Govdirectory)'와 같은 유용한 서비스가 이미 등장한 바 있습니다.

앞으로 AI가 더 똑똑해지는 건가?

이번 프로젝트는 AI의 편향성을 줄이는 데도 기여할 수 있습니다. 대부분의 AI 챗봇은 인터넷에서 인기 있는 주제나 단어를 중심으로 학습하는 경향이 있습니다. 하지만 위키데이터에는 잘 알려지지 않은 다양한 분야의 정보가 체계적으로 정리되어 있습니다. AI가 이 데이터를 쉽게 학습하게 되면, 보다 폭넓고 균형 잡힌 지식을 갖춘 AI 시스템이 탄생할 수 있습니다. 위키미디어 독일 팀은 AI 기업 '지나 AI'의 모델을 사용해 데이터를 변환했으며, IBM의 '데이터스택스'가 데이터베이스 인프라를 무료로 지원하고 있습니다.

그럼 지금 바로 쓸 수 있는 거야?

현재 공개된 데이터는 2024년 9월 18일까지의 정보를 기반으로 합니다. 위키미디어 측은 개발자들의 피드백을 받은 후 최신 정보로 업데이트할 계획이라고 밝혔습니다. 일부 정보가 오래되었다고 해서 데이터베이스의 가치가 떨어지는 것은 아닙니다. 위키미디어 AI 프로젝트 매니저 필립 사데에 따르면, 벡터는 정보의 전반적인 개념을 담고 있어 사소한 정보 변경은 큰 영향을 주지 않습니다. 이번 프로젝트는 AI 기술의 민주화를 향한 의미 있는 첫걸음입니다. (사진 출처: 셔터스톡)
편집자 프로필
편집: 이도윤 기자
이메일: aipick@aipick.kr
AI PICK 로고

부키와 모키의 티격태격

찬/반 투표

총 투표수: 1

위키데이터 무료 공개, AI 독점 해소될까?

댓글 1

14분 전

가즈아