산업/비즈니스

“한국어 데이터 주권 지킨다” 플리토 아랍어 등 10개국 AI 데이터 구축

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.13 18:14

기사 3줄 요약

1 국립국어원과 플리토의 데이터 구축 계약 체결
2 아랍어 포함 10개 언어 말뭉치 595만 어절 확보
3 데이터 주권 확보로 국내 AI 번역 기술 고도화

인공지능 시대에 우리말의 권리를 지키기 위한 중요한 움직임이 시작되었습니다. 최근 발표된 국립국어원 자료에 따르면 국내 기업 플리토가 한국어와 외국어 사이의 말뭉치를 만드는 사업에 참여합니다. 이번 사업은 우리 기술로 만든 AI가 외국 기업에 의존하지 않도록 돕는 핵심 자산이 될 전망입니다. 단순히 문장을 옮기는 수준을 넘어 우리만의 데이터 주권을 확보하는 것이 목표입니다. 인공지능이 더 똑똑하게 대화하고 번역할 수 있도록 돕는 대규모 데이터를 쌓는 과정입니다. 이 사업을 완료하면 우리나라 AI 기술의 독립성이 한층 더 강해질 것으로 보입니다.

아랍어까지 포함된 역대급 규모인가

이번 프로젝트는 약 38억 원 규모로 진행되는 대형 사업입니다. 플리토는 베트남어와 태국어 등 기존 언어에 아랍어를 새롭게 추가합니다. 총 10개 언어에 걸쳐 약 595만 어절에 달하는 방대한 데이터를 구축할 계획입니다. 데이터는 문장 단위가 아니라 문단 단위로 꼼꼼하게 만들어집니다. 이렇게 하면 AI가 전체적인 흐름과 맥락을 더 잘 이해할 수 있게 됩니다. 국립국어원에 따르면 구축된 데이터는 누구나 이용할 수 있도록 공개되어 국내 AI 생태계 발전을 이끌 예정입니다.

동남아 시장까지 노리는 전략인가

플리토는 이번 사업을 통해 특히 저자원 언어에 집중하고 있습니다. 저자원 언어란 인터넷상에 데이터가 부족해 AI가 학습하기 어려운 언어를 말합니다. 아시아권 국가들의 언어 데이터를 확보하여 글로벌 기술 격차를 줄이겠다는 구상입니다. 실제로 플리토는 동남아시아 시장을 주요 해외 거점으로 보고 있습니다. 지난 3월 베트남 국립대학교와 협력하기로 약속하며 본격적인 활동을 시작했습니다. 앞으로 동남아 국가들과 협력을 더 넓혀서 AI 데이터 분야의 리더가 되겠다는 포부를 밝혔습니다.

우리 삶에 어떤 변화를 가져올까

고품질 언어 데이터가 쌓이면 우리가 쓰는 번역 서비스가 훨씬 자연스러워집니다. 인공지능이 사람처럼 문맥을 파악하고 추론하는 능력이 좋아지기 때문입니다. 실시간 통역이나 음성 인식 비서의 성능도 지금보다 훨씬 정확해질 것으로 기대됩니다. 특히 말하기 데이터를 함께 구축하기 때문에 음성 기반 AI 서비스도 고도화됩니다. 외국인과 대화할 때 막힘없이 소통할 수 있는 차세대 번역 모델 개발이 빨라질 것입니다. 이번 사업은 단순한 데이터 수집을 넘어 우리나라가 AI 강국으로 가는 든든한 발판이 될 것입니다. 이정수 플리토 대표는 국립국어원과 협력하여 고품질 데이터를 지속적으로 공급하겠다고 전했습니다. 정부 기관과 민간 기업이 힘을 합쳐 AI 기술 독립을 이루겠다는 의지가 돋보입니다. 축적된 데이터가 6,100만 어절에 달하는 만큼 앞으로의 성과가 더욱 기대됩니다.