기술/연구

AI 표절 시대 끝? ‘착한 데이터’만 먹은 AI가 온다

댓글 0 · 저장 0 2025.04.25 04:59

기사 3줄 요약

1 Pleias AI, 윤리적 데이터로 학습된 소형 AI 모델 공개
2 검색 결과 출처 자동 표시, AI 거짓 정보 문제 해결 기대
3 작은 크기로 CPU에서도 구동 가능, 활용성 높여

AI가 쓴 글의 출처가 불분명하거나 저작권 문제가 있다는 지적이 끊이지 않습니다. 이런 상황에서 ‘착한 AI’를 표방하며 등장한 Pleias AI가 주목받고 있습니다. 이들은 윤리적으로 확보한 데이터만 사용하고, 답변의 근거까지 명확히 제시하는 새로운 소형 AI 모델을 공개했습니다. 이 모델들은 AI가 정보를 찾아 답변을 생성하는 검색 증강 생성(RAG) 기술에 최적화되어 개발되었습니다. 단순 정보 나열을 넘어, 신뢰할 수 있는 답변을 제공하는 데 초점을 맞춘 것입니다.

그래서 뭐가 다른데?

Pleias AI가 내놓은 모델은 Pleias-RAG-350M과 Pleias-RAG-1B 두 종류입니다. 뒤에 붙은 숫자는 모델의 크기를 나타내는 파라미터(매개변수) 수인데, 3억 5천만 개와 10억 개 수준입니다. 이는 수천억 개가 넘는 거대 언어 모델(LLM)에 비하면 훨씬 작은 크기입니다. 모델 크기가 작다는 것은 큰 장점입니다. 고성능 그래픽처리장치(GPU) 없이 일반 컴퓨터의 중앙처리장치(CPU)에서도 충분히 구동될 수 있기 때문입니다. 8GB 램을 갖춘 일반 컴퓨터에서도 약 20초 만에 답변 생성이 가능하다고 합니다. 즉, 비싼 장비 없이도 더 많은 사람이 AI 기술을 활용할 수 있게 됩니다. 프랑스어, 독일어 등 여러 유럽 언어에서도 성능 저하가 거의 없어 활용 범위도 넓습니다. 작다고 성능이 떨어지는 것도 아닙니다. 여러 문서를 비교 분석하고 잘못된 정보를 걸러내는 능력 테스트에서 라마(Llama)나 큐원(Qwen) 같은 유명 모델들과 비교해도 뒤지지 않거나 오히려 앞서는 성능을 보여주었습니다.

진짜 '착한 AI' 맞아?

Pleias AI는 '윤리적 학습'을 가장 큰 차별점으로 내세웁니다. 이들은 저작권 논란을 피하기 위해, 학습 데이터로 퍼블릭 도메인(저작권 소멸)이나 개방형 라이선스가 명시된 자료만 사용했습니다. 'Common Corpus'라는 이름의 이 데이터셋은 공개된 자료 중에서도 품질과 관련성을 꼼꼼히 따져 구성되었습니다. 또한, 답변 생성 과정의 투명성을 높이기 위해 구글의 '젬마(Gemma)' 모델을 활용하여 학습 데이터의 출처 추적을 강화했습니다. 물론 공개된 데이터만 사용하면 특정 분야 정보가 부족하거나 편향성이 생길 수 있다는 한계도 있습니다. Pleias AI는 이를 해결하기 위해 유해 콘텐츠를 걸러내는 필터링 기술 등을 적용해 안전성을 확보했다고 설명합니다.

AI 거짓말, 이제 안 속는다?

이 모델의 가장 혁신적인 기능은 답변과 함께 그 근거가 된 원문 출처를 정확히 인용(Citation)해준다는 점입니다. 마치 논문 각주처럼, AI 답변의 특정 부분이 어떤 자료의 어떤 내용에 기반했는지 명확히 보여줍니다. 위키피디아의 인용 방식과 유사한 문법을 사용하는데, 사용자가 질문과 함께 참고 자료들을 입력하면 AI가 이를 분석하고 답변을 생성합니다. 답변은 크게 두 부분으로 나뉩니다. 먼저 각 자료가 질문과 얼마나 관련 있는지 분석한 내용을 보여주고, 그 다음 인용 표시와 함께 최종 답변을 제시하는 식입니다. 이를 통해 사용자는 AI 답변의 신뢰도를 직접 확인할 수 있고, AI가 잘못된 정보를 만들어내는 '환각 현상' 문제도 크게 줄일 수 있습니다.

누가 쓰면 좋을까?

Pleias AI 모델은 답변의 투명성과 신뢰도가 중요한 기업, 개발자, 연구자들에게 특히 유용할 것으로 보입니다. 검색 기반의 AI 비서, 교육용 도구, 고객 지원 시스템 등 다양한 분야에 활용될 수 있습니다. 이미 과학 연구 보조 AI인 'ScholastikAI'에 이 기술이 통합되고 있습니다. 특히 유럽연합(EU)의 엄격한 AI 규제 법안(AI Act) 기준을 충족하도록 설계되었다는 점도 강점입니다. 데이터 관리, 투명성 등 까다로운 요구사항을 만족시켜 유럽 시장에서 경쟁 우위를 확보할 것으로 기대됩니다. Pleias AI는 앞으로 모델 성능을 더 개선하고, 오픈소스 커뮤니티와 협력하며 기술을 발전시켜 나갈 계획입니다. 윤리적인 데이터 사용과 투명한 정보 제공이라는 원칙을 지키면서 AI 기술의 신뢰를 높이는 데 기여할 것으로 보입니다.