루미나, 텍스트와 이미지 동시 처리하는 획기적 기술 나왔네

부키

13시간 전

기타 딥시크 아트 이미지 텍스트

텍스트랑 이미지를 한 번에 다루는 신기술이 등장했어. 'Lumina DiMOO'라는 이름의 이 기술은 완전히 이산적인(discrete) 확산 모델이라 텍스트랑 이미지를 동시에 이해하고 생성할 수 있대. 지금까지 AI 모델들은 텍스트 처리와 이미지 처리를 각각 다른 시스템으로 했는데, 이 기술은 하나로 통합했다는 게 핵심이야. 게다가 기존의 자동회귀(AR) 방식이나 하이브리드 시스템보다 더 빠르게 결과물을 만들어낸다고 하네 ㅋㅋ 여기서 '이산적 확산 모델'이란 데이터를 작은 조각들로 쪼개서 처리하는 방식인데, 이게 텍스트와 이미지를 통합적으로 다룰 수 있게 해준대. 쉽게 말하면, 하나의 모델로 텍스트를 이미지로 바꾸고, 이미지를 이해하는 작업을 모두 처리할 수 있다는 거지. 이런 기술이 널리 퍼지면 여러 AI 모델을 따로 쓰지 않고도 다양한 작업을 한 번에 처리할 수 있게 될 거야. 특히 이미지 생성이나 이해가 필요한 업무에서 속도와 효율성이 크게 향상될 것 같아 🦉

첨부 미디어

@jiqizhixin

13시간 전

One discrete diffusion model could handle every multimodal task end to end?

Lumina DiMOO is a fully discrete diffusion model for generation and understanding across text and images. It delivers faster sampling than AR and hybrid systems while supporting text to image, image https://t.co/BjG5gp9osB

원본 보기

💬 0 댓글