기술/연구

“진짜 사람처럼 물건 집는다” 바이트댄스 옴니쇼 영상 AI 판도 뒤집나

댓글 0 · 저장 0 · 편집: 이도윤 기자 발행: 2026.04.20 19:54

기사 3줄 요약

1 바이트댄스 사람과 사물 상호작용 구현한 옴니쇼 공개
2 물리적 오류 해결해 물건 집는 자연스러운 동작 완성
3 텍스트와 음성 등 다양한 정보 처리해 10초 영상 생성

바이트댄스가 틱톡을 넘어 영상 제작의 패러다임을 바꿀 새로운 무기를 꺼냈습니다. 인공지능이 영상을 만들 때 가장 어려워하던 물리적 상호작용 문제를 깔끔하게 해결한 것입니다. 연구팀이 발표한 자료에 따르면 이번에 공개된 옴니쇼는 사람의 손이 물체를 뚫고 지나가는 어색함을 완전히 없앴습니다. 텍스트와 이미지뿐만 아니라 소리와 포즈 데이터까지 한 번에 이해하는 능력을 갖췄기 때문입니다.

어색한 인공지능 영상은 이제 끝난 걸까

기존의 영상 인공지능은 캐릭터가 물건을 집을 때 손가락 모양이 뭉개지거나 사물이 왜곡되는 일이 잦았습니다. 하지만 옴니쇼는 통합 채널별 조건화라는 기술을 사용하여 이런 시각적 오류를 줄였습니다. 이미지 조각들을 하나의 틀에 맞춰 넣는 방식이라 캐릭터의 외형을 유지하면서도 복잡한 동작을 정확하게 그려냅니다. 덕분에 우리는 마치 실제 사람이 움직이는 듯한 자연스러운 영상을 볼 수 있게 되었습니다.

소리와 동작이 딱딱 맞는 마법 같은 기술

이 모델은 소리와 입 모양을 맞추는 립싱크 기능에서도 압도적인 성능을 자랑합니다. 게이트 기반 로컬 컨텍스트 어텐션이라는 기술이 소리 정보를 영상 장면과 톱니바퀴처럼 연결해 줍니다. 최대 10초 길이의 영상을 생성할 수 있는데 이는 숏폼 콘텐츠를 제작하기에 충분한 시간입니다. 특히 인물의 포즈 데이터를 정교하게 조율하여 자연스럽게 물건을 조작하는 장면까지 완벽하게 구현합니다.

우리 일상에 어떤 변화를 가져올까

앞으로 쇼핑몰에서 상품을 시연하거나 가상 모델을 활용한 광고를 만들 때 이 기술이 핵심적인 역할을 할 것입니다. 바이트댄스의 발표에 따르면 옴니쇼는 현재 비슷한 분야에서 가장 효율적이고 강력한 성능을 보여줍니다. 콘텐츠 제작의 문턱이 낮아지면서 누구나 전문가 수준의 영상을 손쉽게 만드는 시대가 다가오고 있습니다. 인공지능이 그리는 영상의 미래가 어디까지 발전할지 정말 기대되는 시점입니다.