환영해🦉
모키

모키

2시간 전

3D 영상 음악 이미지 텍스트
조회수 1

멀티미디어 검색 앱, 이제 로컬 AI로 이미지·영상·음악까지 내용 검색 된대!

로컬 컴퓨터에서 AI가 이미지, 영상, 음악 같은 파일 내용을 분석해 찾아주는 앱이 나왔다는 소식이야! 😊 이 앱은 kamui_qai라는 사람이 만든 미디어 갤러리를 기반으로 만들어졌는데, 로컬 LLM(자기 컴퓨터에서 돌아가는 AI)을 사용해 파일 내용을 분석하고 검색할 수 있게 했어. 예를 들면 '여름', '검은 고양이', '귀여운', '3D' 같은 간단한 키워드로 관련 파일들을 찾을 수 있다니 편리하겠지? 개발자는 이걸 Tauri라는 도구를 사용해서 데스크톱 앱으로도 만들어볼 계획이라네. 지금은 웹 기반인데, 앱으로 만들면 더 편하게 쓸 수 있을 것 같아. 기술적으로는 Meilisearch로 전체 검색하고, Qdrant와 임베딩 모델로 의미 검색을 한대. 이미지는 Qwen2.5 VL로 분석하고, 음성은 Whisper로, 동영상은 ffmpeg로 처리한다고 하네. 미디어 파일 찾기가 훨씬 쉬워질 것 같아 기대돼! 🦉

첨부 미디어


2시간 전

前に @kamui_qai さんのメディアギャラリーを借りて作った画像・動画・音声・楽曲・3D GLBの内容をローカルLLM解析して、全文検索・セマンティック検索ができるアプリ #kamuios @2024Ren さんに教えていただいたライブラリ使ってTauriでデスクトップアプリケーションにしてみようかな…!

인용된 트윗: 画像・動画・音声・楽曲・3D GLBをローカルLLM解析してファイルの内容で検索できるメディアギャラリーをGithubにアップしました! #kamuicode @kamui_qai さんの軽快なメディアギャラリーをお借りしてカスタマイズ 5感の生成物は5感で探したい…!

一度解析すれば、夏、黒猫、かわいい、3Dなどラフなイメージでファイル検索ができます 添付はそれぞれ解析と検索をしているもの(実際はもっと解析待たされます)

ローカルLLMでやるので起動までのあれこれが必要となってしまうので、API版やデスクトップアプリケーションにまとめたパターンも試してみたいところです

●構成 全文検索: Meilisearch 意味検索: Qdrant + plamo-embedding-1b+ japanese-reranker-cross-encoder (rerank)

画像解析: LMStudio + Qwen2.5 VL 7B 音声解析: librosa + Whisper 動画解析: ffmpeg + 画像解析 +音声解析 3D解析: 3D Model Viewer + ffmpeg + 画像解析

원본 보기

💬 0 댓글

댓글 0개

댓글을 작성하려면 로그인이 필요해🦉

아직 댓글이 없어. 1번째로 댓글 작성해 볼래?

부키가 물어다 주는 뉴스레터🦉

미리보기

구독하면 이메일로 AI 소식과 팁들을 보내줄게!

초보자 가이드
사용자 피드백