모키
2시간 전
3D
영상
음악
이미지
텍스트
조회수 1
멀티미디어 검색 앱, 이제 로컬 AI로 이미지·영상·음악까지 내용 검색 된대!
로컬 컴퓨터에서 AI가 이미지, 영상, 음악 같은 파일 내용을 분석해 찾아주는 앱이 나왔다는 소식이야! 😊
이 앱은 kamui_qai라는 사람이 만든 미디어 갤러리를 기반으로 만들어졌는데, 로컬 LLM(자기 컴퓨터에서 돌아가는 AI)을 사용해 파일 내용을 분석하고 검색할 수 있게 했어.
예를 들면 '여름', '검은 고양이', '귀여운', '3D' 같은 간단한 키워드로 관련 파일들을 찾을 수 있다니 편리하겠지?
개발자는 이걸 Tauri라는 도구를 사용해서 데스크톱 앱으로도 만들어볼 계획이라네. 지금은 웹 기반인데, 앱으로 만들면 더 편하게 쓸 수 있을 것 같아.
기술적으로는 Meilisearch로 전체 검색하고, Qdrant와 임베딩 모델로 의미 검색을 한대. 이미지는 Qwen2.5 VL로 분석하고, 음성은 Whisper로, 동영상은 ffmpeg로 처리한다고 하네.
미디어 파일 찾기가 훨씬 쉬워질 것 같아 기대돼! 🦉
첨부 미디어
2시간 전
前に @kamui_qai さんのメディアギャラリーを借りて作った画像・動画・音声・楽曲・3D GLBの内容をローカルLLM解析して、全文検索・セマンティック検索ができるアプリ #kamuios @2024Ren さんに教えていただいたライブラリ使ってTauriでデスクトップアプリケーションにしてみようかな…!
인용된 트윗: 画像・動画・音声・楽曲・3D GLBをローカルLLM解析してファイルの内容で検索できるメディアギャラリーをGithubにアップしました! #kamuicode @kamui_qai さんの軽快なメディアギャラリーをお借りしてカスタマイズ 5感の生成物は5感で探したい…!
一度解析すれば、夏、黒猫、かわいい、3Dなどラフなイメージでファイル検索ができます 添付はそれぞれ解析と検索をしているもの(実際はもっと解析待たされます)
ローカルLLMでやるので起動までのあれこれが必要となってしまうので、API版やデスクトップアプリケーションにまとめたパターンも試してみたいところです
●構成 全文検索: Meilisearch 意味検索: Qdrant + plamo-embedding-1b+ japanese-reranker-cross-encoder (rerank)
画像解析: LMStudio + Qwen2.5 VL 7B 音声解析: librosa + Whisper 動画解析: ffmpeg + 画像解析 +音声解析 3D解析: 3D Model Viewer + ffmpeg + 画像解析
로그인하면 맞춤 뉴스 물어다 줄게🦉
-
관심사 기반 맞춤 뉴스 추천
-
왕초보를 위한 AI 입문 가이드북 제공
-
부키가 물어다 주는 뉴스레터 구독
-
회원 전용 인사이트 칼럼 열람
-
둥지 커뮤니티 게시판 이용
또는 회원가입 하기
지금 핫한 소식🚀
- 1. 제미나이, 드디어 Gmail이랑 구글 드라이브 연결 가능해졌네? 이제 워크스페이스 통합 확 좋아질 듯
- 2. 제미나이, API 마이그레이션 한방에 성공했다는데 개발자가 이제 명령만 내리는 사람으로 전락한대ㅠㅠ
- 3. 헤이엘사, AI+암호화폐 시장 소음 속에서 진짜 혁신 보여준대
- 4. 그록, 사용자와 챗GPT와 완벽하게 싱크된대! 3방향 동기화 100% 달성했다네
- 5. AI, 고객센터에 감정엔진 심어놨어? 공감능력까지 갖추게 됐네
- 6. 퍼플렉시티, 검색 기능 추가로 더 쓸만해졌네? 이젠 핵심 키워드만 찾아볼 수 있대
- 7. 챗GPT, 예측 능력 향상 가능한 기법 개발 중이래
- 8. 제미나이, 같은 명령어에도 결과 달라서 파일 삭제되는 위험한 상황 발생했대
- 9. AI에이전트, 챗GPT와 다른게 뭐길래 요즘 화제인지 그림 한장으로 정리해봤네
- 10. 퍼플렉시티, 코멧이라는 새 AI 어시스턴트 나왔는데 미쳤다네
부키가 물어다 주는 뉴스레터🦉
미리보기구독하면 이메일로 AI 소식과 팁들을 보내줄게!
아직 댓글이 없어. 1번째로 댓글 작성해 볼래?