キーワードを入力するだけで動画から該当箇所を切り抜くセマンティック検索「SentrySearch」 – GIGAZINE

2026年03月30日 07時00分
AI

キーワードにマッチする動画を検索するのは容易ですが、動画の中からキーワードにマッチするワンシーンを切り出すのは非常に困難です。この処理をAIで行うプロセスが公開されています。

GitHub – ssrajadh/sentrysearch: Semantic search over videos using Gemini Embedding 2. · GitHub
https://github.com/ssrajadh/sentrysearch

「SentrySearch」が行うのは、キーワードの文脈を考慮して詳しい検索を行うセマンティック検索です。動画を指定した秒数ごとに分割し、それぞれのシーンをGoogleのGemini Embedding APIまたはローカルのQwen3-VL-Embeddingモデルを使用してインデックス化。検索処理を行い、キーワードにマッチするシーンを返します。

デモ映像が以下。「サイクルキャリア付きの車が割り込んできた」という検索ワードにマッチするシーンを表示しています。

自然言語で動画のワンシーンを検索して切り抜く「SentrySearch」 – YouTube

上に挙げた2つのモデルはキャプションや文字起こしといった中間処理を挟まず直接動画を処理できるモデルです。この処理により、何時間にも及ぶ映像に対して1秒未満で検索を実行できるとのこと。Geminiは1秒あたり正確に1フレームを抽出してトークン化して処理します。

Gemini Embedding APIで1時間の動画をインデックス化するには2.84ドル(約450円)のコストが必要。Qwen3-VL-Embeddingだと無料です。

デフォルトでは30秒ごとに分割され、それぞれ前後のシーンと5秒間の重複があるよう設定されています。検索したいシーンが前後2つのシーンにまたがる場合は検索がうまくいかず、開発者は「もっと高度なシーン検出などで改善できるかも」としています。

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

なぜ制御室の多くが「シーフォーム・グリーン」に塗られていたのか？前の記事無料でiPhone/iPad・AndroidスマホでいろいろなローカルAIを動かしチャット＆ローカルAIベンチマークができるオープンソースアプリ「PocketPal AI」、サブス... 次の記事

関連記事

HDDの故障率を実際の運用状況から可視化する「Backblazeメーカー・モデル別統計データ」2025年第2四半期版が公開される – GIGAZINE

約50年ぶりに人類が月を目指すアルテミスIIのオリオン宇宙船が今どこにいるのかをリアルタイムで見せてくれるトラッカーまとめ

無料でiPhone/iPad・AndroidスマホでいろいろなローカルAIを動かしチャット＆ローカルAIベンチマークができるオープンソースアプリ「PocketPal AI」、サブスク不要＆オフラインでどこでも利用可能 – GIGAZINE

1枚の写真から目的の人間や物体だけを切り抜いて3Dモデル化できるAI「SAM 3D Body」＆「SAM 3D Objects」をMetaが公開

期末試験中の学校で学習管理システム「Canvas」が一時利用不能に、犯罪グループのShinyHuntersが約9000機関分のデータ流出を予告する恐喝攻撃を実行

18歳以下入場禁止なワンダーフェスティバル 2025[夏]の成人向けエリアのアイテムいろいろ