キーワードにマッチする動画を検索するのは容易ですが、動画の中からキーワードにマッチするワンシーンを切り出すのは非常に困難です。この処理をAIで行うプロセスが公開されています。
GitHub – ssrajadh/sentrysearch: Semantic search over videos using Gemini Embedding 2. · GitHub
https://github.com/ssrajadh/sentrysearch
「SentrySearch」が行うのは、キーワードの文脈を考慮して詳しい検索を行うセマンティック検索です。動画を指定した秒数ごとに分割し、それぞれのシーンをGoogleのGemini Embedding APIまたはローカルのQwen3-VL-Embeddingモデルを使用してインデックス化。検索処理を行い、キーワードにマッチするシーンを返します。
デモ映像が以下。「サイクルキャリア付きの車が割り込んできた」という検索ワードにマッチするシーンを表示しています。
自然言語で動画のワンシーンを検索して切り抜く「SentrySearch」 – YouTube

上に挙げた2つのモデルはキャプションや文字起こしといった中間処理を挟まず直接動画を処理できるモデルです。この処理により、何時間にも及ぶ映像に対して1秒未満で検索を実行できるとのこと。Geminiは1秒あたり正確に1フレームを抽出してトークン化して処理します。
Gemini Embedding APIで1時間の動画をインデックス化するには2.84ドル(約450円)のコストが必要。Qwen3-VL-Embeddingだと無料です。
デフォルトでは30秒ごとに分割され、それぞれ前後のシーンと5秒間の重複があるよう設定されています。検索したいシーンが前後2つのシーンにまたがる場合は検索がうまくいかず、開発者は「もっと高度なシーン検出などで改善できるかも」としています。
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
