
カメラやスマートフォンで撮影した動画には「P1013593.MP4」とか「IMG_0034.MOV」といったように連番形式のファイル名がつきます。このため、大量に動画を撮影していると「どの動画に何が映っているのか分からない」という事態に陥りがちです。そんなときに参考になりそうな「Gemma 4などのAIモデルをMacBookで実行して動画の説明文を含むインデックスファイルを大量生成する」という作業の記録がAI企業のSimbaStackの公式ブログに掲載されています。
While I slept, my 5-year-old MacBook ran Gemma 4 locally and indexed a year of video — simbastack
https://blog.simbastack.com/indexed-a-year-of-video-locally/
ブログ執筆者は1年の半分をケニアのマサイマラで過ごし、「Nikon Z8」「DJI Pocket」「Ray-Ban Meta」といったデバイスを用いて動画を大量に撮影しているとのこと。動画編集に割く時間が減ってきたことを受けて「AIで動画クリップをつなぎ合わせる」というシステムを試そうとした際に「動画を説明するインデックスファイルが必要」という問題にぶち当たったそうです。
ブログ執筆者は2021年に登場したM1 Max搭載MacBookを使ってインデックスを作成しました。インデックスは動画のメタデータや「何が映っているか」を記録したMarkdown形式のファイルで、AIが動画を探す際の足掛かりとなるものです。
インデックス作成に用いたソフトウェアと用途は以下の通り。
・ffprobe:動画のメタデータの読み取り
・ffmpeg: 動画内の5フレームを切り出す
・exiftool:GPS情報の読み取り
・Nominatim:GPS情報を住所情報に変換
・WhisperX:音声を文字起こし
・insightface:顔認識
・視覚言語モデル:動画に映っているものの説明文を作成
視覚言語モデルはGemma 4 31B Q4を採用し、LMStudioで実行しました。
M1 Max搭載MacBookには64GBのメモリが備わっていましたが、メモリだけでは足りず、ピーク時は50.89GBのスワップファイルが作成されたそうです。
M1 Max搭載MacBookで1日かけてインデックスを作成した結果、すべての動画ファイルに同名のインデックスを付与することに成功しました。
ブログ執筆者はインデックス作成に使った環境をクローンできるようにGitHubリポジトリを公開しています。
GitHub – Simbastack-hq/framedex: Framedex — a queryable knowledge base for your video archive · GitHub
https://github.com/Simbastack-hq/framedex
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。



