高速かつ高精度なオブジェクト検出AIモデル「LocateAnything」をNVIDIAが公開、写真だけでなくアプリUIや文字の検出にも対応 – GIGAZINE

2026年05月29日 13時29分
AI

NVIDIAが高速かつ高精度なオブジェクト検出が可能なAIモデル「LocateAnything」を公開しました。LocateAnythingは写真やスクリーンショットに含まれるオブジェクトを高速検出することが可能で、ロボットやPC自動操作などの分野で活用されることが期待されています。

LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding
https://research.nvidia.com/labs/lpr/locate-anything/?linkId=100000424057485

LocateAnythingはオブジェクト検出の速さを特徴とするモデルです。以下のポストに埋め込まれた動画を再生すると非常に高速に処理を実行できることが分かります。

This #CVPR2026 paper from our research team is trending #1 on @HuggingFace 🤗
Meet LocateAnything: a vision-language detection model that rethinks bounding box prediction. For AI agents and robots, “seeing” is only useful if a model can pinpoint where something is fast enough to… pic.twitter.com/2OGaQnUCnX
— NVIDIA AI (@NVIDIAAI) May 28, 2026

LocateAnythingの学習データには写真だけでなく「アプリケーションのスクリーンショット」や「文書」も含まれており、アプリケーションのUI要素検出や文字検出能力も有しています。

LocateAnythingの性能をQwen3-VLやRex-Omniと比較した結果が以下。Qwen3-VLとRex-Omniは「建物の窓の1つずつ個別に認識する」「木材を1つずつ認識する」といった処理が苦手ですが、LocateAnythingは正確に実行できています。

文字認識もQwen3-VLとRex-Omniとくらべて高精度に実行可能。

実際にLocateAnythingを使えるデモアプリが用意されているので使ってみます。

LocateAnything – a Hugging Face Space by nvidia
https://huggingface.co/spaces/nvidia/LocateAnything

デモアプリに画像を入力して、検出したいオブジェクトの名前を入力してから「Run Inference」をクリック。今回は「video-game(ゲーム)」と入力しました。

検出結果が以下。写真内に含まれるすべてのゲームソフトパッケージが認識されています。

同時に複数の要素を検出することもできます。メモ帳のスクリーンショットを入力して「ファイル」「編集」「表示」の3つを検出するように指示してみました。

結果が以下。正しく検出できています。

LocateAnythingはオープンモデルとして公開されており、以下のリンク先からダウンロード可能です。

nvidia/LocateAnything-3B · Hugging Face
https://huggingface.co/nvidia/LocateAnything-3B

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

YouTubeがYouTube Premium会員向けにポッドキャスト関連の新機能を追加、AIおすすめツール・再生速度の自動調整機能・外出先でのリスニングモードなど前の記事 AIにコードを書かせまくると検査コストが爆発すると専門家が指摘、生成量を減らす考え方が重要 - GIGAZINE 次の記事

関連記事

無料でウェブページを監視し、変更があった場合にメール・スマートフォン・その他の手段で通知を受け取れる「urlwatch」、オープンソースでセルフホスト可能 – GIGAZINE

おもちゃメーカーのマテルがOpenAIと提携しておもちゃの製造に生成AIを導入へ – GIGAZINE

中国政府がNVIDIA製AIチップ購入の全面禁止を大手テック企業に指示、NVIDIAのCEOは「がっかりした」とコメント – GIGAZINE

甘々ホットな味わいで寒い日に飲みたくなる「スターバックス WINTER COLLECTION ピーチティー with ハニージンジャー／ヘーゼルナッツホワイトモカ」試飲レビュー

Instagramストーリーズを足跡なしで見たり見せる相手をリスト分けしたりできるプレミアムサブスクリプション「Instagram Plus」のテストがスタート – GIGAZINE

眠りについたとき脳の活動・エネルギー使用・血流がどのように変化するかが明らかに – GIGAZINE