VLMにおける空間把握能力 | ヘッドウォータースのフィード


空間把握能力とはVLM(Vision Language Model)と聞くと、画像が入力可能なLLMというのがシンプルな解釈ですが、個々のVLMのスペックは結構違います。そのスペックの中でも「LLMにはなくVLM独自のもの」 & 「重要なもの」としては空間把握能力と思っています。空間把握能力とは、どれぐらい細かい粒度で画像中の物体を把握できるかということを定義とします。ピクセルや数ピクセルの単位で物体を認識できる場合にはかなり能力が高く、それができない場合には能力が低いというイメージです。本記事では、「空間的Groudingタスクに対応したVLM」=「空間把握能力の高い…


元の記事を確認する

関連記事