画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現 – GIGAZINE


AI


Qwen3-VLの軽量版であるQwen3-VL-4BおよびQwen3-VL-8Bが公開されました。これらのモデルは、Qwen3-VLの全機能が保持されており、従来のモデルに比べて大幅にVRAM使用量を削減しつつ、Qwen2.5-VL-72Bに匹敵する性能を発揮するとのことで試しにローカルPCにインストールして使ってみました。

Qwen
https://qwen.ai/home


Qwen3-VL: Sharper Vision, Deeper Thought, Broader Action
https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef

STEM、VQA、OCR、ビデオ理解、エージェントタスクなど、さまざまなベンチマークでGemini 2.5 Flash LiteやGPT-5 Nanoなどのモデルを上回るスコアを記録しています。


Qwen3-VL-8B-ThinkingをローカルPCで試します。Nexa SDKからSDKをダウンロードし、インストールします。Nexa SDKはWindows、Linux、MacOSに対応しています。


ログインが必要なのでログインします。


アクセストークンを取得します。


アクセストークンが表示されるので、これをコピーしておきます。


PowerShellを起動し、以下のコマンドでNexa SDKにアクセストークンを設定します。

nexa config set license ''

続いて、以下のコマンドでQwen3-VL-4B-Thinkingモデルを指定して起動します。

nexa infer NexaAI/Qwen3-VL-4B-Thinking-GGUF

モデルのダウンロードが終わると、プロンプトが表示されます。


こちらのピザの画像を入力として与え、画像認識能力を試してみます。


プロンプトにファイルの場所と指示を与えます。

describe this image 'c:\temp\test01.jpg'(この画像の内容を日本語で説明してください)

以下の出力結果からピザのトッピングの内容まで正確に認識できていることが分かります。

白い皿の上に、切り分けられていないピザが置かれています。金褐色の生地が美しいピザで、溶けたチーズの上にハム、コーン、緑のピーマン、ハーブがトッピングされています。背景には木製のテーブルがあり、メニューの紙やダークなボトル、スプーンが挿さったボウルが見えます。温かみのある照明が、レストランらしい居心地の良い雰囲気を醸し出しています。

— 29.6 tok/s • 1889 tok • 0.0 s first token –

画像に少しだけ写っているメニューの紙やボトルも認識しています。残念ながらスプーンではなく串なのですが、細かい部分まで認識できていることが分かります。

日本語や数字の認識も試してみます。

describe this image 'c:\temp\test02.jpg'(この画像の内容を日本語で説明してください)

こちらも非常に正確に認識できていることが分かります。

手に持ってある黄色い領収書が写っています。上部には「領収書」と記され、ご利用日付は「2022年11月30日」、時刻は「10時34分」、取引内容は「チャージ 金 3000円」、伝票番号は「22771」と明記されています。カード番号はぼかされており、下部には「この領収書は大切に保管してください。毎度ありがとうございます。」と書かれています。発行元は「JR東海」と記載され、背景には青い表面が見えます。領収書全体は金色の模様


このように、Qwen3-VL-4Bおよび8Bは非常に高い画像認識能力を持っており、ローカルPCで手軽に試せる点が魅力です。Nexa SDKを利用することで、簡単にQwen3-VLモデルを活用したアプリケーションを開発できます。

今回テストした機材は以下の通りです。4Bモデルであれば快適に動作しました。
・CPU:Intel(R) Core(TM) Ultra 5 125U
・メモリ:64GB
・GPU:NVIDIA GeForce RTX 2060 SUPER 8GB

この記事のタイトルとURLをコピーする




元の記事を確認する

関連記事