Alibabaが新たなAIモデル「Qwen2.5-VL-32B」をオープンソースでリリース、画像解析や数学の能力が向上 – GIGAZINE

Alibaba CloudのAI研究チームであるQwenが、2025年1月にリリースした視覚言語モデル「Qwen2.5 VL」シリーズをベースに新たな視覚言語モデル「Qwen2.5-VL-32B」をリリースしました。画像解析やコンテンツ認識の精度が上がり、回答の品質が向上しています。

Qwen2.5-VL-32B: Smarter and Lighter | Qwen
https://qwenlm.github.io/blog/qwen2.5-vl-32b/

2025年1月にリリースされたQwen2.5 VLにはパラメーターのサイズが異なる「3B」「7B」「72B」という3つのモデルが存在しています。最もサイズの大きい72BモデルはGPT-4oやGemini 2.0 Flashを超える性能を持ちます。

PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能 – GIGAZINE


今回、QwenチームはQwen2.5 VLのモデルをベースに強化学習を活用してモデルの最適化を行うことで、各種の能力を強化したQwen2.5-VL-32Bモデルを作成しました。画像などマルチモーダルの性能を測るベンチマークの比較は以下の通り。赤色で表示されたQwen2.5-VL-32BモデルはMistral Small 3.1-24BやGemma 3-27B-ITなど同等レベルのパラメーター数のモデルよりも優れた結果を残しており、Qwen2-VL-72Bというパラメーター数が倍以上のモデルにも多くの指標で勝利しています。

純粋なテキストでのベンチマーク結果は以下の通り。同等レベルのパラメーターを持つモデルよりも多くのベンチマークで優れた結果を残しました。

Qwenチームのブログには実際にQwen2.5-VL-32Bが問題を解く様子も掲載されています。以下は制限速度の画像と共に、「大型トラックを運転していて、今12時です。110km遠くに13時までに到着できますか?」というプロンプトが入力されています。

Qwen2.5-VL-32Bは画像からトラックの制限速度を読み取り、「No」と正しく答えることができました。

以下は正方形の各辺の3等分点をつないで正方形を作り続ける時の面積の一般式を求める例。

こちらも正しく答えられています。Qwen2.5-VL-32BはQwen2.5シリーズから特に数学の能力が強化されているとのこと。

Qwen2.5-VL-32BはオープンソースのApache license 2.0公開されており、無料で使えて商用利用も可能です。Qwen2.5シリーズを使用するためのコードもApache license 2.0で公開されているので、気になる人は確認してみてください。

この記事のタイトルとURLをコピーする


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事