Alibabaが新たなAIモデル「Qwen2.5-VL-32B」をオープンソースでリリース、画像解析や数学の能力が向上 – GIGAZINE

Alibaba CloudのAI研究チームであるQwenが、2025年1月にリリースした視覚言語モデル「Qwen2.5 VL」シリーズをベースに新たな視覚言語モデル「Qwen2.5-VL-32B」をリリースしました。画像解析やコンテンツ認識の精度が上がり、回答の品質が向上しています。

Qwen2.5-VL-32B: Smarter and Lighter | Qwen
https://qwenlm.github.io/blog/qwen2.5-vl-32b/

2025年1月にリリースされたQwen2.5 VLにはパラメーターのサイズが異なる「3B」「7B」「72B」という3つのモデルが存在しています。最もサイズの大きい72BモデルはGPT-4oやGemini 2.0 Flashを超える性能を持ちます。

PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能 – GIGAZINE

今回、QwenチームはQwen2.5 VLのモデルをベースに強化学習を活用してモデルの最適化を行うことで、各種の能力を強化したQwen2.5-VL-32Bモデルを作成しました。画像などマルチモーダルの性能を測るベンチマークの比較は以下の通り。赤色で表示されたQwen2.5-VL-32BモデルはMistral Small 3.1-24BやGemma 3-27B-ITなど同等レベルのパラメーター数のモデルよりも優れた結果を残しており、Qwen2-VL-72Bというパラメーター数が倍以上のモデルにも多くの指標で勝利しています。