DeepSeekにほぼ並ぶ性能を実現したオープンソースのAIモデル「QWQ-32B」をQwenが公開、誰でも無料で動かせるデモページも公開中 – GIGAZINE

Alibaba CloudのAI研究チームであるQwenが、AIモデル「QWQ-32B」を2025年3月6日にリリースしました。320億パラメーターのモデルでありながら6710億パラメーターのDeepSeek-R1と同等の性能を持つとされています。

QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen
https://qwenlm.github.io/blog/qwq-32b/

DeepSeek-R1は強化学習(RL)を活用することで従来の事前トレーニングおよび事後トレーニングの方法を超えて高いパフォーマンスを発揮しています。あまりにも性能が高かったため、2025年1月にDeepSeek-R1が登場した際にはNVIDIAの時価総額が91兆円も下がるなど大きな混乱を引き起こしました。

DeepSeekはなぜこんな大騒ぎになっていて一体何がそんなにスゴいのか – GIGAZINE

Qwenの研究チームは広範な世界知識で事前トレーニングを施した基盤モデルに対し強化学習を適用したとのこと。まず数学とコーディングタスクに特化して強化学習を行い、続いて一般的な機能用の強化学習を別のステージで行うことで数学とコーディングのパフォーマンスを高めたまま一般的なタスクもこなせるようになったそうです。

各種のベンチマーク結果はこんな感じ。赤色で示されたのがQwQ-32Bで、青色がDeepSeek-R1-671Bです。いずれのベンチマークにおいてもQwQ-32BはDeepSeek-R1-671Bモデルと同等の性能を発揮していることがわかります。