「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能 – GIGAZINE

2026年03月31日 10時51分
AI

AlibabaのAI研究チームであるQwen(Tongyi Lab)が「Qwen3.5-Omni」を2026年3月30日に発表しました。Qwen3.5-Omniはテキスト・画像・音声・動画の理解が可能なオムニモーダルモデルで、テキストだけでなく音声も生成することが可能。音声と映像の理解能力はGemini 3.1 Proを超えているとアピールされています。

Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI
https://qwen.ai/blog?id=qwen3.5-omni

Qwen-Omni – Alibaba Cloud Model Studio – Alibaba Cloud Documentation Center
https://www.alibabacloud.com/help/en/model-studio/qwen-omni

Qwen3.5-Omniは合計1億時間以上の視覚音声データを用いてトレーニングされたAIモデルです。内部には「Hybrid MoE Talker」と「Hybrid MoE Thinker」が組み込まれており、Thinkerのテキスト出力をTalkerに伝えることで文脈に応じた音声を出力することが可能です。さらに、モデルの全体がリアルタイム応答を念頭に設計されているのも特徴です。

Qwen3.5-Omniの最大シーケンス長は25万6000で、10時間の音声や400秒(1FPS)の視聴覚データを入力することができます。音声認識機能は中国語39方言に加えて日本語・英語を含む74言語に対応。さらに、音声合成は中国語7方言に加えて日本語・英語を含む29言語に対応しています。

Qwen3.5-Omniは「Qwen3.5-Omni Plus」「Qwen3.5-Omni Flash」「Qwen3.5-Omni Light」の3モデルに分かれてリリースされており、オフラインAPIとリアルタイムAPIを介して利用可能です。

「Qwen3.5-Omni Plus」「Qwen3.5-Omni Flash」「Qwen旧モデル」「Gemini 3.1 Pro」の各種ベンチマーク結果を並べた表が以下。Qwen3.5-Omni Plusは複数のテストでGemini 3.1 Proを上回っています。

Qwen3.5-Omniの視聴覚データ認識性能を示すデモ動画が以下。動画に含まれる事象をテキストで正確に説明できています。

「手書きの設計図を示しつつ目的の機能を口頭で説明する」という動画を入力して適切なコードを出力させることも可能。Tongyi Labは一連の操作を「Audio-Visual Vibe Coding」と呼称しています。

声色を調整しながら高品質な音声を生成することもできます。

Qwen3.5-Omniのデモは以下のリンクで実行できます。

Qwen3.5 Omni Offline Demo – a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo

また、リアルタイム応答機能のデモも公開されています。

Qwen3.5 Omni Online Demo – a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

Appleがバイブコーディングアプリへの取り締まりを強化し「Anything」をApp Storeから削除前の記事カンニングを目的としたスマートグラスのレンタルが増加次の記事

関連記事

木製玩具CUBOROで作られたビー玉転がしのロングランコース – GIGAZINE

「アンティキティラ島の機械」はエラーが多すぎてただのおもちゃだった可能性があるとの指摘 – GIGAZINE

トランプ大統領が相互関税の対象からスマホ・PC・半導体などの電子機器を除外 – GIGAZINE

無料のProton VPNがウェブブラウザ「Vivaldi」に統合される – GIGAZINE

Best Buyの従業員がMacBookを99％オフで購入したため訴えられる – GIGAZINE

北朝鮮労働者をアメリカ労働者かのように偽る「ノートPCファーム」を運営したアメリカ在住の2人に合計16年の拘禁刑判決 – GIGAZINE