AlibabaのAI開発チームであるQwenが画像生成AI「Qwen-Image」を2025年8月4日(月)に発表しました。Qwen-Imageは既存の画像生成AIが苦手とする「テキストの正確な描画」を得意としており、「複数行にわたる中国語の文章を含む画像」や「英語と中国語の両方を含む画像」を正確に描画できます。また、一般的な画像生成や画像編集も高品質であることがアピールされています。
Qwen-Image: Crafting with Native Text Rendering | Qwen
https://qwenlm.github.io/blog/qwen-image/
Qwen-Imageは画像表現とテキスト表現に別々のウェイトを用いる「マルチモーダル拡散変換器(MMDiT)」と呼ばれる技術を基盤に開発された画像生成AIで、高いテキスト描画性能を備えていることを特徴としています。Qwen-Imageに対して、「『QWEN』とプリントされたTシャツ」や「『Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑』と書かれたガラスパネル」を描写するように指示して生成した画像が以下。かなり長い文章でも正確に描画することが可能で、英語と中国の同時描画にも対応しています。
Qwen-Imageは画像内のテキストの位置を細かく指定することも可能で、以下のようなスライド風画像を生成することもできます。
以下の図は、「Qwen-Image(青色)」「GPT Image 1 [High](緑色)」「Seedream 3.0(水色)」のテキスト描画性能を比較したものです。Qwen-Imageは中国語の描画性能でトップのスコアを示し、英語の描画性能でも一部のテストでGPT Image 1 [High]を超える性能を示しました。
Qwen-Imageは一般的な画像生成性能の高さもアピールされており、実写風の画像やイラスト風の画像、水墨画風の画像などが作例として公開されています。
また、「キャラクターのポーズを変更する」「キャラクターを維持しつつ画像スタイルを変更する」「画像にオブジェクトを追加する」といった編集タスクも高品質にこなすことが可能。
「Qwen-Image(青色)」「GPT Image 1 [High](薄紫)」「FLUX.1 Kontext [Pro](水色)」「Seedream 3.0(緑色)」「FLUX.1 [Dev](黄色)」「BAGEL(オレンジ色)」の画像生成性能と画像編集性能を比較した図が以下。Qwen-Imageは生成と編集の双方でライバルモデルを超えるスコアを記録しました。
Qwen-Imageのモデルデータは以下のリンク先で公開されています。
Qwen/Qwen-Image · Hugging Face
https://huggingface.co/Qwen/Qwen-Image
この記事のタイトルとURLをコピーする
・関連記事
Alibabaが画像生成AI「Qwen VLo」を発表、プログレッシブ生成手法を採用しテレビの走査線みたいに上から順に描画される – GIGAZINE
AIっぽさから脱却した実写のような美麗画像をテキストから生成できる画像生成AI「FLUX.1 Krea [dev]」が登場 – GIGAZINE
高品質かつ高速な画像生成AI「FLUX.1 Kontext」が登場したので使ってみた、テキストと画像の入力に対応しアニメ風も実写風も生成可能 – GIGAZINE
AMDプロセッサ向けに最適化された画像生成AIと動画生成AIを含むAIアート作成ツール「Amuse 3.0」がリリースされる、ローカルで画像&動画を生成可能 – GIGAZINE
画像生成AI「Stable Diffusion 3.5 Large」の18GBを超えるVRAM使用量を40%も削減して11GBにする新技術をNVIDIAが公開 – GIGAZINE
Googleが画像生成AI「Imagen 4」を発表、最大2Kの画像を生成可能でImagen 3より10倍高速なハイスピード版も登場予定 – GIGAZINE
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。







