スマホ自動操作AI「MAI-UI」が登場、Gemini 3 Proより上手にスマホを操作可能 – GIGAZINE


AI


AlibabaのAI研究チームであるTongyi-MAIがスマートフォンを自動で操作できるAI「MAI-UI」を開発しました。ベンチマークテストではGemini 3 Proを超えるスマートフォン操作能力を示しています。

MAI-UI: Foundational GUI Agent for Mobile Intelligent Assistance
https://tongyi-mai.github.io/MAI-UI/

GitHub – Tongyi-MAI/MAI-UI: MAI-UI: Real-World Centric Foundation GUI Agents.
https://github.com/Tongyi-MAI/MAI-UI?tab=readme-ov-file

MAI-UIは「MAI-UI-2B」「MAI-UI-8B」「MAI-UI-32B」「MAI-UI-235B-A22B」というパラメーター数の異なる4種類のモデルとして開発されています。「MAI-UI-2B」「MAI-UI-8B」「MAI-UI-32B」と他社製モデルのベンチマーク結果を比較したグラフが以下。MAI-UI-32BはScreenSpot-Proというベンチマークテストで73.5%というスコアを記録し、Gemini 3 Proの72.7%を超えました。


MAI-UIでスマートフォンを操作するデモは以下の動画の3分15秒頃から確認できます。

MAI-UI: a family of foundation GUI agents – YouTube


「列車のチケットを予約し、カレンダー上の会議日程を変更して、日程変更について説明するメッセージを送信する」という複雑なタスクを実行できています。


MAI-UI-2Bはスマートフォンでのローカル実行も可能な小型モデルで、MAI-UI-32Bはクラウドでの実行が想定されています。Tongyi-MAIはモデルの自動選択機能も開発しており、ユーザーの指示を実行する際に軽量なオンデバイスモデルを使うか高性能なクラウドモデルを使うかを自動で判断することが可能。また、MCPにも対応しており、外部ツールを用いてスマートフォンの操作を効率化することもできます。

MAI-UIの各種モデルのうち、MAI-UI-2BとMAI-UI-8BのモデルデータはHugging Faceで公開されています。ライセンスはApache license 2.0です。

Tongyi-MAI/MAI-UI-2B · Hugging Face
https://huggingface.co/Tongyi-MAI/MAI-UI-2B

Tongyi-MAI/MAI-UI-8B · Hugging Face
https://huggingface.co/Tongyi-MAI/MAI-UI-8B

また、MAI-UIの技術レポートは以下のリンク先で閲覧できます。

[2512.22047] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
https://arxiv.org/abs/2512.22047

この記事のタイトルとURLをコピーする


ソース元はコチラ

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事