Googleがロボット工学用のAIモデル「Gemini Robotics」をリリース、口頭で指示するだけでロボットがタスクをやってくれる – GIGAZINE

GoogleがGemini 2.0をベースに「動作を出力する機能」を追加し、ロボットを操作できるようにしたAIモデル「Gemini Robotics」を開発したと発表しました。同時に高度な空間理解機能を持つ「Gemini Robotics-ER」モデルも発表されています。

Gemini Robotics brings AI into the physical world – Google DeepMind
https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

Gemini Robotics: Bringing AI into the Physical World
(PDFファイル)https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf

これまでのGeminiファミリーのモデルでは、テキスト・画像・音声・動画というマルチモーダルな入力に対応していましたが、出力はデジタル領域に限られていました。今回開発されたGemini Roboticsは新たな出力方法として「物理的な動作」が追加されており、ロボットを直接操作することが可能です。

GoogleはGemini Roboticsを「視覚・言語・動作モデル(VLAモデル)」とカテゴライズし、「幅広い現実世界のタスクを実行できるようになる」と述べています。

実際にGemini Roboticsがタスクをこなす様子は以下のムービーで確認できます。

Gemini Robotics: Bringing AI to the physical world – YouTube

オペレーターが「バナナを透明な容器に入れて」と口頭で指示するとロボットが指示通りに動作。

途中で容器の場所を変更するという意地悪をしてもすぐに対応しています。

元となったGemini 2.0モデルの世界知識のおかげで、「バスケットボールを拾ってダンクを決めて」のように全くトレーニングで登場しなかった指示にも従えるとのこと。

Gemini Roboticsは新しいオブジェクト、多様な指示、新しい環境への対応が得意とのことで、Googleは「他の最先端の視覚言語アクションモデルと比較して、包括的な一般化ベンチマークで平均2倍以上のパフォーマンスを発揮する」と述べました。

また、バナナのタスクで容器の場所を変更しても問題なくタスクが行えたように、周囲を継続的に監視して環境や指示の変化を検出し、変化に応じて動作を調整するようになっているとのこと。物体が手から滑り落ちたり、誰かが物を動かしたりするような予期せぬ事が当たり前の現実世界では変化に対応する能力は重要です。

手先の器用さが必要な動作も実行可能で、以下のムービーでは折り紙を折る様子が確認できます。

Gemini Robotics: Dexterous skills – YouTube

トレーニングの大部分はAloha2アームを使用して行われましたが、ApolloやBi-arm Frankaなど他のアームでもタスクを遂行できるとのこと。

GoogleはGemini Roboticsと同時に、高度な視覚言語モデルである「Gemini Robotics-ER」をリリースしました。Gemini Robotics-ERはGemini 2.0のポインティングや3D検出などの機能が大幅に改善されており、マグカップを見て「どうすれば適切につかむことができるのか」を理解できるとのこと。