Googleが各種AIの性能をランク付けする「Android Bench」を公開しました。初回のランキングではOpenAIやAnthropicのモデルを抑えてGemini 3.1 Pro Previewがトップの座を獲得しています。
Android Bench | Android Developers
https://developer.android.com/bench
Android Developers Blog: Elevating AI-assisted Android development and improving LLMs with Android Bench
https://android-developers.googleblog.com/2026/03/elevating-ai-assisted-androi.html
Android Benchは各種AIの「Android開発における実世界の問題を解決する能力」を測定してランク付けするサービスです。ベンチマークテストには「オープンソースのAndroidアプリで実際に報告されたIssueと、そのIssueを解決するために提出されたPull Request」が活用されており、AIに実世界でのIssueを提示して問題解決に成功するか否かを確かめます。テストに用いるPull Requestは「GitHubで500以上のスターを獲得したプロジェクト」から選ばれており、2023年以降にマージされたPull Requestを人間の手で選別しています。
記事作成時点では2026年3月4日に実施されたテストの結果が登録されており、1位はGemini 3.1 Pro Preview。2位はClaude Opus 4.6、3位はGPT-5.2-Codexです。Gemini 3.1 Pro Previewは72.4%のIssueを正しく解決することに成功しています。
Android Benchのリーダーボードは随時更新される予定です。また、テストツールが以下のGitHubリポジトリで公開されています。
GitHub – android-bench/android-bench: Android Bench is a framework for benchmarking Large Language Models (LLMs) on Android development tasks. It evaluates an AI model’s ability to understand mobile codebases, generate accurate patches, and solve Android-specific engineering problems. · GitHub
https://github.com/android-bench/android-bench
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。



