AIエージェントを用いたソフトウェア開発が爆発的に普及しつつあり、コードレビューも人力ではなくAIに任せる流れができつつあります。しかし、AIを用いたコードレビューではチェック漏れや品質のばらつきが発生しがちです。そんな問題を解決するべく中国有数のテクノロジー企業であるAlibabaが開発したコードレビューエージェントシステムが「Open Code Review」で、すでにAlibabaグループの数万人の開発者によって使用され100万件のコード欠陥を検出しているそうです。
Open Code Review — Agent Native Code Review
https://alibaba.github.io/open-code-review/
AlibabaはClaude CodeなどのAIエージェントにコードレビューを任せた際の問題点として以下の3点を挙げています。
網羅性の不足:複数のファイルが関係する大規模な変更をレビューする際に、エージェントが一部のファイルにのみ着目してしまい、他のファイルの変更を見逃してしまう
位置ずれ:問題報告時に、行番号やファイル参照を誤って報告してしまう
品質が不安定:プロンプトのわずかな変更でレビュー品質が大きく変動してしまう
Alibabaは既存のエージェントで問題が発生する原因ついて「言語モデルに基づくロジックでは、レビュープロセスに関する厳格な制約が欠けてしまう」と指摘。Open Code Reviewではファイル選択やルールマッチングなどに言語モデルベースではなくエンジニアリングロジックベースの仕組みを取り入れることで、AIエージェントシステムでありながら決定論的なレビューを実行できるようにしています。
Open Code Reviewでは任意のAIモデルを用いてレビューを実行可能で、既存のエージェントと比べてトークン使用量を5分の1に抑えることができます。すでに2万人以上のAlibabaグループ社員によって使用されており、100万件以上の欠陥を検出することに成功しています。
Open Code ReviewとClaude Codeのレビュー性能ベンチマーク結果を示した表が以下。Open Code ReviewでClaude Opus 4.6を使用した際に最もレビュー品質が高くなり、同じGLM-4.7を使用した場合でもClaude CodeよりOpen Code Reviewの方が性能が高くなりました。
Open Code Reviewのソースコードは以下のリンク先で公開されています。
GitHub – alibaba/open-code-review: Battle-tested at Alibaba’s scale. Hybrid architecture code review tool: deterministic pipelines + LLM Agent, precise line-level comments, built-in fine-tuned ruleset (NPE, thread-safety, XSS, SQL injection), OpenAI & Anthropic compatible. · GitHub
https://github.com/alibaba/open-code-review
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。



