オープンAIモデル「Kimiシリーズ」の派生APIが公式と同精度で動作しているかを検証するツール「Kimi Vendor Verifier(KVV)」が登場 – GIGAZINE

2026年04月21日 20時00分
AI

オープンモデルのAIシリーズ「Kimi」を展開する中国のAIスタートアップのMoonshot AIが、AIの動作精度を検証するツール「Kimi Vendor Verifier(KVV)」をオープンソースで公開しました。

Kimi Vendor Verifier
https://www.kimi.com/blog/kimi-vendor-verifier

Moonshot AIは2026年4月21日にClaude Opus 4.6と同等の性能を誇るオープンモデルの「Kimi K2.6」を公開するなど、有力なモデルを作成しています。

Claude Opus 4.6と同等性能の中国製AIモデル「Kimi K2.6」がオープンモデルとして公開される – GIGAZINE

Moonshot AIはこれまで、コミュニティから「ベンチマークスコアがおかしい」というフィードバックを頻繁に受け取っていたとのこと。調査の結果、ほとんどの場合はデコードパラメータが間違っていることが原因と判明し、API側でいくつかのパラメータを強制的にセットする修正を行いました。

その後、サードパーティのAPIを調査すると公式APIとの間に顕著な違いがあることが判明。Fireworks AIのようにモデルの最高性能を引き出すための努力をしているベンダーも存在する一方で、低品質なモデルを提供するベンダーも存在しています。

Moonshot AIの提供するモデルはオープンモデルで誰でもモデルを実行できますが、品質の制御が難しいことが浮き彫りになりました。ユーザーがMoonshot AI製のモデルをサードパーティベンダー経由で利用し、低品質な応答が返ってきた時、モデルに原因があるのか、サードパーティベンダーの設定に原因があるのかを判別できなければユーザーの信頼を失ってしまいます。

そこで、Moonshot AIはAIが正しく公式と同じ性能を出せているかを検証するツール「KVV」を開発し、オープンソースで公開しました。

GitHub – MoonshotAI/Kimi-Vendor-Verifier: Kimi-Vendor-Verifier · GitHub
https://github.com/MoonshotAI/Kimi-Vendor-Verifier

KVVでは以下の6つのベンチマークでモデルの性能を確認するとのこと。

・事前検証
APIのパラメータが正しく適用されているかを検証します。

・OCRBench
マルチモーダルパイプライン向けの5分間のスモークテスト。

・MMMU Pro
多様な視覚入力をテストし、前処理を検証します。

・AIME2025
長時間出力ストレステストで、短時間のベンチマークでは発見できないKVキャッシュのバグや量子化の劣化を検出します。

・K2VV ToolCall
一貫性とJSONスキーマの正確性を測定し、ツールエラーを検出します。

・SWE-Bench
完全なエージェント型コーディングテストです。サンドボックスへの依存があるためオープンソースには含まれていません。

また、ベンダー向けにテストモデルへの早期アクセスを提供することで、公開前にベンダーが自社のシステムをチェックできるようにするとのこと。さらにMoonshot AI側でベンダーのAPIを確認し、実績をランキング形式で公開するとしています。

KVVの一連の実行には2台のNVIDIA H20 8GPUを搭載したサーバーで約15時間かかったとのこと。

KVVの公開にあたり、Moonshot AIは「モデルをオープンにすることは戦いの半分に過ぎない。残り半分は他の場所で正しく動作していることを保証することだ」と述べ、サードパーティベンダーにKimi K2.6の正しい実装をさせることに意欲を見せています。

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

GitHubの偽スター経済の恐るべき実態 - GIGAZINE 前の記事量子コンピューターを使っても解読が難しい暗号とは？次の記事

関連記事

NVIDIAが中国製AIの出力を元に追加学習した高性能AIモデル「Llama Nemotron Super 49B v1.5」をリリース、比較的小規模ながら高い性能を発揮

中国政府がDeepSeekに「NVIDIA H200」の購入を承認したとの報道、ただし規制条件を課しており最終調整中 – GIGAZINE

ゲームやマンガなどを銀行やクレジットカード会社が勝手に規制するのをやめさせる「公正な銀行アクセス法」案とは？ – GIGAZINE

TencentがOpenClawっぽくAIエージェントを使えるAIツール「WorkBuddy」リリース – GIGAZINE

SamsungのAI冷蔵庫「Family Hub」がGemini 3と連携したAI Vision対応に進化、冷蔵庫に入れた食材からレシピをオススメしたり音声コントロールでドアを開閉したりできる – GIGAZINE

前世代比3倍の重低音で新たな音響体験を実現したスマートスピーカー「Echo Dot Max」などEchoシリーズ新製品4種をAmazonが発表 – GIGAZINE