2025年11月にGKEのReleaseNoteに流れてきた情報から、新機能と変更内容、stableチャンネルに影響のありそうな不具合情報のみをまとめて紹介します。
11月も大きなリリースはありませんでしたが、昔からあった地味にやっかいな問題であるロギングエージェントのパフォーマンス問題が解決されたのは嬉しいですね。影響がある人は少ないと思いますが、不具合が告知されているため確認しておくと安心して運用できるかと思います。
新機能
11/27
TPU7x(Ironwood)が利用可能になりました
TPU7x(Ironwood)はGoogleが開発した第7世代のTPUで大規模AIワークロード向けに設計されています。
このTPUは、1.34.0-gke.2201000以降を実行するStandardクラスタ、および1.34.1-gke.3084001以降を実行するAutopilotクラスタでプレビュー版が利用可能です。
TPU7xは前世代と比較して大幅な性能向上を実現しており、1チップあたり2307TFLOPSのBF16演算性能と192GBの高帯域幅メモリ(HBM)を備えています。
詳細については、「Ironwood(TPU7x)の導入ガイド」をご覧ください。
11/24
Fast-starting nodesが利用可能になりました
GKEはAutopilotにおいてベストエフォート方式で高速起動ノードをプロビジョニングします。
詳細については、「Fast-starting nodesによるワークロード起動の高速化について」をご覧ください。
11/17
NVIDIAはメモリ使用量の過剰報告問題を解決するため、KubernetesクラスタでCoherent Driver-Based Memory Management(CDMM)を有効にすることを推奨しています
CDMMは以下のバージョンのGKEクラスタでA4XノードとR580 GPUドライバを使用する場合デフォルトで有効化されています。
- 1.33.4-gke.1036000以降
- 1.32.8-gke.1108000以降
CDMMを使用するとGPUメモリはOSではなくドライバ経由で管理されるため、OSによるGPUメモリのオンライン処理が不要になります。さらに、GPUメモリはNon-Uniform Memory Access(NUMA)ノードとしてOSに公開されます。
CDMMに関する詳細情報については、「ハードウェアおよびソフトウェア対応状況」を参照してください。
A4Xノードを使用したGKEクラスタを作成する方法については、以下のドキュメントを参照してください
11/11
N4DマシンファミリーはStandardモードおよびAutopilotモードにおいて利用可能になりました
N4Dインスタンスは第5世代AMD EPYC SP5プロセッサ(Turinアーキテクチャ)を搭載しています。
N4Dマシンシリーズは以下の環境で利用可能です。
- Cluster autoscaler、 node pool auto-creation、およびAutopilotモード
- GKE 1.34.1-gke.2037000以降で利用可能です。
- Standardモードにおいて手動で作成されたnode pool
- すべての利用可能なGKEバージョンで利用可能です。
詳細についてはN4Dマシンシリーズを参照してください。
11/7
GKE 1.34.1-gke.2037001以降ではクラスタ内のロギングエージェントが1.33以前と比較してノードあたり最大2倍の速さでログを処理できるようになりました
ロギングエージェントのリソース消費量も削減されており、特に高スループットのログ処理を行う場合に効率性が向上します。
これらのロギングエージェントの改善機能は1.34.1-gke.2037001以降ではデフォルトで有効化されています。
GKE 1.34.1-gke.1829001以降では複数のノードプールを同時に自動作成できるようになりました
これにより複数の新規ノードプールを迅速に準備することが可能になります。
GKE 1.35以降ではデフォルトで新規のAutopilotクラスターおよびStandardクラスターにおいて、クラスターエンドポイントへの匿名リクエストが拒否されます
ライブネスチェック用の/livez、/healthz、/readyzエンドポイントを除きます。
既存のクラスターにはこの変更は適用されません。
クラスターエンドポイントへの匿名アクセスを許可する場合は、--anonymous-authentication-config フラグまたはAPIフィールド AnonymousAuthenticationConfig.mode に明示的に ENABLED を指定する必要があります。
詳細については、「クラスターエンドポイントへの匿名アクセスを制限する」を参照してください。
不具合
11/21
Ubuntu Armノードには1.34.1-gke.2037001および1.34.1-gke.2541000の使用を控えてください
GKE 1.34.1-gke.2037001および1.34.1-gke.2541000ではUbuntuノードイメージを使用するArmノードにおいて、デフォルトの4KBページサイズではなく、64 KBページサイズのイメージが使用される可能性があります。
1.32より前のGKEでは、NFSv4.0より上位のNFSプロトコルのみをサポートしているNFSボリュームへの直接マウントはサポートされていません
GKEノードのバージョンが1.32より前の場合、直接NFSボリュームマウントを使用すると、NFSv4.1やNFSv4.2など、NFSv4.0より上位のプロトコルのみをサポートするように設定されたNFSボリュームのマウントに失敗する可能性があります。
この問題はこれらの古いGKEバージョンで使用されているコンテナ化マウントツールが、NFSv4のマイナーバージョンをサポートしていないnfs-utilsパッケージのバージョン1.2.8を使用しているために発生します。その結果、mount.nfs: access denied by serverというエラーメッセージが表示され、マウント処理が失敗します。
この問題はnfs-utilsパッケージの更新を含むGKE 1.32以降では発生しません。この問題を解決するには、以下のいずれかの方法をお試しください。
- クラスタを GKE 1.32以降にアップグレードしてください。
- NFSボリュームをNFSv3とNFSv4の両方のプロトコルに対応するように設定してください。これにより、互換性のあるバージョンにフォールバックすることでマウントが成功します。
- PersistentVolumeとPersistentVolumeClaimを使用してNFSボリュームをマウントしてください。この方法では、明示的にNFSバージョンを指定することが可能です。
先月までの新機能と不具合情報
先月までの内容は以下のリンク先で確認できます。