CTC 教育サービス
[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes
今回からは、2026年に公開された論文「Managing and Securing Google’s Fleet of Multi-Node Servers」に基づいて、Googleのデータセンターにおけるサーバー構成管理の話題をお届けします。この論文では特に、CPUやメモリーを搭載したメインボードに加えて、GPUやSmart NICなど、多数の外部コンポーネントを持つシステムに対して、初期化やファームウェアアップデートを安全に実行する手法が説明されています。今回は、「アリーナ」に基づいた管理の考え方を説明します。
はじめに、この論文が対象とするサーバーシステムの特徴を明らかにしておきます。まず、図1の左(Typical 2015 server)は、2015年ごろの典型的なサーバーの構成です。1つの筐体にCPU、NICなどのコンポーネントが搭載されており、基本的には、筐体ごとに独立した形になります。一方、図1の右(One example of many possible 2025+ servers)は、2025年以降のもので、CPUとNICを搭載したメインボードに加えて、GPUを搭載したGPUトレーや「第221回 Smart NICのCPUコアを用いたシステム処理のオフロード(パート1)」からの一連の記事で紹介したSmart NICを搭載した筐体が接続されています。この図では、1つのメインボードに複数のGPUトレーや複数のSmart NICが接続されていますが、複数のSmart NICを複数のメインボードが共有する場合などもあります。

図1 マルチコンポーネント化したサーバーシステム(論文より抜粋)
そして、このようにマルチコンポーネント化したサーバーシステムを利用する際の課題の1つが、システムの安全な初期化です。たとえば、ベアメタルクラウドのサービスとして、ハードウェア全体をユーザーに貸し出した後に、これを次のユーザーに貸し出すために初期化する処理を考えます。先のユーザーは、仮想化ハイパーバイザーを介さずにサーバーのハードウェアへ直接アクセスできる権限を持つため、サーバーのファームウェアやBIOSの設定を書き換えることもできます。そのため、単純にOSを再インストールするだけでは不十分で、サーバーのハードウェアを含めて「信頼できる初期状態」を確実に再現する方法が必要です。この際、GPUトレーやSmart NICのファームウェアなどマザーボードに接続されたすべてのコンポーネントの整合性を保って初期化する必要があるため、必要な作業はより複雑になります。
前述のような課題に対応するために、Googleのデータセンターでは、サーバーシステムを構成するコンポーネントを「アリーナ」と呼ばれる単位で抽象化した上で、それぞれのアリーナをネットワーク経由で管理する仕組みを用意しています。図2は、複数のGPUカードを搭載したGPUトレーを1つの「アリーナ」として定義した例です。

図2 GPUトレーで構成される「アリーナ」の例(論文より抜粋)
1つのアリーナには管理用ネットワーク(コントロールプレーン)からアクセス可能なコントローラーが用意されており、このコントローラーを経由して、アリーナ内のハードウェアリソースを管理します。特に、ハードウェア構成を初期化する際は、それぞれのリソースに用意されたRoT(Root of Trust)を利用して、確実に信頼できる初期状態を再現します。RoTの詳細は割愛しますが、一般に、ハードウェアに搭載されたセキュリティチップや書き換えできないメモリに焼き込まれた公開鍵などを利用して、改ざんされていないことが保証されたファームウェアやOSを導入するしくみになります。
そして、図3のように、これらのアリーナを組み合わせることで、それぞれのサーバーシステムが構成されます。サーバーシステムに含まれる各アリーナを適切に初期化する事で、サーバーシステム全体を安全に初期化することが可能になります。ただし、実際には、アリーナに含まれるリソースの依存関係、さらには、複数のアリーナのシステム的な依存関係があるので、これらの依存関係を考慮して、適切な手順で初期化を進める必要があります。

図3 複数のアリーナで構成されるサーバシステムの例(論文より抜粋)
今回は、2026年に公開された論文「Managing and Securing Google’s Fleet of Multi-Node Servers」に基づいて、Googleのデータセンターにおけるサーバー構成管理、特に、複数のコンポーネントからなるサーバーシステムをアリーナの組み合わせとして管理する方法を紹介しました。次回は、アリーナの構成を抽象化した「グラフ構造モデル」を利用して、アリーナの管理を自動化する仕組みについて説明します。
Disclaimer:この記事は個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には関係はありません。
[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes