CTC 教育サービス
[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes
前回に続いて、2025年に公開された論文「Preventing Network Bottlenecks: Accelerating Datacenter Services with Hotspot-Aware Placement for Compute and Storage」に基づいて、Googleのデータセンターで利用されている「ToR(Top of Rack)スイッチのホットリンクを回避してコンテナを配置する技術」について解説します。今回は、ホットリンクがテイルレイテンシーに及ぼす影響を解説します。
前回の記事で、ホットリンクの多くはストレージアクセスに伴うネットワーク通信に起因すると考えられる事を説明しました。冒頭の論文では、実環境のログデータから、ToRの帯域の使用率がストレージアクセスの処理時間に及ぼす影響を分析しています。具体的には、QuerySysによる検索処理のレイテンシーへの影響と、Colossusのデータアクセスのレイテンシーへの影響が記載されています。
QuerySysは、データベースのバックエンドで利用される汎用的なクエリーエンジンです。QuerySysの開発チームは、定期的にさまざまなベンチマークを実行しており、この時に得られたログを分析しています。ベンチマークにはいくつかの種類がありますが、たとえば、sum、count、averageなどの統計情報を取得する「aggregationクエリー」では、図1のように、Colossusに保存されたデータをDサーバーから読み出して処理するステージと、得られた結果をRamStore(Memory Host)を介してシャッフルして再処理するステージに分かれます。クエリーの処理時間全体の約30%がDサーバーからのデータの読み出し時間にあたります。
図1 QuerySysのデータフロー(論文より抜粋)
次の図2は、aggregationクエリーを実行した際に、処理経路に含まれるToRスイッチの帯域使用率とクエリーのテイルレイテンシー(95パーセンタイルのレイテンシー)の関係を分析した結果です。処理経路には複数のToRスイッチが含まれますが、帯域使用率が最大のスイッチがボトルネックになると考えられるので、ここでは、帯域使用率の最大値を横軸に取っています。縦軸は、帯域使用率が最小の場合にくらべて、レイテンシーが何倍に増加したかを示します。
図2 ToRの帯域使用率とaggregationクエリーのレイテンシーの関係(論文より抜粋)
この結果を見ると、クエリー全体のレイテンシーは、帯域使用率が85%で1.5倍に増加しています。一方、クエリー処理に含まれる個々のコンポーネントで見ると、Shuffle Writeが帯域使用率の影響を最も受けやすく、帯域使用率が40%の時点でレイテンシーが1.5倍に増加しています。
そして、次の図3は、aggregationクエリーを含むさまざまなベンチマークに対する結果をまとめたものです。「Load-tolerance(1.5×)」「Load-tolerance(2×)」は、テイルレイテンシーが1.5倍、および、2倍に増加する帯域使用率です。レイテンシーが2倍になる事がなかった部分は空欄になっています。また、「Hotspot-inflation(75%)」は、帯域使用率が75%の際にテイルレイテンシーが何倍になったかを表します。
図3 ベンチマークごとのToR帯域使用量の影響(論文より抜粋)
前回の記事では、帯域の使用率が75%を超える部分を「ホットリンク」と定義していましたが、図3の「Hotspot-inflation(75%)」の結果を見ると、この定義における「ホットリンク」の発生により、さまざまなクエリー処理のテイルレイテンシーが1.3~1.7倍程度に増加するという結果になります。言い換えると、ホットリンクを回避することで、テイルレイテンシーの大幅な改善が見込めることになります。
次の図4は、Colossusのディスクアクセス処理を担うDサーバーの処理に対するホットリンクの影響を図2と同様に示したものです。読み込み処理と書き込み処理のそれぞれについて、データアクセス全体のテイルレイテンシー(Total)とDサーバーとのネットワーク通信処理のテイルレイテンシー(Network)が示されています。
図4 Dサーバーの処理に対するホットリンクの影響(論文より抜粋)
まず、左の図を見ると、帯域使用率が75%になると、データ読み込みに伴うネットワーク通信処理のレイテンシーは4倍に増加しています。ただし、データ読み込み処理全体では、ディスクに対する物理I/Oの待ち時間が長いため、処理全体のレイテンシーの増加は1.5倍程度に抑えられます。一方、右の図を見ると、データ書き込みにおいては、処理全体のレイテンシーとネットワーク通信処理のレイテンシーがほぼ一致しており、ホットリンクが書き込み処理全体に大きな影響を与える事がわかります。Dサーバーのデータ書き込みでは、バッテリー保護されたメモリーを書き込み用のキャッシュに使用しているので、物理I/Oの待ち時間が発生しないことに起因する結果と考えられます。
今回は、2025年に公開された論文「Preventing Network Bottlenecks: Accelerating Datacenter Services with Hotspot-Aware Placement for Compute and Storage」に基づいて、Googleのデータセンターで利用されている「ToRのホットリンクを回避してコンテナを配置する技術」に関して、ホットリンクがテイルレイテンシーに及ぼす影響を解説しました。次回は、ホットリンクを回避するためのBorgスケジューラーの拡張とその効果を説明します。
Disclaimer:この記事は個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には関係はありません。
[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes