コラム

CTC教育サービス・ホーム　＞　コラム　＞　VMware 海外動向　＞　第36回　vSphereでGPUを使用した機械学習を行う方法

VMware 海外動向

CTC 教育サービス

[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes

第36回　vSphereでGPUを使用した機械学習を行う方法 (野田貴子) 2018年11月

こんにちはー。野田貴子です。今回も英語が苦手な方向けに海外の人気コラムを意訳したものをご紹介します。 VMwareの研修を検討されている方は、『VMware Education Partner of the Year 2017』を２年連続で受賞しているCTC教育サービスにどうぞ！
※VMware研修コース
https://www.school.ctc-g.co.jp/vmware/index.html

＃＃＃
VMwareチームは非常に生産的な夏を過ごし、vSphere上でGPUを使用した機械学習のワークロードを実行する調査についての記事をまとめました。ここ数ヶ月に公開したブログ記事ご紹介します。こちらの連載では、vSphereでGPUを使用するためのさまざまなオプションについて説明し、それぞれの機能と利点を比較しています。興味がある方はご覧ください。

こちらの記事では、NVIDIA GRIDを使用したGPUのより詳細なパフォーマンス調査について簡単に紹介しています。

vSphereでの機械学習およびディープラーニングのためのNVIDIA GRIDを使用したGPUの共有 - パフォーマンスに関する考察カリフォルニア大学バークレー校の学部学生がVMwareと共同でこのプロジェクトに参加し、実世界の機械学習のユースケースを3つ開発しました。
vSphereにおけるNVIDIA GPUを活用した一般的な機械学習ユースケースの実行こちらの連載では、Bitfusionの革新的な技術を使用してGPUをワークロードと共有するさまざまな方法のテスト結果を示しています。
VMware vSphereにおけるNVIDIA GPUとBitfusionを活用した機械学習（パート1/2）
VMware vSphereにおけるNVIDIA GPUとBitfusionを活用した機械学習（パート2/2）こちら記事では、仮想マシンとSingularityコンテナを使用して両方の環境を最大限に活用する方法を示しています。このコンテナの利点は、仮想化などが提供する複数のワークロード間でGPUの力を共有する機能を備えたパッケージであることです。
vSphereを活用したSingularityのHPCコンテナでのNVIDIA GPUの共有

データサイエンスプラットフォームとしてのvSphere

これらの記事を全体的に見ると明確になるテーマがあります。

GPUを使用した機械学習ワークロードのパフォーマンスは、vSphere上で実行されているときでも決して損なわれません。実際には、ベアメタルに対してvSphereで実行することで、パフォーマンス、つまり多くのジョブのスループットを向上させることができます。
vSphereでGPUベースの機械学習ワークロードを実行する主な利点は、GPUリソースを非常に柔軟かつ動的に割り当てられることです。これは、NVIDIA GRIDの技術を使用して1つのGPUを1つのホスト上の複数のジョブで共有するか、Bitfusionを使用して、1つのジョブに対して多数のGPUのパワーを集めることによって実現します。まとめると、vSphereは、エンタープライズクラスのデータサイエンスプラットフォームを実行するための理想的なソフトウェアインフラストラクチャを提供します。機械学習の記事や機械学習の情報のページをブックマークして、VMwareの最新情報を手に入れましょう。

vSphereの仮想マシンにおけるGPUの使用 - 第1部：概要

この記事は、vSphere上でコンピューティングワークロードのためのGPUを設定するために利用可能なさまざまなオプションについて、技術的な説明を行うブログ連載の第1部です。

この連載の第1部では、vSphereでGPUを使用するためのさまざまなオプションの概要を紹介します。

第2部では、GPUのDirectPath I/O（パススルー）メカニズムについて説明します。

第3部では、GPU向けのNVIDIA GRIDの技術について詳述します。

第4部では、GPUを使用するBitFusion Flexdirectの設定方法を解説します。みなさんの会社のデータサイエンティスト、マシーンラーニングプラクティショナーおよび開発者の方々は、自分たちの作業のためにGPUに対応したマシンのセットアップをみなさんに依頼しています。彼らはGPUの計算能力を必要とするワークロードを実行できるようにしたいと考えています。データサイエンティストは、機械学習の「トレーニング」、「推論」、あるいは「開発」のためにワークロードが必要であると説明しています。これらの用語によって彼らは何を意味しているのかを連載の中で説明していきます。今回のオープニング記事では、VMware vSphereに必要なインフラストラクチャを提供するためのさまざまなオプションの概要を説明します。

fig01

エンドユーザーにGPUの能力が必要な理由はシンプルで、結果を得るまでの時間を早めるためです。機械学習モデルは非常に大きな行列乗算を必要とし、GPUはこれらの演算をCPUよりもはるかに高速に行うように設計されています。
みなさんの会社はおそらくすでにvSphere上で開発者やテスターのために仮想マシンを使用していますが、みなさんの頭にあるクエッションはこちらではないでしょうか。

vSphereではVDI以外のアプリケーションにGPUを使用できるのか？

端的に言えば、答えは「イエス」です。vSphereではこのユースケースを「GPU計算」と呼んでいきます。最もシンプルな形式では、VMware vSphereを使用するとみなさんのエンドユーザーは、GPU対応のパブリッククラウドインスタンスやベアメタルと同じ方法で、VM内のGPUを使用することができます。さらに、私たちの技術パートナーとのコラボレーションを活用すれば、vSphereでフレキシブルコンサンプションとGPU利用モデルが可能になり、このインフラストラクチャのROIを向上させ、必要なものをエンドユーザーに提供することができます。この記事はみなさんが最初のエンドユーザーの要求を満たす方法をナビゲートします。みなさんがエンドユーザーやハードウェア・ソフトウェアベンダーに尋ねるべきこと分かります。みなさんの実装はおのおのの利用状況によって異なるため、さまざまな選択肢を提示します。

パフォーマンスはどうなのか？

一般にvSphere仮想マシン内のGPUはベアメタル性能に近い性能を発揮しますが、正確な性能は使用される技術に依存します。この連載の以降の記事にて、各技術のパフォーマンス特性を説明します。一部のパフォーマンスについては、VMware社のパフォーマンスエンジニアリングチームによるこちらの記事を参照してください。

GPUを仮想マシンと一緒に使用するさまざまな方法

システム管理者のごく初期の決定事項の1つは、彼らの環境の中でGPUをどのように使用するかを決めることです。前述したように、仮想マシンを使用してGPUを使用するにはさまざまな方法があります。この決定のアプローチは主にユーザーと、GPUを活用するアプリケーションに依存します。オプションを表1に示します。

表1：GPUの構成とそれぞれの使用例

これらの3つの異なる状況に適用される技術の種類は、図1の下部に示されています。

図1：異なるGPUユースケースの決定木

ご覧のとおり、一部のユースケースはサードパーティのVMwareパートナー技術プロバイダによって有効になります。各技術にはそれぞれの長所と短所があり、さまざまなレベルの柔軟性とエンドユーザーエクスペリエンスを提供しながら、固有のvSphere技術を活用して自社の製品とvSphereプラットフォームの相乗効果を実現しています。VMwareはハードウェアアクセラレーションのエコシステムでOEM、HW、SWベンダーとの継続的な協力を約束しています。この目標は、顧客が現代のインフラストラクチャから最大の価値を引き出し、その管理や使用を容易にすることです。この連載の以降の記事では、vSphere VMにて専用のGPUを有効にするために必要な手順と技術、そして複数のVM間でGPUを共有する方法について詳しく説明します。DirectPath I/OをGPUに使用する第2部はこちら、vSphereにGPU用のNVIDIA Gridをインストールする第3部はこちらです。

• 引用元
• https://blogs.vmware.com/vsphere/2018/10/machine-learning-with-gpus-on-vsphere.html
• ※本コラムはVMware社が公式に発表しているものでなく、翻訳者が独自に意訳しているものです。

IT研修はCTC教育サービス

AWS　Microsoft Azure　生成AI

Python　Power Platform

コンテナ　その他（研修を分野から探す）

前回のコラム
「第35回　vSphereアップグレード連載パート3： vSphere Hostsのアップグレード」次回のコラム
「第37回　vSphere 6.7 Update 1 Security Configuration Guideのお知らせ」