このチュートリアルは、GPUクラスタのGPUノードに最適なベアメタルインスタンス（本チュートリアルでは BM.GPU4.8 を使用）を クラスタ・ネットワーク でノード間接続する、機械学習ワークロードを実行するためのGPUクラスタを構築する際のベースとなるインフラストラクチャを、予め用意された Terraform スクリプトを活用して自動構築し、Dockerコンテナ上で NCCL（NVIDIA Collective Communication Library） のGPU間通信性能を NCCL Tests で検証します。
この自動構築は、 Terraform スクリプトを リソース・マネージャ に読み込ませて作成する スタック を使用する方法と、 Terraform 実行環境を用意して Terraform CLIを使用する方法から選択することが出来ます。

このチュートリアルで作成する環境は、ユーザ管理、ホスト名管理、共有ファイルシステム、プログラム開発環境等、必要なソフトウェア環境をこの上に整備し、ご自身の要件に沿ったGPUクラスタを構築する際の基礎インフラストラクチャとして利用することが可能です。
なお、これらのクラスタ管理に必要なソフトウェアの導入までを自動化する HPCクラスタスタック も利用可能で、詳細は GPUクラスタを構築する(スタティッククラスタ自動構築編) を参照してください。

本チュートリアルで作成するGPUクラスタ構築用の Terraform スクリプトは、そのひな型が GitHub のパブリックレポジトリから公開されており、適用すると以下の処理を行います。

VCNと関連するネットワークリソース構築
Bastionノード構築
GPUノード用 インスタンス構成 作成
クラスタ・ネットワーク とGPUノード構築
GPUクラスタ内のノード間SSHアクセスに使用するSSH鍵ペア作成・配布
GPUノードの全ホスト名を記載したホストリストファイル（ /home/opc/hostlist.txt ）作成
構築したBastionノード・GPUノードのホスト名・IPアドレス出力

Bastionノードは、接続するサブネットをパブリックとプライベートから選択することが可能（※1）で、以下のBastionノードへのログイン方法に合わせて選択します。

インターネット経由ログイン -> パブリックサブネット接続
拠点間接続経由ログイン > プライベートサブネット接続

※1）構築方法に Terraform CLIを採用する場合は、パブリックサブネット接続のみ選択可能です。

またVCNと関連するネットワークリソースは、既存のものを使用することも可能で、この場合はこれらが以下の条件を満たしているている必要があります。

プライベートサブネットが存在する
パブリックサブネットが存在する（Bastionノードパブリック接続の場合）
パブリックサブネット・プライベートサブネット間で セキュリティ・リスト によりアクセスが制限されていない（Bastionノードパブリック接続の場合）
プライベートサブネットが Oracle Cloud Agent HPCプラグインの動作条件を満たしている（※2）

※2）この詳細は、 OCI HPCテクニカルTips集 の クラスタネットワーキングイメージを使ったクラスタ・ネットワーク接続方法 の 1-2. 接続サブネットのOCA HPCプラグイン動作条件充足確認 を参照してください。

システム構成図（パブリック）

Bastionノードパブリックサブネット接続

システム構成図（プライベート）

Bastionノードプライベートサブネット接続

Bastionノード構築は、 cloud-init 設定ファイル( cloud-config )を含み、 cloud-init がBastionノードデプロイ時に以下の処理を行います。

タイムゾーンをJSTに変更
ホームディレクトリ領域のNFSエクスポート
GPUノードのDNS名前解決をショートホスト名で行うための resolv.conf 修正

またGPUノード用 インスタンス構成 は、 cloud-config を含み、 cloud-init がGPUノードデプロイ時に以下の処理を行います。

タイムゾーンをJSTに変更
NVMe SSDローカルディスク領域ファイルシステム作成
firewalld 停止
ルートファイルシステム拡張
BastionノードのDNS名前解決をショートホスト名で行うための resolv.conf 修正
Bastionノードホームディレクトリ領域のNFSマウント

所要時間 : 約2時間

前提条件 : GPUクラスタを収容するコンパートメント(ルート・コンパートメントでもOKです)の作成と、このコンパートメントに対する必要なリソース管理権限がユーザーに付与されていること。

注意 : チュートリアル内の画面ショットについては、OCIの現在のコンソール画面と異なっている場合があります。

0. 事前準備

0-0. 概要

本章は、GPUクラスタを構築する際事前に用意しておく必要のあるリソースを作成します。
この手順は、構築手法に リソース・マネージャ を使用する方法を採用するか、 Terraform CLIを使用する方法を採用するかで異なります。

[ リソース・マネージャ を使用する方法]

構成ソース・プロバイダ 作成
スタック 作成

[ Terraform CLIを使用する方法]

Terraform 実行環境構築
Terraform スクリプト作成

以降では、2つの異なる構築手法毎にその手順を解説します。

0-1. リソース・マネージャを使用する方法

0-1-1. 構成ソース・プロバイダ作成

本章は、ひな型となる Terraform スクリプトを GitHub パブリックレポジトリから取り込むための 構成ソース・プロバイダ を作成します。

構成ソース・プロバイダ の作成は、ここを参照してください。

0-1-2. スタック作成

本章は、GPUクラスタを構築するための リソース・マネージャ 用 スタック を作成します。

OCIコンソールにログインし、GPUクラスタをデプロイするリージョンを選択後、 開発者サービス → リソース・マネージャ → スタック とメニューを辿ります。
表示される以下画面で、スタックの作成 ボタンをクリックします。
表示される以下 スタック情報 画面で、以下の情報を入力し、下部の次ボタンをクリックします。
- Terraformの構成のオリジン : ソース・コード制御システム
- ソースコード管理タイプ : GitHub
- 構成ソース・プロバイダ : 先に作成した 構成ソース・プロバイダ
- リポジトリ : tutorial_cn_rm
- ブランチ : master
- 名前 : スタックに付与する名前（任意）
- 説明 : スタックに付与する説明（任意）

表示される 変数の構成 画面で、各画面フィールドに以下の情報を入力し、下部の次ボタンをクリックします。
4.1 General options フィールド

Compartment : GPUクラスタをデプロイする コンパートメント
Availability Domain : GPUクラスタをデプロイする 可用性ドメイン
SSH public key : Bastionノードにログインする際使用するSSH秘密鍵に対応する公開鍵
（公開鍵ファイルのアップロード（ SSHキー・ファイルの選択 ）と公開鍵のフィールドへの貼り付け（ SSHキーの貼付け ）が選択可能）
Private bastion : Bastionノードをプライベートサブネットに接続するかどうかを指定（デフォルト：パブリックサブネット接続）
（パブリックサブネットに接続する場合はチェックオフ/プライベートサブネットに接続する場合はチェック）
Use existing VCN : 既存のVCNを使用するかどうかを指定（デフォルト：VCNを新規作成）
（既存のVCNを使用する場合は、チェックすると表示されるVCN・パブリックサブネット・プライベートサブネットの各フィールドにOCIDを指定します。）

画面ショット
4.2 Compute/GPU node options フィールド

Display name postfix : GPUノードホスト名の接尾辞（※3）
Shape : BM.GPU4.8
Node count : GPUノードのノード数（デフォルト：2）
Image OCID : GPUノードのイメージOCID（※4）
Boot volume size : GPUノードのブートボリュームサイズ（200GB以上）
cloud-config : GPUノードの cloud-init 設定ファイル( cloud-config )（※5）
NPS for BM.GPU4.8 : GPUノードの NPS 設定値 (デフォルト：NPS4) （※6）
SMT : GPUノードの SMT 設定値 (デフォルト：有効) （※6）

画面ショット

※3）例えば gpu4-ol89 と指定した場合、GPUノードのホスト名は inst-xxxxx-gpu4-ol89 となります。（ xxxxx はランダムな文字列）
※4）以下のOCIDを指定します。なおこのイメージは、Bastionノードにも使用されます。

No. （※7）	Oracle Linux バージョン	OCID
7	8.9	ocid1.image.oc1..aaaaaaaag36bbqszitkjcnnuauf3tiu3dg6bg2q7goj2uaxbbgnszan66fna
9	8.8	ocid1.image.oc1..aaaaaaaaeka3qe2v5ucxztilltohgmsyr63s3cd55uidtve4mtietoafopeq
8	7.9	ocid1.image.oc1..aaaaaaaa42ozstmmllgevxjvcbompvj6632lwlsigaudh26os7rsmfbcoilq

※5）以下をテキストファイルとして保存し、ブラウザから読み込みます。

 #cloud-config
 timezone: Asia/Tokyo
 runcmd:
 #
 # Mount NVMe local storage
     - vgcreate nvme /dev/nvme0n1 /dev/nvme1n1 /dev/nvme2n1 /dev/nvme3n1
     - lvcreate -l 100%FREE nvme
     - mkfs.xfs -L localscratch /dev/nvme/lvol0
     - mkdir -p /mnt/localdisk
     - echo "LABEL=localscratch /mnt/localdisk/ xfs defaults,noatime 0 0" >> /etc/fstab
     - systemctl daemon-reload
     - mount /mnt/localdisk
 #
 # Stop firewalld
     - systemctl disable --now firewalld
 #
 # Expand root file system to those set by instance configuration
     - /usr/libexec/oci-growfs -y
 #
 # Add public subnet to DNS search
     - sed -i '/^search/s/$/ public.vcn.oraclevcn.com/g' /etc/resolv.conf
     - chattr -R +i /etc/resolv.conf
 #
 # NFS mount setting
     - echo "bastion:/home /home nfs defaults,vers=3 0 0" >> /etc/fstab
     - mount /home

※6）詳細は、 パフォーマンス関連Tips集 の パフォーマンスに関連するベア・メタル・インスタンスのBIOS設定方法 を参照してください。

※7）OCI HPCテクニカルTips集 の クラスタネットワーキングイメージの選び方 の 1. クラスタネットワーキングイメージ一覧 のイメージNo.です。

表示される確認画面で、これまでの設定項目が意図したものになっているかを確認し、以下 作成されたスタックで適用を実行しますか。 フィールドの 適用の実行 をチェックオフし、下部の作成ボタンをクリックします。

ここで 適用の実行 をチェックした場合、作成ボタンのクリックと同時に スタック の適用が開始され、GPUクラスタの構築が始まりますが、このチュートリアルでは後の章で改めて スタック の適用を行います。

これで、以下画面のとおりGPUクラスタ構築用 スタック が作成されました。

画面ショット

0-2. Terraform CLIを使用する方法

0-2-1. Terraform実行環境構築

本章は、 Terraform CLIを使用してGPUクラスタのライフサイクル管理を実行する Terraform 実行環境を構築します。
この実行環境は、インターネットに接続された Linux ・ Windows ・ Mac の何れかのOSが稼働している端末であればよく、以下のような選択肢が考えられます。

OCI上の Linux が稼働するVMインスタンス
ご自身が使用する Windows / Mac パソコン
ご自身が使用する Windows / Mac パソコンで動作する Linux ゲストOS

本チュートリアルは、この Terraform 実行環境のOSに Oracle Linux 8.9を使用します。

Terraform 実行環境は、以下のステップを経て構築します。

Terraform インストール
Terraform 実行環境とOCI間の認証関係締結（APIキー登録）

具体的な Terraform 実行環境構築手順は、チュートリアル TerraformでOCIの構築を自動化する の 2. Terraform環境の構築 を参照してください。
また、関連するOCI公式ドキュメントは、ここを参照してください。

0-2-2. Terraformスクリプト概要

本チュートリアルで使用するGPUクラスタ構築用の Terraform スクリプトは、そのひな型を GitHub のパブリックレポジトリで公開しており、以下のファイル群で構成されています。

ファイル名	用途
cn.tf	インスタンス構成とクラスタ・ネットワークの定義
outputs.tf	構築したリソース情報の出力
terraform.tfvars	Terraform スクリプト内で使用する変数値の定義
variables.tf	Terraform スクリプト内で使用する変数の型の定義
instance.tf	Bastionノードの定義
provider.tf	テナンシ・ユーザ・リージョンの定義
vcn.tf	仮想クラウド・ネットワークと関連するネットワークリソースの定義

これらのうち自身の環境に合わせて修正する箇所は、基本的に terraform.tfvars と provider.tf に集約しています。

また、これらのファイルと同じディレクトリに user_data ディレクトリが存在し、 cloud-init 設定ファイル（ cloud-config ）を格納しています。
この cloud-config を修正することで、構築するGPUクラスタのOSレベルのカスタマイズをご自身の環境に合わせて追加・変更することも可能でます。

0-2-3. Terraformスクリプト作成

Terraform スクリプトの作成は、まず以下の GitHub レポジトリからひな型となる Terraform スクリプトを Terraform 実行環境にダウンロードしますが、

https://github.com/fwiw6430/tutorial_cn

これには、以下コマンドを Terraform 実行環境のopcユーザで実行するか、

$ sudo dnf install -y git
$ git clone https://github.com/fwiw6430/tutorial_cn

GitHub の Terraform スクリプトレポジトリのページからzipファイルを Terraform 実行環境にダウンロード・展開することで行います。

次に、ダウンロードした Terraform スクリプトのうち、 terraform.tfvars と provider.tf 内の以下 Terraform 変数を自身の環境に合わせて修正します。
この際、これらファイル内の Terraform 変数は、予めコメント（ # で始まる行）として埋め込まれていたり、キーワード xxxx で仮の値が入力されているため、コメント行を有効化して自身の値に置き換える等の修正を行います。

[ provider.tf ]

変数名	設定値	確認方法
tenancy_ocid	使用するテナントのOCID	ここを参照
user_ocid	使用するユーザのOCID	ここを参照
private_key_path	OCIに登録したAPIキーの秘密キーのパス	-
fingerprint	OCIに登録したAPIキーのフィンガープリント	ここを参照
region	GPUクラスタをデプロイするリージョン識別子	ここを参照

[ terraform.tfvars ]

変数名	設定値	確認方法
compartment_ocid	GPUクラスタをデプロイするコンパートメントのOCID	ここを参照
ad	GPUクラスタをデプロイする可用性ドメイン識別子	（※8）
ssh_key	Bastionノードログインに使用するSSH秘密鍵に対する公開鍵	-
exist_vcn	既存のVCNを使用するかどうかの指定（true/false）	-
vcn_ocid	既存のVCNを使用する場合のVCNのOCID（※12）	（※13）
public_ocid	既存のVCNを使用する場合のパブリックサブネットのOCID（※12）	（※13）
private_ocid	既存のVCNを使用する場合のプライベートサブネットのOCID（※12）	（※13）
comp_shape	GPUノードに使用するシェイプ・ BM.GPU4.8	-
comp_image	GPUノードに使用するOSイメージのOCID	（※9）
comp_boot_vol_size	GPUノードのブートボリュームのサイズ（GB）（最低200GB）	-
comp_cloud_config	user_data ディレクトリに格納するGPUノード用 cloud-config ファイル名・ cloud-init_cngpu.cfg	-
comp_nps_gpu40	GPUノードの NPS BIOS設定値	（※10）
comp_smt	GPUノードの SMT BIOS設定値	（※10）
cn_display_name	GPUノードホスト名の接尾辞	（※11）
cn_node_count	GPUノードのノード数	-

※8）OCIコンソールメニューから コンピュート → インスタンス を選択し インスタンスの作成 ボタンをクリックし、表示される以下配置フィールドで確認出来ます。

画面ショット

※9）コメントとして埋め込まれているOSイメージOCIDから、コメント文の記載を参考に適切なOSイメージOCIDのコメントを外して使用します。詳細は、 OCI HPCテクニカルTips集 の クラスタネットワーキングイメージの選び方 の 1. クラスタネットワーキングイメージ一覧 を参照してください。
※10）詳細は、 OCI HPCパフォーマンス関連情報 の パフォーマンスに関連するベア・メタル・インスタンスのBIOS設定方法 を参照してください。
※11）例えば gpu4-ol89 と指定した場合、GPUノードのホスト名は inst-xxxxx-gpu4-ol89 となります。（ xxxxx はランダムな文字列）
※12）既存のVCNを使用する場合のみコメントを外して指定します。
※13）OCIコンソール上で当該VCN・サブネットの詳細画面を表示して確認します。

1. GPUクラスタ構築

1-0. 概要

本章は、先に作成した スタック / Terraform スクリプトを使用し、GPUクラスタを構築します。

この手順は、構築手法に リソース・マネージャ を使用する方法を採用するか、 Terraform CLIを使用する方法を採用するかで異なり、以降では2つの異なる構築手法毎にその手順を解説します。

1-1. リソース・マネージャを使用する方法

以下 スタックの詳細 画面で、適用ボタンをクリックします。
表示される以下適用サイドバーで、適用ボタンをクリックします。
表示される以下 ジョブ詳細 ウィンドウで、左上のステータスが 受入れ済 → 進行中 と遷移すれば、 スタック の適用が実施されています。

表示される以下ログフィールドで、リソースのデプロイ状況を確認します。

この適用が完了するまでの所要時間は、GPUノードのノード数が2ノードの場合で15分程度です。

ステータスが成功となれば、GPUクラスタのデプロイが完了しており、以下のようにログフィールドの最後にBastionノードとGPUノードのホスト名とIPアドレスが出力されます。
```
 Outputs:

 Bastion_instances_created = {
   "display_name" = "bastion"
   "private_ip" = "10.0.1.138"
   "public_ip" = "123.456.789.123"
 }
 Compute_in_cn_created = {
   "inst-9fhuq-gpu4-ol89" = {
     "display_name" = "inst-9fhuq-gpu4-ol89"
     "private_ip" = "10.0.2.10"
   }
   "inst-dz99s-gpu4-ol89" = {
     "display_name" = "inst-dz99s-gpu4-ol89"
     "private_ip" = "10.0.2.73"
   }
 }
```

1-2. Terraform CLIを使用する方法

Terraform 実行環境で、以下コマンドを実行します。

$ cd tutorial_cn
$ terraform init
$ terraform apply --auto-approve

最後のコマンドによる Terraform スクリプトの適用完了までの所要時間は、GPUノードのノード数が2ノードの場合で15分程度です。

Terraform スクリプトの適用が正常に完了すると、以下のようにコマンド出力の最後にBastionノードとGPUノードのホスト名とIPアドレスが出力されます。

Apply complete! Resources: 16 added, 0 changed, 0 destroyed.

Outputs:

Bastion_instances_created = {
  "display_name" = "bastion"
  "private_ip" = "10.0.1.138"
  "public_ip" = "123.456.789.123"
}
Compute_in_cn_created = {
  "inst-9fhuq-gpu4-ol89" = {
    "display_name" = "inst-9fhuq-gpu4-ol89"
    "private_ip" = "10.0.2.10"
  }
  "inst-dz99s-gpu4-ol89" = {
    "display_name" = "inst-dz99s-gpu4-ol89"
    "private_ip" = "10.0.2.73"
  }
}

2. GPUクラスタ確認

2-0. 概要

本章は、デプロイされたGPUクラスタ環境を確認します。

この際、作成されたGPUノードの全ホスト名を記載したホストリストファイルを使用し、BastionノードからGPUクラスタ内の全GPUノードにSSHでコマンドを発行、その環境を確認します。
なおこのホストリストファイルは、Bastionノードと全GPUノードに /home/opc/hostlist.txt として存在します。

2-1. Bastionノードログイン

Bastionノードは、パブリックサブネット接続の場合はGPUクラスタ構築完了時に表示されるパブリックIPアドレスに対してインターネット経由SSHログインし、プライベートサブネット接続の場合はGPUクラスタ構築完了時に表示されるプライベートIPアドレスに対して拠点間接続経由SSHログインしますが、これには構築時に指定したSSH公開鍵に対応する秘密鍵を使用して以下コマンドで行います。

$ ssh -i path_to_ssh_secret_key opc@123.456.789.123

2-2. cloud-init完了確認

cloud-init は、GPUノードが起動してSSHログインできる状態であっても、その処理が継続している可能性があるため、以下コマンドをBastionノードのopcユーザで実行し、そのステータスが done となっていることで cloud-init の処理完了を確認します。

$ for hname in `cat /home/opc/hostlist.txt`; do echo $hname; ssh  -oStrictHostKeyChecking=accept-new $hname "sudo cloud-init status"; done
inst-xxxxx-gpu4-ol89
Warning: Permanently added 'inst-xxxxx-gpu4-ol89,10.0.2.117' (ECDSA) to the list of known hosts.
status: done
inst-yyyyy-gpu4-ol89
Warning: Permanently added 'inst-yyyyy-gpu4-ol89,10.0.2.17' (ECDSA) to the list of known hosts.
status: done
$

ステータスが running の場合は、 cloud-init の処理が継続中のため、処理が完了するまで待ちます。

2-3. GPUノードファイルシステム確認

GPUノードは、以下のようにルートファイルシステムがデフォルトの50 GBから指定したサイズに拡張され、NVMe SSDローカルディスクが /mnt/localdisk にマウントされ、Bastionノードの /home が /home としてマウントされています。

$ for hname in `cat /home/opc/hostlist.txt`; do echo $hname; ssh $hname "df -h / /mnt/localdisk /home"; done
inst-xxxxx-gpu4-ol89
Filesystem              Size  Used Avail Use% Mounted on
/dev/sda3               192G   23G  170G  12% /
/dev/mapper/nvme-lvol0   25T   34M   25T   1% /mnt/localdisk
bastion:/home            36G  9.1G   27G  26% /home
inst-yyyyy-gpu4-ol89
Filesystem              Size  Used Avail Use% Mounted on
/dev/sda3               192G   23G  170G  12% /
/dev/mapper/nvme-lvol0   25T   34M   25T   1% /mnt/localdisk
bastion:/home            36G  9.1G   27G  26% /home
$

2-4. GPUノードBIOS設定確認

以下コマンドをBastionノードのopcユーザで実行し、GPUノードのBIOSで指定した NPS と SMT 設定が指定したとおりになっていることを確認します。

$ for hname in `cat /home/opc/hostlist.txt`; do echo $hname; ssh $hname "lscpu | grep -i -e numa -e thread"; done
inst-xxxxx-gpu4-ol89
Thread(s) per core:  2
NUMA node(s):        8
NUMA node0 CPU(s):   0-7,64-71
NUMA node1 CPU(s):   8-15,72-79
NUMA node2 CPU(s):   16-23,80-87
NUMA node3 CPU(s):   24-31,88-95
NUMA node4 CPU(s):   32-39,96-103
NUMA node5 CPU(s):   40-47,104-111
NUMA node6 CPU(s):   48-55,112-119
NUMA node7 CPU(s):   56-63,120-127
inst-yyyyy-gpu4-ol89
Thread(s) per core:  2
NUMA node(s):        8
NUMA node0 CPU(s):   0-7,64-71
NUMA node1 CPU(s):   8-15,72-79
NUMA node2 CPU(s):   16-23,80-87
NUMA node3 CPU(s):   24-31,88-95
NUMA node4 CPU(s):   32-39,96-103
NUMA node5 CPU(s):   40-47,104-111
NUMA node6 CPU(s):   48-55,112-119
NUMA node7 CPU(s):   56-63,120-127
$

2-5. GPUノードクラスタ・ネットワーク用ネットワークインターフェース設定確認

以下コマンドをBastionノードのopcユーザで実行し、GPUノードの クラスタ・ネットワーク 接続に使用する16個のネットワークインターフェースに正しくIPアドレスが設定されていることを確認します。

$ for hname in `cat /home/opc/hostlist.txt`; do echo $hname; ssh $hname "ip a | grep -e eth0 -e rdma | grep inet"; done
inst-xxxxx-gpu4-ol89
    inet 10.0.2.117/24 brd 10.0.2.255 scope global dynamic eth0
    inet 10.224.0.117/12 brd 10.239.255.255 scope global noprefixroute rdma0
    inet 10.224.1.117/12 brd 10.239.255.255 scope global noprefixroute rdma1
    inet 10.224.2.117/12 brd 10.239.255.255 scope global noprefixroute rdma2
    inet 10.224.3.117/12 brd 10.239.255.255 scope global noprefixroute rdma3
    inet 10.224.4.117/12 brd 10.239.255.255 scope global noprefixroute rdma4
    inet 10.224.5.117/12 brd 10.239.255.255 scope global noprefixroute rdma5
    inet 10.224.6.117/12 brd 10.239.255.255 scope global noprefixroute rdma6
    inet 10.224.7.117/12 brd 10.239.255.255 scope global noprefixroute rdma7
    inet 10.224.8.117/12 brd 10.239.255.255 scope global noprefixroute rdma8
    inet 10.224.9.117/12 brd 10.239.255.255 scope global noprefixroute rdma9
    inet 10.224.10.117/12 brd 10.239.255.255 scope global noprefixroute rdma10
    inet 10.224.11.117/12 brd 10.239.255.255 scope global noprefixroute rdma11
    inet 10.224.12.117/12 brd 10.239.255.255 scope global noprefixroute rdma12
    inet 10.224.13.117/12 brd 10.239.255.255 scope global noprefixroute rdma13
    inet 10.224.14.117/12 brd 10.239.255.255 scope global noprefixroute rdma14
    inet 10.224.15.117/12 brd 10.239.255.255 scope global noprefixroute rdma15
inst-yyyyy-gpu4-ol89
    inet 10.0.2.17/24 brd 10.0.2.255 scope global dynamic eth0
    inet 10.224.0.17/12 brd 10.239.255.255 scope global noprefixroute rdma0
    inet 10.224.1.17/12 brd 10.239.255.255 scope global noprefixroute rdma1
    inet 10.224.2.17/12 brd 10.239.255.255 scope global noprefixroute rdma2
    inet 10.224.3.17/12 brd 10.239.255.255 scope global noprefixroute rdma3
    inet 10.224.4.17/12 brd 10.239.255.255 scope global noprefixroute rdma4
    inet 10.224.5.17/12 brd 10.239.255.255 scope global noprefixroute rdma5
    inet 10.224.6.17/12 brd 10.239.255.255 scope global noprefixroute rdma6
    inet 10.224.7.17/12 brd 10.239.255.255 scope global noprefixroute rdma7
    inet 10.224.8.17/12 brd 10.239.255.255 scope global noprefixroute rdma8
    inet 10.224.9.17/12 brd 10.239.255.255 scope global noprefixroute rdma9
    inet 10.224.10.17/12 brd 10.239.255.255 scope global noprefixroute rdma10
    inet 10.224.11.17/12 brd 10.239.255.255 scope global noprefixroute rdma11
    inet 10.224.12.17/12 brd 10.239.255.255 scope global noprefixroute rdma12
    inet 10.224.13.17/12 brd 10.239.255.255 scope global noprefixroute rdma13
    inet 10.224.14.17/12 brd 10.239.255.255 scope global noprefixroute rdma14
    inet 10.224.15.17/12 brd 10.239.255.255 scope global noprefixroute rdma15
$

なお、後に実行する NCCL Tests の起動コマンドで設定している NCCL_IB_HCA 環境変数に指定のRDMAリンク名（ mlx5_xx ）は、以下のように先の クラスタ・ネットワーク 接続用のネットワークインターフェースに対応しています。

$ for hname in `cat /home/opc/hostlist.txt`; do echo $hname; ssh $hname "rdma link show | grep rdma"; done
inst-xxxxx-gpu4-ol89
link mlx5_6/1 state ACTIVE physical_state LINK_UP netdev rdma0 
link mlx5_7/1 state ACTIVE physical_state LINK_UP netdev rdma1 
link mlx5_8/1 state ACTIVE physical_state LINK_UP netdev rdma2 
link mlx5_9/1 state ACTIVE physical_state LINK_UP netdev rdma3 
link mlx5_0/1 state ACTIVE physical_state LINK_UP netdev rdma4 
link mlx5_1/1 state ACTIVE physical_state LINK_UP netdev rdma5 
link mlx5_2/1 state ACTIVE physical_state LINK_UP netdev rdma6 
link mlx5_3/1 state ACTIVE physical_state LINK_UP netdev rdma7 
link mlx5_14/1 state ACTIVE physical_state LINK_UP netdev rdma8 
link mlx5_15/1 state ACTIVE physical_state LINK_UP netdev rdma9 
link mlx5_16/1 state ACTIVE physical_state LINK_UP netdev rdma10 
link mlx5_17/1 state ACTIVE physical_state LINK_UP netdev rdma11 
link mlx5_10/1 state ACTIVE physical_state LINK_UP netdev rdma12 
link mlx5_11/1 state ACTIVE physical_state LINK_UP netdev rdma13 
link mlx5_12/1 state ACTIVE physical_state LINK_UP netdev rdma14 
link mlx5_13/1 state ACTIVE physical_state LINK_UP netdev rdma15 
inst-yyyyy-gpu4-ol89
link mlx5_6/1 state ACTIVE physical_state LINK_UP netdev rdma0 
link mlx5_7/1 state ACTIVE physical_state LINK_UP netdev rdma1 
link mlx5_8/1 state ACTIVE physical_state LINK_UP netdev rdma2 
link mlx5_9/1 state ACTIVE physical_state LINK_UP netdev rdma3 
link mlx5_0/1 state ACTIVE physical_state LINK_UP netdev rdma4 
link mlx5_1/1 state ACTIVE physical_state LINK_UP netdev rdma5 
link mlx5_2/1 state ACTIVE physical_state LINK_UP netdev rdma6 
link mlx5_3/1 state ACTIVE physical_state LINK_UP netdev rdma7 
link mlx5_14/1 state ACTIVE physical_state LINK_UP netdev rdma8 
link mlx5_15/1 state ACTIVE physical_state LINK_UP netdev rdma9 
link mlx5_16/1 state ACTIVE physical_state LINK_UP netdev rdma10 
link mlx5_17/1 state ACTIVE physical_state LINK_UP netdev rdma11 
link mlx5_10/1 state ACTIVE physical_state LINK_UP netdev rdma12 
link mlx5_11/1 state ACTIVE physical_state LINK_UP netdev rdma13 
link mlx5_12/1 state ACTIVE physical_state LINK_UP netdev rdma14 
link mlx5_13/1 state ACTIVE physical_state LINK_UP netdev rdma15 

3. コンテナ環境構築

本章は、 Docker Community Edition と NVIDIA Container Toolkit を使用し、GPU利用可能なコンテナ環境を構築します。

以下コマンドを全てのGPUノードのopcユーザで実行し、 Docker Community Edition と NVIDIA Container Toolkit をインストール・起動します。

$ sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
$ sudo dnf install -y docker-ce nvidia-container-toolkit
$ sudo systemctl enable --now docker

次に、以下コマンドを全てのGPUノードのopcユーザで実行し、コンテナ上で BM.GPU4.8 が搭載する8個のGPUにアクセスできることを確認します。

$ sudo docker run --rm --gpus all nvcr.io/nvidia/base/ubuntu:22.04_20240212 nvidia-smi
Unable to find image 'nvcr.io/nvidia/base/ubuntu:22.04_20240212' locally
22.04_20240212: Pulling from nvidia/base/ubuntu
d66d6a6a3687: Pull complete 
24c2d4f7ea40: Pull complete 
9d30336abbd7: Pull complete 
feb1277c15aa: Pull complete 
3cf0dbeda93a: Pull complete 
99fc1e9ef206: Pull complete 
a8f7f8dfd4e2: Pull complete 
Digest: sha256:2a9f71d82aa4daac444c1b4b74d5d7b01f93eb23662c1236f89d817f083abecd
Status: Downloaded newer image for nvcr.io/nvidia/base/ubuntu:22.04_20240212
Mon Jul  1 02:58:34 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA A100-SXM4-40GB          On  |   00000000:0F:00.0 Off |                    0 |
| N/A   38C    P0             81W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA A100-SXM4-40GB          On  |   00000000:15:00.0 Off |                    0 |
| N/A   37C    P0             85W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA A100-SXM4-40GB          On  |   00000000:51:00.0 Off |                    0 |
| N/A   34C    P0             81W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA A100-SXM4-40GB          On  |   00000000:54:00.0 Off |                    0 |
| N/A   36C    P0             82W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA A100-SXM4-40GB          On  |   00000000:8D:00.0 Off |                    0 |
| N/A   35C    P0             79W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA A100-SXM4-40GB          On  |   00000000:92:00.0 Off |                    0 |
| N/A   35C    P0             81W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA A100-SXM4-40GB          On  |   00000000:D6:00.0 Off |                    0 |
| N/A   34C    P0             78W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA A100-SXM4-40GB          On  |   00000000:DA:00.0 Off |                    0 |
| N/A   36C    P0             85W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+
$

4. NCCL Tests実行

本章は、 NGC Catalog から提供される TensorFlow NGC Container を起動し、このコンテナに含まれる NCCL とコンテナ上でビルドする NCCL Tests を使用し、Dockerコンテナ上で NCCL のGPU間通信性能を NCCL Tests で検証します。

この NCCL Tests 実行方法は、 標準ベンチマーク実行方法 の NCCL Tests実行方法 を参照してください。

5. GPUクラスタ削除

5-0. 概要

本章は、先に作成した スタック / Terraform スクリプトを使用し、GPUクラスタを削除します。
この手順は、構築手法に リソース・マネージャ を使用する方法を採用するか、 Terraform CLIを使用する方法を採用するかで異なり、以降では2つの異なる構築手法毎にその手順を解説します。

5-1. リソース・マネージャを使用する方法

以下 スタックの詳細 画面で、破棄ボタンをクリックします。
表示される以下破棄サイドバーで、破棄ボタンをクリックします。
表示される以下 ジョブ詳細 ウィンドウで、左上のステータスが 受入れ済 → 進行中 と遷移すれば、 スタック の破棄が実施されています。

表示される以下ログフィールドで、リソースの削除状況を確認します。

この破棄が完了するまでの所要時間は、GPUノードのノード数が2ノードの場合で5分程度です。

ステータスが成功となれば、GPUクラスタの削除が完了しています。

5-2. Terraform CLIの場合

本章は、 Terraform スクリプトを Terraform CLIで破棄し、GPUクラスタを削除します。

Terraform 実行環境の tutorial_cn ディレクトリで以下コマンドを実行し、削除が正常に完了したことをメッセージから確認します。

$ terraform destroy --auto-approve
:
Destroy complete! Resources: 18 destroyed.
$

この破棄が完了するまでの所要時間は、GPUノードのノード数が2ノードの場合で5分程度です。

これで、このチュートリアルは終了です。

X Facebook LinkedIn Bluesky

GPUクラスタを構築する(基礎インフラ自動構築編)

0. 事前準備

0-0. 概要

0-1. リソース・マネージャを使用する方法

0-1-1. 構成ソース・プロバイダ作成

0-1-2. スタック作成

0-2. Terraform CLIを使用する方法

0-2-1. Terraform実行環境構築

0-2-2. Terraformスクリプト概要

0-2-3. Terraformスクリプト作成

1. GPUクラスタ構築

1-0. 概要

1-1. リソース・マネージャを使用する方法

1-2. Terraform CLIを使用する方法

2. GPUクラスタ確認

2-0. 概要

2-1. Bastionノードログイン

2-2. cloud-init完了確認

2-3. GPUノードファイルシステム確認

2-4. GPUノードBIOS設定確認

2-5. GPUノードクラスタ・ネットワーク用ネットワークインターフェース設定確認

3. コンテナ環境構築

4. NCCL Tests実行

5. GPUクラスタ削除

5-0. 概要

5-1. リソース・マネージャを使用する方法

5-2. Terraform CLIの場合

共有

関連記事