HPC/GPUクラスタは、実行するワークロードの増減に伴い計算/GPUノードのノード数を増減する必要が生じることがあります。またハードウェア障害が発生すると、利用可能なノード数を維持するために当該ノードを別のノードに置き換える必要が生じます。
本テクニカルTipsは、 クラスタ・ネットワーク を使用するHPC/GPUクラスタで計算/GPUノードのノード数を増減する方法や置き換える方法を解説します。
0. 概要
HPC/GPUクラスタのノード数を増減させたり既存の計算/GPUノードを置き換える場合、これらのノードが通常同一の クラスタ・ネットワーク に接続されている必要があることから、 クラスタ・ネットワーク を使用しないインスタンスとは異なる手順が必要になります。
そこで本テクニカルTipsでは、これらの手順を以下の3ケースに分けて解説します。
- ノード数を減らす
- ノード数を増やす
- ノードを置き換える
1. ノード数を減らす
1-0. 概要
ノード数を減らす場合、終了するノードを指定する方法と終了するノードをOCIに任せる方法があります。
終了するノードをOCIに任せる方法は、 クラスタ・ネットワーク に接続するどのノードを終了しても構わないが複数のノードを一度に減らす際に有効で、最も作成日の古いものから終了の対象として選択されます。
これに対して終了するノードを指定する方法は、一度に終了するノードは1ノードだが終了するノードを特定する必要がある際に有効です。
1-1. 終了するノードを指定する方法
本章は、計算/GPUノードを減らす際、終了するノードを指定する方法を解説します。
-
OCIコンソールメニューから コンピュート → クラスタ・ネットワーク を選択し、表示される以下画面で、ノード数を減らす クラスタ・ネットワーク をクリックします。
-
表示される以下画面の インスタンス・プール フィールドで、 クラスタ・ネットワーク の作成に伴い作成された インスタンス・プール をクリックします。
-
表示される以下画面左下の アタッチされたインスタンス メニューをクリックします。
-
表示される画面の以下 アタッチされたインスタンス フィールドで、終了するインスタンスのメニューから インスタンスのデタッチ メニューをクリックします。
-
表示される以下画面で、 このインスタンスおよびアタッチされたブート・ボリュームを完全に終了(削除) チェックボックスをチェックし、 デタッチと終了 ボタンをクリックします。
-
OCIコンソールメニューから コンピュート → インスタンス とメニューを辿り、デタッチしたインスタンスが終了されれば、手順完了です。
1-2. 終了するノードをOCIに任せる方法
本章は、計算/GPUノードを減らす際、終了するノードをOCIに任せる方法を解説します。
-
OCIコンソールメニューから コンピュート → クラスタ・ネットワーク を選択し、表示される以下画面で、ノード数を減らす クラスタ・ネットワーク をクリックします。
-
表示される以下画面で、 編集 ボタンをクリックします。
-
表示される以下 クラスタ・ネットワークの編集 サイドバーで、 インスタンス数 フィールドに減らした後の新しいノード数を入力し 変更の保存 ボタンをクリックします。
-
表示される以下 クラスタ・ネットワーク・インスタンス・プール ウィンドウで、左上のステータスが スケーリング中 → 完了 と遷移したら、手順完了です。
-
同じウィンドウ下方の以下 インスタンス・プール フィールドで、 インスタンス数 が新しいノード数に変わっていることを確認します。
2. ノード数を増やす
2-0. 概要
ノード数を増やす場合、通常追加するノードは既存のノードと同じ クラスタ・ネットワーク に接続する必要があります。
この際、同一の クラスタ・ネットワーク に追加できるその時点で利用可能なインスタンスが有限であることから、既存の クラスタ・ネットワーク に接続するノード数の増加は、必ずしも成功するわけではない点に留意する必要があります。
もしノード数増加が失敗する場合は、 OCI HPCテクニカルTips集 の クラスタ・ネットワークに接続する計算/GPUノードデプロイ時の問題判別方法 を参照し、その原因特定と対応を検討します。
2-1. ノード数を増やす方法
本章は、計算/GPUノードを増やす方法を解説します。
-
OCIコンソールメニューから コンピュート → クラスタ・ネットワーク を選択し、表示される以下画面で、ノード数を増やす クラスタ・ネットワーク をクリックします。
-
表示される以下画面で、 編集 ボタンをクリックします。
-
表示される以下 クラスタ・ネットワークの編集 サイドバーで、 インスタンス数 フィールドに増やした後の新しいノード数を入力し 変更の保存 ボタンをクリックします。
-
表示される以下 クラスタ・ネットワーク・インスタンス・プール ウィンドウで、左上のステータスが スケーリング中 → 完了 と遷移したら、手順完了です。
-
同じウィンドウ下方の以下 インスタンス・プール フィールドで、 インスタンス数 が新しいノード数に変わっていることを確認します。
3. ノードを置き換える
3-0. 概要
ノードを置き換える場合、置き換える新しいノードが受けるノード数を増やす場合と同様の 2-0. 概要 に記載の制約から、必ずしも成功するわけではない点に留意します。
3-1. ノードを置き換える方法
本章は、計算/GPUノードを置き換える方法を解説します。
-
OCIコンソールメニューから コンピュート → クラスタ・ネットワーク を選択し、表示される以下画面で、置き換えられるノードが接続する クラスタ・ネットワーク をクリックします。
-
表示される以下画面の インスタンス・プール フィールドで、 クラスタ・ネットワーク の作成に伴い作成された インスタンス・プール をクリックします。
-
表示される以下画面左下の アタッチされたインスタンス メニューをクリックします。
-
表示される画面の以下 アタッチされたインスタンス フィールドで、置き換えるインスタンスのメニューから インスタンスのデタッチ メニューをクリックします。
-
表示される以下画面で、 このインスタンスおよびアタッチされたブート・ボリュームを完全に終了(削除) と プールのインスタンス構成をインスタンスのテンプレートとして使用し、インスタンスを新しいインスタンスで置き換える チェックボックスをチェックし、 デタッチと終了 ボタンをクリックします。
-
OCIコンソールメニューから コンピュート → インスタンス とメニューを辿り、デタッチしたインスタンスが終了し、新たなインスタンスが起動されれば、手順完了です。