Blog

2022.08.25

Engineering

MN-2が大きくなりました

Sho Shimizu

計算基盤担当エンジニアの清水です。Preferred Networksは2019年にMN-2を稼働させ、2020年にはMN-3を稼働させました。MN-2は1024基のNVIDIA V100 GPUを搭載するクラスタで、MN-3はPFNが開発するMN-Coreを計算アクセラレータとして採用するクラスタで、この両者でPFNの主要な計算ワークロードを担っています。今回、MN-2稼働開始後に発売された新しい世代のGPUであるNVIDIA A100とA30を搭載するノードを追加してMN-2を拡張しました。これについて共有させてください。

MN-2B

背景

2019年に稼働を始めたNVIDIA V100を搭載した部分をMN-2Aと呼んでおり、これと対比して今回新しく追加した部分はMN-2Bと呼んでいます。MN-2Aの運用を始めてから早いもので3年近くが経過しています。3年ともいえば日々進化するテクノロジーの世界においてはとても長い時間です。その間にPFN社内での計算需要も増えており、計算力を増強する必要性が高まっていました。また、この3年の間にNVIDIA A100が発売され、MN-2Aで採用しているV100はひとつ古い世代のGPUとなりました。これらの状況を考え、最新世代のGPUを追加してMN-2を拡張し、計算力を増強することにしました。

構成

MN-2BはMN-2Aを拡張する形で構築しており技術的な特徴はMN-2Aに準拠していますが、採用するGPUやCPUのモデルが多様化しています。GPUは、MN-2AではNVIDIA V100のみで構成されていたのに対し、MN-2BではNVIDIA A100とA30の2種類のGPUを採用しています。CPUについては、MN-2AではIntel社製のCPUのみを採用していましたが、MN-2BではIntel社製とAMD社製のCPUを採用しています。PFN社内のさまざまな計算ワークロードに対応するべく、よりヘテロな構成のクラスタとなっているのがMN-2Bの特徴です。

MN-2Bでは、既存設備の容量を最大限に使った規模としてNVIDIA A100搭載サーバを42台、NVIDIA A30搭載サーバを42台の計84台を追加しました。GPU数では420個の追加となっています。MN-2AではGPUを搭載しないCPUサーバが計算ノードとして存在しましたが、MN-2BではCPUノードは設けず全てGPUサーバだけ追加しています。その代わり、各GPUサーバにはCPUコア数やメモリ量を多めに搭載する構成をとりました。

ハードウェアとしての物理的な構成がヘテロな構成になる一方、ソフトウェアスタックはMN-2A, MN-2B、そして、MN-3も含めて単一のKubernetesクラスタの構成になっており、ユーザからはMN-2AとMN-2Bが違いなく使えるようになっています。今回のMN-2Bの追加でGPUのモデル数だけではなく、GPUに搭載されるメモリ量のバリエーションが増えたことによって、ユーザが使いたいGPUの性質の幅が大きくなっているのに対応して、GPUモデルや搭載メモリ数をユーザが柔軟かつ簡単に指定するための仕組みを開発しました。これによって、GPUのモデルやメモリ量を特に気にしないユーザに対しても、GPUモデルやメモリ量を指定したいユーザに対しても同じ使い勝手を実現できるようになっています。

今後

今回、計算需要の高まりに応えるべく、また、最新世代のハードウェアアーキテクチャに追従し自社でのクラスタの運用の知見を貯めるべく、新しいGPUサーバ追加しMN-2を拡張しました。今回のMN-2Bの構築はこれまでのMN-2A、MN-3の構築の経験を活かして進めることができました。MN-2Bを追加したことによって、PFNのクラスタは複数のGPUモデル、MN-CoreとGPUという異なるアーキテクチャのアクセラレータを含むクラスタとなっています。よりヘテロな構成になったクラスタをいかに効率よく使うことができるかがこれからますます重要になってきます。また、今後も予想される計算力の増加に応えるためにも計算基盤に関する研究開発の重要性も高まっています。こういった課題に取り組みたい我こそは!という方は、是非弊社ホームページにある採用の欄からご連絡いただくか、個人的にご存知のPFN社員にご連絡いただけたらと思います。

  • Twitter
  • Facebook