MN-3が動き出します

Area

Cluster / Networking

Tag

# Cluster

# MN-Core

Yusuke Doi

VP of Computing Infrastructure

Preferred Networksは，2019年にMN-2を稼動させました．MN-2は1024基の NVIDIA V100 GPUを搭載するクラスタで，現在もMN-1と共に、PFNの主要な負荷を担っています．MN-2に引き続いて，次世代のPFNの計算基盤として，神戸大学の牧野教授のグループと共同で開発した MN-Core™ を計算アクセラレータとして採用した計算機クラスタ MN-3 を稼動させます．

計算基盤担当の土井といいます．前回PFN blogを書いたのはMN-2のときなので，だいたい1年近く前になると思います．その後世の中も大きく変化しましたが， PFNの計算機クラスタも一つの変革期を迎えます．PFNの計算アクセラレータの計画は2017年から本格化しましたが，その成果の一つがMN-Coreです．そして，MN-Coreを利用した計算機クラスタ MN-3 は，2018年末の展示会(セミコンジャパン)のPFN CEOの西川の基調講演で登場を予告したものです．今回ようやく，MN-Coreを利用したクラスタの第一期構築分が動きはじめたので，これについて共有させてください．

MN-Core Server

構成

MN-3 第一期構築分(以下簡単のため MN-3a と呼びます)は，以下のような構成になっています．計算ノード32ノードを1つのゾーンとして，MN-3aでは1ゾーンと半分(16ノード)を構築しました．また，写真には入っていませんが，別のラックにMN-3のspine Ethernet switchが入っています．

MN-3の構成

計算ノードにはMN-Coreが4つ搭載され，1ノードあたり理論上約2Pops(半精度，以下同じ)の計算能力を持ちます．ラック一つには4台の計算ノードが搭載されるため，ラック1つあたり約8Pops，ゾーンあたりで約64Popsの計算能力を持ちます．理想的すぎてあまり意味のない数字ですが、仮に効率100%で計算できたとすると，ImageNet on ResNet50 / 90 epochの有名なトレーニングのベンチマーク相当の計算が30秒ちょっとで実行できることになります．もちろん，実際には通信，データ供給，その他さまざまなオーバーヘッドが存在するので，これは不可能な数字ではあります．

ネットワークはMN-2と同様に100ギガビット・イーサネットを用います．ただ，MN-Coreは独自のインターコネクト(MN-Core DirectConnect)を持っており，これがゾーン中央のノードに接続されます．インターコネクトの仕様は現時点では非公開です．

なお，施設についてはMN-2から引き続き，JAMSTEC横浜研究所シミュレータ棟に置かせて頂いています．ラック設計については，配線の都合がありわずかに変更した部分もありますが，基本的にはMN-2の時に設計した内容を継続して利用しています．電源やネットワーク配線敷設，排熱のことも考え，今回はラック列は2列4ゾーン分を同時に立架し，うち1.5ゾーンのみ計算ノードを搭載しています．MN-2の隣に構築しており，MN-2とMN-3は複数の100GbEリンクで接続されて，対外線やストレージ，管理ノード等を共有可能です．

MN-Coreへのデータの供給について

MN-Coreは従来のGPUとは全く異なるアーキテクチャなので，ソフトウェアの作り方もあわせて変更する必要があります．詳細はまだ公開できませんが， PFNで現在中心的に利用しているPyTorchの学習コードから僅かな変更で対応できるように準備中です．

事前の検討で，最大効率で計算を行うことができたと仮定すると，構築段階で入手できたCPU，SSD，NVMe等の組み合わせで，データ供給速度が要求される種類の深層学習ワークロードにおいてデータ供給速度が全く足りないことが推定されました．この対策のため，Intel® Optane™ DC Persistent Memoryを3TB/node搭載しています．特に画像については，JPEGやPNG等の圧縮されたデータをストレージから読み出すと CPUでの展開処理がボトルネックとなり，展開済データをストレージに保存して読み出すとストレージデバイスのスループットがボトルネックになる，という状態でした．DRAMに展開済データを全て置ければ問題はないですが，実用的なレベルのDRAMを全ノードに用意するのは，コストがかかりすぎるという問題もあります．

Optane DC Persistent Memoryは主記憶の拡張としても利用できますが，今回はapp direct mode(APIを経由して直接データI/Oを行うモード)により，展開済みイメージデータのcacheとして利用する予定です．画像を対象とした深層学習において，入力となるイメージデータは一般に数十回以上再利用され，都度random cropやflipなどのデータオーギュメンテーション処理を行うため，展開後・未処理の状態の画像データをOptane DC Persistent Memoryに保持し，画像の展開や読み込みの時間を短縮します．なお，Optane DC Persistent Memoryはバイトアドレス可能なことも，この処理の実現に寄与しています．

今後の見込み

MN-3aは，まずは48ノードで稼動させて，その実力を確認するフェーズです．MN-Coreは深層学習を目的として計算機アーキテクチャを検討しましたので， ResNet50等，深層学習の代表的なニューラルネットワークでの動作を確認後，より高度な学習に向けて研究開発を進めていきます．実力が確認でき次第，需要にあわせて規模の拡張を行っていく予定です．

Area

Cluster / Networking

Tag

# Cluster

# MN-Core