Large Scale Distributed Deep Learning

Solve machine learning problems using extremely large scale dataset and massive computing resources

テラバイトのデータや数百のGPUなど、膨大なデータセットと大規模なコンピューティングリソースの両方を利用するには、さまざまな課題があります。そのような課題には、大規模バッチトレーニング、ハイパーパラメーター最適化、データストレージ、IO 、高速インターコネクトでの高速GPU間通信、フォールトトレランス、およびプログラム最適化。
ここPFNでは、合計2500のGPUの大規模GPUクラスターを運用しています。
PFNは、物理リソースに加えて、機械学習、アルゴリズム、分散システム、スーパーコンピューティングなどのさまざまなバックグラウンドを持つチームメンバーからの知識と経験にも恵まれています。
私たちの重要な使命の1つは、大規模な問題に挑戦し、これらの機械と人的資源でのみ可能な驚くべき結果を達成することです。