Blog

2020.01.06

Research

【ICLR2020採択論文】GANのなめらかさと安定性

Kentaro Minami

リサーチャーの南です。機械学習のトップ会議のひとつであるICLR2020に、2019年度PFN夏季インターンのCasey Chuさん、PFN技術顧問の福水健次教授共同で書いた論文が採択されました。

Casey Chu, Kentaro Minami and Kenji Fukumizu. Smoothness and Stability in GANs. In International Conference on Learning Representations (ICLR), 2020, to appear. 論文リンク

本記事では、上記論文の内容を簡単に紹介します。

背景: GANと安定化技術

周知のとおり、敵対的生成ネットワーク (GAN, [1]) はとても強力な生成モデルです。例えば、GANによって自然な高解像度画像を生成できることが知られています。下記は高解像度画像生成におけるstate-of-the-artのひとつであるBigGAN [2] によって生成された画像の例です。

図はBrock et al. [2] より転載

このように、うまくいけば非常に高品質な画像を生成できるGANですが、その学習は一般にとても不安定であることが知られています。よって、いかにして学習を安定化するかが、GANの研究における中心的な課題となっています。

そもそも、安定性とは何でしょうか? 

GANの学習では、さまざまな「不安定性」が報告されています。まず、生成器 (generator) が似たようなデータしか出力しなくなるという、モード崩壊 (mode collapse) と呼ばれる現象が起きやすいことがよく知られています [3]。モード崩壊は、最適化の用語でいえば、モデルパラメータが悪い局所解にはまっている状態であるといえます。また、より悪い状況として、モデルパラメータがいずれの局所解にも収束せず、発散してしまうことがしばしばあります。さらに、Jensen–Shannonダイバージェンスに基づく標準的なGANでは、勾配消失現象が原理的に起きやすいことが指摘されています [4]。もしも、このような多様な不安定性をすべて克服した究極のアルゴリズムを作ることができれば、それこそを安定なGANと呼んでもちろん差し支えないのですが、2019年現在、その試みはまだ発展途上にあります。

GANの代表的な安定化テクニックをいくつか挙げます。Wasserstein GAN [5] は、損失関数としてWasserstein距離を利用することにより、前述のJensen–Shannonダイバージェンスでみられる勾配消失現象を克服すべく提案されました。Wasserstein GANの実装では、識別器のリプシッツ制約 (=勾配ノルムの制約) が本質的になります。このアイデアに基づき、spectral normalization [6] およびgradient penalty [7] と呼ばれる正則化法が提案されています。とくに、spectral normalization は今日のGANにおけるデファクトスタンダードな要素技術となっており、ImageNetデータセット上での生成を実質的に初めて成功させ [6]、上述のBigGAN [2] でも利用されています。なお、spectral normalization は弊社リサーチャーの宮戸らが提案した技術です。

一方、解明されていない点も数多くあります。例えば、Wasserstein GANの実装においては、spectral normalization を単体で使わずに、gradient penalty [7] を合わせて利用することが安定化に繋がるという経験則が (少なくともGANの専門家のあいだでは) 知られていました [8]。このことは、spectral normalization と gradient penalty という、本来は識別器のリプシッツ制約という共通の目的のもとに提案されたはずの2つの手法が、実は独立な役割を持っていたのではないか、ということを示唆しています。

本論文の貢献

以下では、ICLR2020で発表する論文 (Chu, Minami, Fukumizu) の内容について解説します。本論文では、平滑性 (smoothness) という性質に着目することで、代表的なGANの損失関数がもつ安定性、ならびに、各種の正則化手法が与える効果について理論解析を行いました。

我々の理論解析は、「勾配法に基づくGANの学習が、(ある理想的な状況のもとで) 停留点に収束することを保証できるか」という問いに答えるものです。GANの学習は、ある種の連続最適化アルゴリズムと見なせます。連続最適化における究極の目標は

  • 大域的最適解に到達すること

であり、次善の目標として

  • 局所最適解に収束すること、または 
  • 停留点 (勾配が0の点) に収束すること

が続きます。このように表現すると、停留点への収束解析というのは、保守的な目標設定であるように感じられます。しかし、裏を返せば、GANの設定では、アルゴリズムの出力がいずれかの点に収束するということさえ、保証する理論が全くないのが現状です。

貢献1: GANのなめらかさを調べる

連続最適化の理論において、様々なアルゴリズムの収束保証にかかわる重要な性質のひとつに平滑性という条件があります (*1)。例えば、勾配降下法 (gradient descent) が停留点に収束するためには、目的関数が平滑であることが十分条件となっています。そこで、今回は「GANの目的関数は平滑であるか?」という問いについて考えてみます。

GANの目的関数とは、どのように特徴づけられるものでしょうか? GANの学習は、生成器と識別器という2つの関数が、同一の目的関数に対してそれぞれ最小化と最大化を行うゲーム (min-maxゲーム) として定式化されています。ここで仮に、識別器が常に最適解を返すという前提をおくと、GANはデータと生成器のあいだのダイバージェンスを最小化するアルゴリズムであると解釈することができます。この視点によれば、例えば [1] で提案されたオリジナルのGAN (いわゆるminimax GAN) はJensen–Shannonダイバージェンスに基づくGAN、Wasserstein GAN [5] は1-Wasserstein距離に基づくGANということになります。また、GANにおける全体の目的関数は、生成器に対するパラメトリゼーション (=モデルパラメータを受け取って確率分布を返す関数) と、確率測度間のダイバージェンス (=確率分布を受け取って実数を返す関数) とを合成して得られる関数とみなすことができます。

我々はまず、ダイバージェンス最小化に基づく一般化されたGANの目的関数が平滑であるための十分条件を導出しました。我々の理論では、平滑性を保証するためには、「1次の滑らかさ」「2次の滑らかさA」「2次の滑らかさB」というべき3つの条件を調べればよいことがわかります。特に、典型的なGANの損失についてこれらの条件を調べてみると、次のような結果になります。

  1. Minimax GAN [1] は、1次の滑らかさ条件を満たさないため、目的関数全体として平滑になる保証がない。
  2. Wasserstein GAN [5] は、1次の滑らかさ条件を満たすが、2次の滑らかさ条件を満たさないため、やはり平滑になる保証がない。
  3. Maximum Mean Discrepancy (MMD) を損失とした手法は、滑らかさの条件をすべて満たすので、アルゴリズムの安定性を保証できる場合がある。(*2)

したがって、平滑性の観点からは、(MMDを除いて) 典型的なGANの損失関数が安定な学習を導く保証はないということがわかります。

貢献2: GANをなめらかにする

そこで、次に考えるべきことは、正則化によって平滑性を保証できるかどうかです。これについては、おおよそ次のような結果が得られました。

  1. 識別器に対するリプシッツ制約によって、損失関数の最適解を変えないまま「1次の滑らかさ」を導入することができる。実装上は、spectral nornalizationに対応している。
  2. 識別器を滑らかなものに制約することによって、損失関数の最適解を変えないまま「2次の滑らかさA」を導入することができる。実装上は、活性化関数の選択およびspectral nornalizationに対応している。
  3. RKHSノルムによる正則化項を加えることによって、損失関数の最適解を変えないまま、「2次の滑らかさB」を導入することができる。実装上は、gradient penaltyを課すことが2次の滑らかさBに近似的に対応している。

この理論的な結果は、「GANにおいてspectral normalizationとgradient penaltyの役割は独立であり、それぞれ異なる種類の滑らかさ (安定性) 条件に寄与する」という実用的なメッセージを支持しています(つまり、どちらか一方ではなく、両方同時に使うのがよいということ)。前述のとおり、このことは専門家の間で知られていた経験則とも合致しています。

ちなみに、本論文の個人的に気に入っている点は、理論の背後にある数学も面白いということです。まず、上記の結果は、確率測度のなす無限次元空間上の凸解析の枠組み [9] を利用して得られました。特に、ダイバージェンスは生成器の空間 (確率測度の空間) 上の関数であり、その凸共役として識別器の空間 (関数空間) 上の最適化問題が現れるため、結果としてmin-maxゲームの設定が復元します。さらに、識別器に対する正則化は、双対をとって生成器の言葉に変換すると inf-convolution と呼ばれる操作に対応しており、これを使って本論文の全ての結果を統一的に説明することができます。例えば、1次の滑らかさ条件は、任意のダイバージェンスにWasserstein距離を inf-convolution することで得られ、双対の世界で考えればspectral normalizationとしての実装が自然に見えてきます。また、2次の滑らかさ条件は、MMDの2乗をinf-convolutionすることで得られ、双対の世界ではgradient penaltyのような正則化が得られます。

おわりに

本研究は全てPFN夏季インターン期間中に行われた成果です。インターン生との日々の議論では、凸解析、カーネル法、最適輸送など、各自が色々な数学を持ち寄って理論解析と執筆が進んでいき、メンターとしても知的に充実した時間を過ごすことができました。インターンの成果物がここまで数学的な内容になったのはなんとも貴重な経験でしたが、今回無事にトップ会議に通すことができ、とても嬉しく思います。

今回の論文の主著者のCasey Chuさんからも、2019年PFN夏季インターンについて下記のコメントをいただきました。

The PFN summer internship was the perfect environment to pursue research. I was able to take advantage of Fukumizu-sensei and Minami-san’s expertise, as well as the expertise of the rest of team members. The program gave me the flexibility to pursue a really interesting topic that I was excited to work on every day, all while living in the action-packed city of Tokyo. (Casey Chu, PFN summer intern 2019)

さて、PFNでは毎年夏季インターンを実施しており、今年 (2020年) も国内外から募集を行う予定です。

  • まずは一足先に、海外インターン生の募集を開始しています。 こちらのリンクで研究テーマを公開していますので、現在日本国外の大学に所属している、またはすでに卒業された方で、我こそは! と感じた方はぜひご応募ください。
  • また、例年のとおり、日本国内の学生を対象としたインターンも募集します。こちらの募集要項は今春以降に公開する予定ですので、ぜひご応募ください。

 

脚注

(*1) 平滑性とは、正確にいうと、目的関数の勾配がリプシッツ連続であるという条件です。
(*2) しかし、MMD損失は滑らかさを決定する定数の次元に関する依存性が悪い場合があります。詳細は論文を参照してください。

参考文献

[1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), 2014.
[2] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. In International Conference on Learning Representations (ICLR), 2019.
[3] Ian Goodfellow. NIPS 2016 Tutorial: Generative Adversarial Networks. https://arxiv.org/abs/1701.00160
[4] Martin Arjovsky and Leon Bottou. Towards principled methods for training generative adversarial networks. In International Conference on Learning Representations (ICLR), 2017.
[5] Martin Arjovsky, Soumith Chintala, and Leon Bottou. Wasserstein generative adversarial networks. In International Conference on Machine Learning (ICML), 2017.
[6] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. In International Conference on Learning Representations (ICLR), 2018.
[7] Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron C Courville. Improved training of Wasserstein GANs. In Advances in Neural Information Processing Systems (NIPS), 2017.
[8] https://github.com/pfnet-research/sngan_projection/issues/15
[9] Casey Chu, Jose Blanchet, and Peter Glynn. Probability functional descent: A unifying perspective on GANs, variational inference, and reinforcement learning. In International Conference on Machine Learning (ICML), 2019.

  • Twitter
  • Facebook