You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
画像 encoder (pSp encoder) のバックボーンネットワークは、顔認識用に事前学習された ResNet-IR を用いている。
※ ResNet-IR : 論文「Arcface:Additive angular margin loss for deep face recognition」参照
0. 論文情報・リンク
実装コード(<非公式>PyTorch):https://github.com/adldotori/pSp1. どんなもの?
2. 先行研究と比べてどこがすごいの?
そのため StyleGAN の後発モデルでは、入力画像を潜在空間に encode することで StyleGAN を image-to-image の用途で扱えるようにしたモデルが提案されている。
これらのモデルにおいては、StyleGAN の 512 次元の潜在空間 W に入力画像を適切に encode することが困難であるので、18 個の異なる 512 次元の拡張潜在空間 W+ に encode する方法が広く採用されている。
しかしながらこのような方法でも、学習用データと推論用データのドメインギャップがある場合などで、入力画像を適切な拡張潜在空間 W+ に encode することが依然として困難であり、その結果として生成画像の品質にも問題が生じる。
本手法では、入力顔画像を StyleGAN の拡張潜在空間 W+ に適切に encode 可能なピラミッド構造型ネットワークを用いることで、StyleGAN を活用した品質の高い image-to-image 顔画像生成を実現している。
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像と StyleGAN 拡張潜在空間への encode 処理

上図は、本手法のアーキテクチャ Pixel2Style2Pixel (pSp) の全体像を示した図である。
入力画像を StyleGAN の拡張潜在空間 W+ に encode するための最も単純な方法は、encoder の最終層から出力を直接拡張潜在空間 W+ に encode する方法であるが、この方法では適切に enocode 出来ないことが分かっている。
そのため本手法では、論文「Feature pyramid networks for object detection」のようなピラミッド構造型ネットワークにおける各 decoder 層からの3つの特徴マップを map2style ネットワークに入力し 18 個のstyle(潜在変数)に変換した上で、それら各 style を StyleGAN の3つの{低解像度スケール層(4×4
8×8)、中解像度スケール層(16×1632×32)、高解像度スケール層(64×64~1024×1024)}それぞれに入力するようにする。ピラミッド構造ネットワークの各 decoder 層が StyleGAN の3つの解像度スケールと対応している点がポイントである。
画像 encoder (pSp encoder) のバックボーンネットワークは、顔認識用に事前学習された ResNet-IR を用いている。
※ ResNet-IR : 論文「Arcface:Additive angular margin loss for deep face recognition」参照
StyleGAN のネットワークは、FFHQ データセットで事前学習された StyleGAN2 のネットワークを用いている。
※ StyleGAN2 のネットワークは推論専用で学習を行わない。学習を行うのは、pSp encoder 部分のみ
損失関数

本手法でのネットワーク(入力画像を encode するピラミッド構造型ネットワーク+map2style ネットワーク)は、以下の損失関数で学習される。
StyleGAN ベースの image-to-image モデルの利点
StyleGAN ベースの image-to-image モデルでは、他の一般的な image-to-image モデルと比較して、以下のようなメリットがある。
入力画像と出力画像間のピクセルレベルでの局所的な対応関係ない場合での image-to-image タスク
一般的な image-to-image モデルでは、入力画像と出力画像間のピクセルレベルでの局所的な対応関係がある場合にしかうまく出力画像を生成出来ない傾向がある。(特に UNet やピラミッド構造ネットワークでは、encoder 側の上位層からの特徴マップを decoder 側の上位層に入力しているので、その傾向が強い)
一方で、本手法のような StyleGAN ベースの image-to-image モデルでは、入力画像を StyleGAN の潜在空間へ埋め込みを行うので、入力画像と出力画像間のピクセルレベルでの局所的な対応関係がない場合にも、(原理的には)出力画像を生成出来るモデルになっている。
Style Mixing を活用したマルチモーダルな画像生成
StyleGAN では、3つの生成器層{低解像度スケール層(4×4
8×8)、中解像度スケール層(16×1632×32)、高解像度スケール層(64×64~1024×1024)}に対して、入力する潜在変数を切り替える Style Mixing という操作により、画像詳細の局所的な画像変換処理と画像全体の大域的な画像変換処理を切り分けながら制御出来る。本手法では上図のように、Style Mixing のための潜在変数を、入力画像から encode された潜在変数とランダムサンプリングされた潜在変数とに切り分けることで、1つの入力画像から、大域的には類似した特徴を持ちながら局所的な特徴に関しては変化した複数の生成画像をマルチモーダルに出力することが可能になっている。
4. どうやって有効だと検証した?
既存の StyleGAN を利用した image-to-image モデルとの定性的品質比較検証

本手法と同タイプの既存の StyleGAN を利用した image-to-image モデル(ALAE, IDInvert)と比較して、本手法での生成画像は人物同一性をよく保持している。
Ablation study での定性的品質検証

生成画像の品質(人物同一性など)は、 W<W+<pSP になっている
既存の image-to-image モデルとの定性的品質比較

StyleGAN を活用していない他の一般的な image-to-image モデル(pix2pixHDなど)と比較して、本手法での品質が大きく向上している
sketche-to-image タスクでの既存モデルとの定性的品質比較

一般的な image-to-image モデル(pix2pixHDなど)と比較して、本手法での品質が大きく向上している
label-to-image タスクでの既存モデルとの定性的品質比較

一般的な image-to-image モデル(pix2pixHD, SPADE など)と比較して、本手法での品質が大きく向上している
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: