[Geometric-matching CNN] Convolutional neural network architecture for geometric matching #36

Yagami360 · 2019-10-20T04:39:21Z

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1703.05593
公開日時：2017/03/16
被引用数（記事作成時点）：116 件
実装コード：https://github.com/ignacio-rocco/cnngeometric_pytorch
解説動画 : https://www.youtube.com/watch?v=tgeD_Vqzx38

1. どんなもの？

２つの画像間の位置合わせを行う geometric matching における標準的なパイプラインである "feature extraction", "feature matching"、"model parameter estimation" の３つのステップを、Geometric-matching CNN と呼ばれる end-to-end に学習可能な CNN ベースのアーキテクチャで模倣することで、大きな幾何学的変化をともなる geometric matching を実現している。

2. 先行研究と比べてどこがすごいの？

従来の geometric matching 手法では、見た目が大きくことなる画像間での変形といった大きな幾何学的変化をともなる変換タスクでは、うまく変換を行えないという問題があった。
本手法では、Geometric-matching CNN と呼ばれる end-to-end に学習可能な CNN ベースのアーキテクチャで、このような大きな幾何学的変化をともなる変換タスクでも、ある程度うまく変換することを実現している。

3. 技術や手法の"キモ"はどこにある？

Geometric-matching CNN の全体像

Geometric-matching CNN のアーキテクチャは、従来の geometric matching における標準的なパイプラインである "feature extraction", "feature matching"、"model parameter estimation" の３つのステップを模倣している。
① feature extraction : Siamese Network に２つの画像 I_A, I_B を入力し、特徴マップを出力する。
② feature matching : ２つの特徴マップから、２つの画像の類似度を表す特徴マップを出力する。
③ model parameter estimation : 画像の類似度から、画像の変形パラメーター θ を出力する。
- 【補足】 Siamese Network（シャムネットワーク）
  ２つの CNN で、２つの画像が似ているか似ていないかの距離を学習するネットワーク。
feature extraction

feature extraction のネットワーク構成は、２つの画像 I_A, I_B から特徴を抽出するために、Siamese Network のように互いにパラメーターを共有する ImageNet で事前学習された２つの VGG-16 で構成されている。
VGG-16 の pool4 層が出力した特徴マップに対して、特徴ベクトル毎に L2正則化を行う。
feature matching

feature matching では、feature extraction によって抽出された２つの画像の特徴マップを、１つのテンソルに変換して、後段の model parameter estimation に出力する。

まず、feature matching の最初の層は、上図のような correlation layer で構成される。
この correlation layer では、２つの画像の特徴マップの全ての特徴ベクトルに対して、以下の式に従って、それらの内積を計算することで、互いの類似性を表す correlation map を出力する。

次に、画像の一致性があいまいなもの（ambiguous matches）は、強く抑制するといったことを可能にするために、前段の correlation layer が出力した２つの画像の特徴マップの類似度を表す correlation map に対して、まず Relu で負の相関値を０にして、その後 L2 正則化でチャンネル単位での正規化を行う。
※ L2 正則化でチャンネル単位での正規化を行うことで、nearest neighbor のように、ピクセル i,j での correlation map の値がどれも同じような値であれば値が丸め込まれ、逆にの値が１つでも突出して大きければ全体としての値も大きくなる効果がある。
model parameter estimation

model parameter estimation では、feature matching で生成した correlation map を入力として、上図のようなアーキテクチャで幾何学的変換モデルのパラメーター θ を出力する。
※ ここでいう幾何学的変換モデルとは、例えば、アフィン変換や TPS 変換などの幾何学的変換を行うモデルのことであり、モデルのパラメーター θ とは、例えばアフィン変換では、スケール項・バイナリ項のことを指す。
Hierarchy of transformations

image-to-image 変換のタスクにおいては、簡単な変換から初めて徐々に複雑な変換に段階的に処理を行うことによって、処理の効率化や品質の向上を実現している手法が存在する。
本手法でも、このような段階的なアプローチによる geometric matching を採用している。

具体的には、上図のようなアーキテクチャで以下のような処理を行う。
①（model parameter estimation の幾何学的変換モデルとして）アフィン変換を採用したモデルで学習したネットワークと、TPS 変換を採用したモデルで学習した別のネットワークを用意する。
② アフィン変換を採用したネットワークで、入力画像 I_A をアフィン変換する。
③ アフィン変換後の I_A と別の元の入力画像と I_B を、TPS 変換を採用したネットワークで TPS 変換する。
これにより、先にアフィン変換で大まかな形状変換を行い、次に TPS 変換で細かい形状変換を行うということを実現している。
損失関数
本手法では幾何学的変換モデルのパラメーター θ を推定するネットワークとなっているので、
損失関数は、パラメーター θ に関して損失関数 L を最小化する（=∂L/∂θ=0）ように設計される。

更に、本手法の幾何学的変換モデルには、アフィン変換や TPS 変換などの様々な幾何学的変換モデルが採用できるので、（そのメリットを享受するためにも）損失関数の定義は、各々の幾何学的変換モデルのパラメーター θ の種類に固有のものとするのではなく、様々な種類の幾何学的変換モデルを一般的で包括的に扱うことが可能な損失関数で定義したいという動機がある。

こうような要件を実現するために本手法では、以下の式のように、画像上の仮想的なグリッド点 g に対して、推論したパラメーター θ ̂ でのネットワークによる変換後のグリッド点と、教師信号パラメーター θ_GT でのネットワークによる変換後のグリッド点との差の最小２乗誤差で損失関数を定義する。
Synthetic image generation

学習したネットワークと幾何学的変換モデルのパラメーター θ で、入力画像 I_A から変形した画像 I_B が生成できるが、この際の３つのペアを教師データとして採用することで、人手によりアノテーションを行うことなくデータオーギュメンションを行う。
※ 但し、入力画像 I_A には、境界上の不要なアーティファクトを除外するために、上図赤枠のように画像の境界にパディング処理を行う。

4. どうやって有効だと検証した？

本手法での geometric matching の品質を、アフィン変換のみ・アフィン変換＋TPS変換の比較で、定性的に検証している。（ImagA の matching 点：✕、Image B の matching 点：○）
xxx

5. 議論はあるか？

xxx

6. 次に読むべき論文はあるか？

xxx

7. 参考文献

Geometric-matching CNN : Deep Learning による画像の位置合わせ

Yagami360 added computer vison image-to-image CNN labels Oct 20, 2019

Yagami360 changed the title ~~<In progress> Convolutional neural network architecture for geometric matching~~ Convolutional neural network architecture for geometric matching Oct 21, 2019

Yagami360 mentioned this issue Oct 21, 2019

[Soft-Gated Warping-GAN] Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis #35

Open

Yagami360 changed the title ~~Convolutional neural network architecture for geometric matching~~ [Geometric-matching CNN] Convolutional neural network architecture for geometric matching Oct 22, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Geometric-matching CNN] Convolutional neural network architecture for geometric matching #36

[Geometric-matching CNN] Convolutional neural network architecture for geometric matching #36

Yagami360 commented Oct 20, 2019 •

edited

Loading

[Geometric-matching CNN] Convolutional neural network architecture for geometric matching #36

[Geometric-matching CNN] Convolutional neural network architecture for geometric matching #36

Comments

Yagami360 commented Oct 20, 2019 • edited Loading

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献

Yagami360 commented Oct 20, 2019 •

edited

Loading