You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Yagami360
changed the title
<In progress> Convolutional neural network architecture for geometric matching
Convolutional neural network architecture for geometric matching
Oct 21, 2019
Yagami360
changed the title
Convolutional neural network architecture for geometric matching
[Geometric-matching CNN] Convolutional neural network architecture for geometric matching
Oct 22, 2019
0. 論文情報・リンク
1. どんなもの?
2つの画像間の位置合わせを行う geometric matching における標準的なパイプラインである "feature extraction", "feature matching"、"model parameter estimation" の3つのステップを、Geometric-matching CNN と呼ばれる end-to-end に学習可能な CNN ベースのアーキテクチャで模倣することで、大きな幾何学的変化をともなる geometric matching を実現している。
2. 先行研究と比べてどこがすごいの?
本手法では、Geometric-matching CNN と呼ばれる end-to-end に学習可能な CNN ベースのアーキテクチャで、このような大きな幾何学的変化をともなる変換タスクでも、ある程度うまく変換することを実現している。
3. 技術や手法の"キモ"はどこにある?
Geometric-matching CNN の全体像

を出力する。
を出力する。
から、画像の変形パラメーター θ を出力する。
Geometric-matching CNN のアーキテクチャは、従来の geometric matching における標準的なパイプラインである "feature extraction", "feature matching"、"model parameter estimation" の3つのステップを模倣している。
① feature extraction : Siamese Network に2つの画像 I_A, I_B を入力し、特徴マップ
② feature matching : 2つの特徴マップから、2つの画像の類似度を表す特徴マップ
③ model parameter estimation : 画像の類似度
2つの CNN で、2つの画像が似ているか似ていないかの距離を学習するネットワーク。
feature extraction

feature extraction のネットワーク構成は、2つの画像 I_A, I_B から特徴を抽出するために、Siamese Network のように互いにパラメーターを共有する ImageNet で事前学習された 2つの VGG-16 で構成されている。
VGG-16 の pool4 層が出力した特徴マップに対して、特徴ベクトル毎に L2正則化を行う。
feature matching

を、1つのテンソル
に変換して、後段の model parameter estimation に出力する。
feature matching では、feature extraction によって抽出された2つの画像の特徴マップ
まず、feature matching の最初の層は、上図のような correlation layer で構成される。
の全ての特徴ベクトルに対して、以下の式に従って、それらの内積を計算することで、互いの類似性を表す correlation map を出力する。
この correlation layer では、2つの画像の特徴マップ
次に、画像の一致性があいまいなもの(ambiguous matches)は、強く抑制するといったことを可能にするために、前段の correlation layer が出力した2つの画像の特徴マップの類似度を表す correlation map に対して、まず Relu で負の相関値を0にして、その後 L2 正則化でチャンネル単位での正規化を行う。
の値がどれも同じような値であれば値が丸め込まれ、逆に
の値が1つでも突出して大きければ全体としての値も大きくなる効果がある。
※ L2 正則化でチャンネル単位での正規化を行うことで、nearest neighbor のように、ピクセル i,j での correlation map
model parameter estimation

model parameter estimation では、feature matching で生成した correlation map を入力として、上図のようなアーキテクチャで幾何学的変換モデルのパラメーター θ を出力する。
※ ここでいう幾何学的変換モデルとは、例えば、アフィン変換や TPS 変換などの幾何学的変換を行うモデルのことであり、モデルのパラメーター θ とは、例えばアフィン変換では、スケール項・バイナリ項のことを指す。
Hierarchy of transformations

image-to-image 変換のタスクにおいては、簡単な変換から初めて徐々に複雑な変換に段階的に処理を行うことによって、処理の効率化や品質の向上を実現している手法が存在する。
本手法でも、このような段階的なアプローチによる geometric matching を採用している。
具体的には、上図のようなアーキテクチャで以下のような処理を行う。
①(model parameter estimation の幾何学的変換モデルとして)アフィン変換を採用したモデルで学習したネットワークと、TPS 変換を採用したモデルで学習した別のネットワークを用意する。
② アフィン変換を採用したネットワークで、入力画像 I_A をアフィン変換する。
③ アフィン変換後の I_A と別の元の入力画像と I_B を、TPS 変換を採用したネットワークで TPS 変換する。
これにより、先にアフィン変換で大まかな形状変換を行い、次に TPS 変換で細かい形状変換を行うということを実現している。
損失関数
本手法では幾何学的変換モデルのパラメーター θ を推定するネットワークとなっているので、
損失関数は、パラメーター θ に関して損失関数 L を最小化する(=∂L/∂θ=0)ように設計される。
更に、本手法の幾何学的変換モデルには、アフィン変換や TPS 変換などの様々な幾何学的変換モデルが採用できるので、(そのメリットを享受するためにも)損失関数の定義は、各々の幾何学的変換モデルのパラメーター θ の種類に固有のものとするのではなく、様々な種類の幾何学的変換モデルを一般的で包括的に扱うことが可能な損失関数で定義したいという動機がある。
こうような要件を実現するために本手法では、以下の式のように、画像上の仮想的なグリッド点 g に対して、推論したパラメーター θ ̂ でのネットワークによる変換後のグリッド点
と、教師信号パラメーター θ_GT でのネットワークによる変換後のグリッド点
との差の最小2乗誤差で損失関数を定義する。

Synthetic image generation

を教師データとして採用することで、人手によりアノテーションを行うことなくデータオーギュメンションを行う。
学習したネットワークと幾何学的変換モデルのパラメーター θ で、入力画像 I_A から変形した画像 I_B が生成できるが、この際の3つのペア
※ 但し、入力画像 I_A には、境界上の不要なアーティファクトを除外するために、上図赤枠のように画像の境界にパディング処理を行う。
4. どうやって有効だと検証した?
本手法での geometric matching の品質を、アフィン変換のみ・アフィン変換+TPS変換の比較で、定性的に検証している。(ImagA の matching 点:✕、Image B の matching 点:○)

xxx
![]()
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: