We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
CE2P [Context Embedding with Edge Perceiving] のアーキテクチャ全体像 上図は、本手法が提案している CE2P [Context Embedding with Edge Perceiving] ネットワークのアーキテクチャ全体像を示した図である。 本ネットワークは、以下の3つの主要ネットワークから構成され、end2end に学習される。
1. Context Embedding Module 人物画像の大域的な特徴量(コンテキスト)を捉えるためのネットワーク 2. High-resolution Embedding Module 局所的なピクセルレベルでの特徴量を回復するためのネットワーク 3. Edge Perceiving Module 人物の輪郭情報を学習して、人物パース画像における輪郭を更に洗練させるためのネットワーク
特徴抽出を行うための conv 層としては、ResNet-101 を採用している。
Context Embedding Module セグメンテーションタスクにおいては、画像の大域的な情報(コンテキスト)を捉えることが重要になる。 本手法では、PSPNet のように、上図のようなピラミッド構造をもつ Context Embedding Module にて画像の大域的な情報(コンテキスト)を捉える。 具体的には、1x1 conv + 2x2 conv + 3x3 conv + 4x4 conv で複数スケールでの特徴マップを出力し、それらを bilinear interpolation で元の入力画像の解像度までアップサンプリングする。 その後、1x1 conv で特徴マップのチャンネル数を減らして情報を統合し、後段の High-resolution Embedding Module へ入力する。
High-resolution Embedding Module セグメンテーションタスクにおいては、画像の局所的な情報を維持することも重要になる。 本手法では、他の一般的なセグメンテーションタスクで行われているように、ピクセル単位の局所的な情報が失われていない入力画像側の conv2 からの特徴マップを、先のContext Embedding Module からの特徴マップに統合することでこれを実現する。
Edge Perceiving Module Edge Perceiving Module では、人物の輪郭情報を学習して、人物パース画像における輪郭を更に洗練させる。 具体的には、入力画像側の conv2, conv3, conv4 からの特徴マップに対して、1x1 conv を行い、辺とそれ以外の2値のエッジマスク画像(3チャンネル)を生成する。更にそのエッジマスクに対して、1x1 conv を行い、1つのチャンネル数に統合する。 最後に、このエッジマスク画像を元の解像度までアップサンプリングし、High-resolution Embedding Module からの出力に統合する。
損失関数 これら3つのネットワークは、以下の損失関数で、end2end に学習される。
複数人の人物パース(MHP : Multiple Human Parsing) 複数人の人物パースタスクは、別々の人物を別インスタンスとして区別しなくてはいけないので、より困難なタスクである。 (言い換えると、インスタンスセグメンテーションタスクになる)
本手法では、複数人での人物パースタスクに対応するために、インスタンスセグメンテーションモデルである Mask-RCNN を CE2P に取り入れたモデル M-CE2P を提案している。(上図参照) このネットワークは、新たに、以下3つのネットワークをもつ
Global Parsing : B_g 入力画像全体を CE2P で学習するためのネットワーク
Local Parsing with Predicted Instance Masks : B_(l_1) Mask R-CNN で抽出された各人物画像に対して、CE2P を学習するためのネットワーク
Local Parsing with Ground-truth Instance Masks : B_(l_2) Mask R-CNN で抽出されたデータのうち、人物画像ではなくて正解人物パース画像から得られるデータを用いて CE2P を学習するためのネットワーク?
既存のモデルとの人物パース画像の品質の定量比較 LIPs dataset での人物パースタスクで SOTA を達成していることが見て取れる。
失敗ケース
複数人パース画像での定性品質
The text was updated successfully, but these errors were encountered:
No branches or pull requests
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
本手法では、このような一般的なセグメンテーションモデルでの各種工夫(の一部)を、人物パースモデルにも取り入れた CE2P ネットワークを提案し、人物パース画像の品質を高めている。
3. 技術や手法の"キモ"はどこにある?
CE2P [Context Embedding with Edge Perceiving] のアーキテクチャ全体像

上図は、本手法が提案している CE2P [Context Embedding with Edge Perceiving] ネットワークのアーキテクチャ全体像を示した図である。
本ネットワークは、以下の3つの主要ネットワークから構成され、end2end に学習される。
特徴抽出を行うための conv 層としては、ResNet-101 を採用している。
Context Embedding Module

セグメンテーションタスクにおいては、画像の大域的な情報(コンテキスト)を捉えることが重要になる。
本手法では、PSPNet のように、上図のようなピラミッド構造をもつ Context Embedding Module にて画像の大域的な情報(コンテキスト)を捉える。
具体的には、1x1 conv + 2x2 conv + 3x3 conv + 4x4 conv で複数スケールでの特徴マップを出力し、それらを bilinear interpolation で元の入力画像の解像度までアップサンプリングする。
その後、1x1 conv で特徴マップのチャンネル数を減らして情報を統合し、後段の High-resolution Embedding Module へ入力する。
High-resolution Embedding Module

セグメンテーションタスクにおいては、画像の局所的な情報を維持することも重要になる。
本手法では、他の一般的なセグメンテーションタスクで行われているように、ピクセル単位の局所的な情報が失われていない入力画像側の conv2 からの特徴マップを、先のContext Embedding Module からの特徴マップに統合することでこれを実現する。
Edge Perceiving Module

Edge Perceiving Module では、人物の輪郭情報を学習して、人物パース画像における輪郭を更に洗練させる。
具体的には、入力画像側の conv2, conv3, conv4 からの特徴マップに対して、1x1 conv を行い、辺とそれ以外の2値のエッジマスク画像(3チャンネル)を生成する。更にそのエッジマスクに対して、1x1 conv を行い、1つのチャンネル数に統合する。
最後に、このエッジマスク画像を元の解像度までアップサンプリングし、High-resolution Embedding Module からの出力に統合する。
損失関数

これら3つのネットワークは、以下の損失関数で、end2end に学習される。
複数人の人物パース(MHP : Multiple Human Parsing)

複数人の人物パースタスクは、別々の人物を別インスタンスとして区別しなくてはいけないので、より困難なタスクである。
(言い換えると、インスタンスセグメンテーションタスクになる)
本手法では、複数人での人物パースタスクに対応するために、インスタンスセグメンテーションモデルである Mask-RCNN を CE2P に取り入れたモデル M-CE2P を提案している。(上図参照)
このネットワークは、新たに、以下3つのネットワークをもつ
Global Parsing : B_g
入力画像全体を CE2P で学習するためのネットワーク
Local Parsing with Predicted Instance Masks : B_(l_1)
Mask R-CNN で抽出された各人物画像に対して、CE2P を学習するためのネットワーク
Local Parsing with Ground-truth Instance Masks : B_(l_2)
Mask R-CNN で抽出されたデータのうち、人物画像ではなくて正解人物パース画像から得られるデータを用いて CE2P を学習するためのネットワーク?
4. どうやって有効だと検証した?
既存のモデルとの人物パース画像の品質の定量比較

LIPs dataset での人物パースタスクで SOTA を達成していることが見て取れる。
失敗ケース

複数人パース画像での定性品質

5. 議論はあるか?
人物の輪郭情報を学習して人物パース画像における輪郭を洗練させるネットワーク(Edge Perceiving Module)は、一般的なセグメンテーションモデルでは見られないモジュールであり新規性を感じる。
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: