[CE2P] Devil in the Details: Towards Accurate Single and Multiple Human Parsing #72

Yagami360 · 2020-06-29T13:16:17Z

0. 論文情報・リンク

論文リンク：https://www.aaai.org/ojs/index.php/AAAI/article/view/4409
公開日時：2019/07/17
組織 :
被引用数（記事作成時点）：52 件
実装コード：https://github.com/liutinglt/CE2P
Publication :

1. どんなもの？

一般的なセグメンテーションモデルでの工夫（PSPNet のようなピラミッド構造など）を、人物パースモデルにも取り入れた CE2P ネットワークを提案。LIPs dataset での人物パースタスクで当時のSOTA を達成

2. 先行研究と比べてどこがすごいの？

人物パース以外の他の一般的なセグメンテーションモデルでは、画像の局所的な情報を捉えるための工夫（max pooling の除外・decoder で元の画像の情報を加える・scSE blockなど）や大域的な情報を捉えるための工夫（PSPNet のようなピラミッド構造・ASPP など）が行われている。
本手法では、このような一般的なセグメンテーションモデルでの各種工夫（の一部）を、人物パースモデルにも取り入れた CE2P ネットワークを提案し、人物パース画像の品質を高めている。
また、この CE2P にインスタンスセグメンテーションモデルである Mask-RCNN を組み合わせた M-CE2P ネットワークを提案し、複数人での人物パース（MHP）も実現している。
LIPs dataset での人物パースタスクで当時のSOTA を達成

3. 技術や手法の"キモ"はどこにある？

CE2P [Context Embedding with Edge Perceiving] のアーキテクチャ全体像

上図は、本手法が提案している CE2P [Context Embedding with Edge Perceiving] ネットワークのアーキテクチャ全体像を示した図である。
本ネットワークは、以下の３つの主要ネットワークから構成され、end2end に学習される。
```
  1. Context Embedding Module
  人物画像の大域的な特徴量（コンテキスト）を捉えるためのネットワーク
  
  2. High-resolution Embedding Module
  局所的なピクセルレベルでの特徴量を回復するためのネットワーク
  
  3. Edge Perceiving Module
  人物の輪郭情報を学習して、人物パース画像における輪郭を更に洗練させるためのネットワーク
```
特徴抽出を行うための conv 層としては、ResNet-101 を採用している。
Context Embedding Module

セグメンテーションタスクにおいては、画像の大域的な情報（コンテキスト）を捉えることが重要になる。
本手法では、PSPNet のように、上図のようなピラミッド構造をもつ Context Embedding Module にて画像の大域的な情報（コンテキスト）を捉える。
具体的には、1x1 conv + 2x2 conv + 3x3 conv + 4x4 conv で複数スケールでの特徴マップを出力し、それらを bilinear interpolation で元の入力画像の解像度までアップサンプリングする。
その後、1x1 conv で特徴マップのチャンネル数を減らして情報を統合し、後段の High-resolution Embedding Module へ入力する。
High-resolution Embedding Module

セグメンテーションタスクにおいては、画像の局所的な情報を維持することも重要になる。
本手法では、他の一般的なセグメンテーションタスクで行われているように、ピクセル単位の局所的な情報が失われていない入力画像側の conv2 からの特徴マップを、先のContext Embedding Module からの特徴マップに統合することでこれを実現する。
Edge Perceiving Module

Edge Perceiving Module では、人物の輪郭情報を学習して、人物パース画像における輪郭を更に洗練させる。
具体的には、入力画像側の conv2, conv3, conv4 からの特徴マップに対して、1x1 conv を行い、辺とそれ以外の２値のエッジマスク画像（３チャンネル）を生成する。更にそのエッジマスクに対して、1x1 conv を行い、１つのチャンネル数に統合する。
最後に、このエッジマスク画像を元の解像度までアップサンプリングし、High-resolution Embedding Module からの出力に統合する。
損失関数
これら３つのネットワークは、以下の損失関数で、end2end に学習される。
複数人の人物パース（MHP : Multiple Human Parsing）

複数人の人物パースタスクは、別々の人物を別インスタンスとして区別しなくてはいけないので、より困難なタスクである。
（言い換えると、インスタンスセグメンテーションタスクになる）

本手法では、複数人での人物パースタスクに対応するために、インスタンスセグメンテーションモデルである Mask-RCNN を CE2P に取り入れたモデル M-CE2P を提案している。（上図参照）
このネットワークは、新たに、以下３つのネットワークをもつ
1. Global Parsing : B_g
  入力画像全体を CE2P で学習するためのネットワーク
2. Local Parsing with Predicted Instance Masks : B_(l_1)
  Mask R-CNN で抽出された各人物画像に対して、CE2P を学習するためのネットワーク
3. Local Parsing with Ground-truth Instance Masks : B_(l_2)
  Mask R-CNN で抽出されたデータのうち、人物画像ではなくて正解人物パース画像から得られるデータを用いて CE2P を学習するためのネットワーク？

4. どうやって有効だと検証した？

既存のモデルとの人物パース画像の品質の定量比較

LIPs dataset での人物パースタスクで SOTA を達成していることが見て取れる。
失敗ケース
複数人パース画像での定性品質

5. 議論はあるか？

大域的な特徴量を抽出するためのネットワーク（Context Embedding Module）と局所的な特徴量を回復するためのネットワーク（High-resolution Embedding Module）の構成は、一般的なセグメンテーションモデル（PSPNet など）でもよく採用されている構成で、あまり新規性を感じない。
人物の輪郭情報を学習して人物パース画像における輪郭を洗練させるネットワーク（Edge Perceiving Module）は、一般的なセグメンテーションモデルでは見られないモジュールであり新規性を感じる。
Edge Perceiving Module で、輪郭情報を学習して輪郭を洗練させる方法は、他のセグメンテーションモデルでも応用できそう。

6. 次に読むべき論文はあるか？

xxx

7. 参考文献

xxx

The text was updated successfully, but these errors were encountered:

Yagami360 added the semantic segmentation label Jun 29, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[CE2P] Devil in the Details: Towards Accurate Single and Multiple Human Parsing #72

[CE2P] Devil in the Details: Towards Accurate Single and Multiple Human Parsing #72

Yagami360 commented Jun 29, 2020

[CE2P] Devil in the Details: Towards Accurate Single and Multiple Human Parsing #72

[CE2P] Devil in the Details: Towards Accurate Single and Multiple Human Parsing #72

Comments

Yagami360 commented Jun 29, 2020

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献