You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
このような問題を解決するために、本論文では、上図のようなセグメンテーションラベルのアノテーションと keypoints アノテーションの両方を含む LIP [Look into Person] データセットを提供している。
LIP [Look into Person] データセット
データセットの概要
データセットのサンプル
データセットのラベル構成
データセットの多様性
JPPNet [joint human parsing and pose estimation network]
上図は、JPPNet [joint human parsing and pose estimation network] のアーキテクチャの全体像を示した図である。
このネットワークは、以下の3つの主要なネットワークから構成され、end2end で学習される。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
本論文では、これらの多様性を解決した、人物パースモデルや姿勢推定モデル用の多様で大規模なデータセットである LIP [Look into Person] データセットを提供している
そのため本論文では、マルチスケールでの特徴量を取り込んだ人物パースネットワークと姿勢推定ネットワークの end2end な共同ネットワークである JPPNet を提案し、人物パース画像の品質を大きく向上させている
3. 技術や手法の"キモ"はどこにある?
既存のデータセット
人物パースモデルや姿勢推定モデルの学習用データセットとしては、以下のような要件を満たす多様で大規模なデータセットが望ましい。
しかしながら既存のデータセットは上図のようなデータセットであり、それぞれ限定的な状況下でのデータセットになってしまっている。
また最近の人物パースモデルの研究により、上図のように、人体構造の情報(keypoints)を与えることで人物パース画像の品質が向上することがわかっている。
従って人物パース画モデル用データセットとしては、単にセグメンテーションアノテーションだけでなく、keypoints もアノテーションされたデータセットが望ましい。
LIP [Look into Person] データセット
データセットの概要

データセットのサンプル

データセットのラベル構成

データセットの多様性

JPPNet [joint human parsing and pose estimation network]

上図は、JPPNet [joint human parsing and pose estimation network] のアーキテクチャの全体像を示した図である。
このネットワークは、以下の3つの主要なネットワークから構成され、end2end で学習される。
atrous convolution による畳み込み処理

本ネットワークの各 conv は、通常の畳み込みではなく atrous convolution が採用されている。
Atrous convolution は、DeepLab v3 でも採用されている畳み込み処理で、畳み込みフィルタの field-of-view を調整可能とすることで、より広い範囲の特徴量を取り込むことを可能にした畳み込み処理である。
この Atrous convolution 以下の式のように定式化される。
人物パース画像を生成するためのネットワーク

人物パース画像を生成するためのネットワークは、出力層に Atrous Spatial Pyramid Pooling [ASPP] の構造をもつ。
この ASPP は、DeepLab v3 でも採用されている処理で、下図のように、各 Atrous convolution からの異なる範囲での特徴マップを取り込み、複数スケールからの特徴量を抽出する。
また人物パース画像を生成するためのネットワークは、後段の refinement network にデータを渡すための2つの畳み込み層をもっている。
keypoints ヒートマップ画像を生成するためのネットワーク

keypoints を生成するためのネットワークでは、ASPP を採用せず、3x3 の畳み込み層を複数追加するだけで十分な姿勢ヒートマップを生成できる。
refinement network

refinement network は、上記2つのネットワークで生成した人物パース画像と keypoint をより洗練するための ネットワークになっており、Parsing refinement と Pose refinement の2つの独立構造を持つ
この Parsing refinement での基本的な流れは、以下のようになる。
※ Pose refinement 似関しては、基本的な流れは同じ(但しASPPはなし)
【補足】stacked hourglass network

DNN による姿勢推定モデルのいくつかで採用されているネットワークで、上図のように砂時計のような構造をしている。このような構造にすることで画像全体に渡っての情報を伝搬できるようにしている
SS-JPPNet [self-supervised structure-sensitive JPPNet]

本手法では、keypoints のアノテーションを必要とすることなく、自身で生成しながら学習を行うことの出来る? JPPNet である SS-JPPNet も提案している
※ ここの理解間違っている可能性大
Self-supervised Structure-sensitive Loss

SS-JPPNet は、以下の式で定義される Self-supervised Structure-sensitive Loss で学習を行うことで、keypoints のアノテーションを必要とすることなく、自身で生成 [Self-supervised] しながら学習を行うことの出来る。
4. どうやって有効だと検証した?
既存のセグメンテーションモデルとの定量比較

JPPNet, SS-JPPNet では既存のセグメンテーションモデルと比較して、IoU スコアが大きく向上しており、人物パース画像品質が向上していることが見て取れる。
既存のセグメンテーションモデルとの定性比較

既存のセグメンテーションモデルと比較して、JPPNet, SS-JPPNet での人物パース画像の品質が大きく向上していることが見て取れる
姿勢推定の定量比較

姿勢推定の定性比較

5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献
The text was updated successfully, but these errors were encountered: