論文紹介: Cross-Modal Deep Variational Hand Pose Estimation(CVPR2018)

info

Abstract

様々なmodalのデータ(2D Hand Pose, RGB, Depth)から3D Hand Poseを推定する研究。複数のmodalityで一つの潜在空間を共有する状態でVAEの学習を行うことで、違うmodalityのデータから3D Hand Poseを生成できるようなモデルを獲得する。

提案手法

下の画像のまんま。

f:id:horipult:20200210223715p:plain
Figure 2

学習の枠組みはVAEと変わらないが、Encode前のmodalityとDecode後のmodalityが異なる。 (2D Hand Pose, RGB, Depth)のどれかをEncodeし、3D Hand PoseをDecodeしている。 そのため、VAEのlossであるKL-divergence + 再構成後の3D Hand Poseと教師データでのMean Squared Errorを損失関数としている。

VAEについては「Variational Autoencoder徹底解説」のページが非常に参考になる。VAEのLossの導出が非常にわかりやすく書かれている。

実験結果

f:id:horipult:20200210232310p:plain
Table 1
入力と出力を変化させて学習を行った際の結果。x_t>>x_tは3D Hand Poseから3D Hand Poseを再構成している。 複数のmodalityで潜在空間を共有しても精度はそんなに変化していない、むしろ上がっているものもある。

  • Var. 1: (x_i >> x_t )
  • Var. 2: (x_i >> x_t , x_t >> x_t )
  • Var. 3: (x_i >> x_t , x_i >> x_i )
  • Var. 4: (x_i >> x_t , x_i >> x_i , x_t >> x_t )

ただし、i: [RGB, 2D, Depth], t: [3D]

f:id:horipult:20200210225156p:plain
Figure 7

こちらは再構成結果の訂正的評価。青がGT。指が隠れてしまった際にズレが生じているように感じる。

メモ

イデア自体は非常にシンプル。

VAEベースであることから、教師情報がないデータも学習に活用できる点は良い。

「手」自体は基本的に素肌が見えているが、全身の姿勢推定をする際には服の影響があるため、RGBのmodalityをうまく捉えられない可能性があるかも。