文献調査:n-gram表現を用いた人物動作からの物体認識

MIRUの文献調査第2段。
大阪府大の黄瀬先生の論文。
動作認識を行うことでそれに対応する物体認識も行おうという話です。
話としてはウチの後輩がやっていた「手の形が分かれば持っているものも分かるのでは?」
という話に近いのかな。

n-gram表現による動作認識部分が手話認識にも応用できそうな話に感じたので読んでみました。
処理の流れはおおまかにはこんなところ。

  1. 画像(ステレオ)から手領域と顔を抽出・追跡
  2. フレーム特徴量の抽出(手の位置や運動方向)
  3. フレーム特徴量の量子化
  4. 動作をフレーム特徴量のn-gram表現により表現
  5. 動作と対応する物体との関係をスコアにより評価

で、3人の動作について学習・認識実験を行ったところ、
学習サンプルにテストデータと同一人物が含まれる場合で72%程度、
含まれない場合で58%程度の精度だったとのこと。

著者も言ってるけれど、特徴量の定義(特に量子化のやり方)にかなり改良の余地ありだと思う。
でも、n-gram表現は手話認識にも使えそう。というか使ってみたい。
Kinect発売されたら、ちょっとコード書いてみて試そうかな。