文献調査:断片化しても手書き文字は認識出来るか

MIRU2010の論文を幾つか読んだので自分用にメモ。
1つ目は、九大の内田先生の論文*1
一般物体認識では局所特徴による認識が主流となりつつあるが、
手書き文字認識にも応用できないかという話です。

僕自身も、手形状推定でPart-basedなアプローチをとっているので
参考になるかなと思って読んでみました。

処理の流れは以下のとおり。

  1. 局所特徴(SURF特徴)を画像から抽出
  2. 局所特徴を各文字のコードブックと照合し、コードの割り当て(割り当てられたコードがどの単語のコードブック由来かが局所特徴あたりの識別結果)
  3. 全ての局所特徴の割り当て結果を1票ずつ投票し、得票数最大のもの結果とする

実験として手書き数字の認識を行ったところ、局所特徴の識別性能は5割程度にも関わらず、多数決の結果、最終的に90%程度の識別率を得たとありました。
これは、局所特徴レベルで間違ったとしても、その誤識別結果が不正解クラスのいずれかに集中しないからとのこと。

これって、局所特徴は1つの文字に固有な特徴を表現するには
能力が足りないことを意味するのでは・・・?
特徴を組み合わせてMid-levelな文字固有な特徴を作ってから投票するか、
いっそのことコードブックをすべての文字共通にして、
各文字のコードの参照回数を重みとした重み付き投票を行えば改善するのではと思いました。

それ以外にも、様々な実験をしていて、
特徴のスケールや回転を限定して特徴としてどのようなものが必要か考察したり、
コードブックにある参照ベクトルと被参照回数についての考察があったり、
評価の仕方として大いに参考になりました。

自分が論文書くときもこれくらい丁寧に実験の考察をしたいものです。

*1:内田誠一,Marcus Liwicki, "断片化しても手書き文字は認識出来るか?", 画像の認識・理解シンポジウム(MIRU2010), IS1-14