システム概要

前章までは静止画を用いて実験を行ってきたが,閾値を上げること正答率が上がる反面, 回答拒絶率も飛躍的に増大してしまった.実際に屋外での携帯端末での利用場面を考えると,拒絶される毎に幾度も写真を撮り直すのは現実的ではない.従って入力を静止画でなく動画に変更し,連続的にクエリー画像を取得することを可能にした.これに伴い,前章まで用いてきた図4.1のシステムを一部変更し,図6.1の様なシステムを作成した.このシステムではこれまでの各SLMが示す物体名を回答する為に用いていた投票制に加え,更にその回答で同一の物体名の回答を複数得るまで投票を行う『二重投票制』を採用している.

6.1.1 二重投票制

これまでの『投票制』はSLM毎に物体名を回答する為のものであったのに対し,今度はその回答を票とし,この『二重投票制』で既定の回数だけ得票した物体名を最終的に回答する様にしている.これは閾値を高くすることで回答が拒絶される可能性が高くなってしまったことへの解決として動画入力を行うことに加え,同一回答が複数待つことでその認証の精度の向上にも役立つと考えられるからだ.なお,この最終回答に必要な最大得票数 mを,先の閾値vとαとのいくつかの組み合わせで検証する.

図6.1 動画入力でのシステム概要

6.2 実験概要

ここでは今まで用いてきたデータベースに新たに図6.2の様な対象物のSLMを登録して動画入力による識別実験を行う.今回はこの画像を紙面に印刷し,それを手に持ったカメラによって動画を撮影する.これは実際の利用場面においても手ぶれが発生することを考慮したものだ.なお実験では図5.7で精度の高かった得票数の閾値v とフィルタリングの閾値αの組み合わせを選び,二重投票制による最終回答を20回得られるまで続け,その間の所要時間と正解数を測定する.

図6.2 認識対象

6.3 速度評価

最終回答を20回得られるまでの所要時間を測定し,これをもとに算出した最終回答の平均所要時間は表6.1の様になった.

表6.1 動画入力における認識の平均所要時間[s]

(v, α) (1/2, 0.05) (1/2, 0.1) (1/3, 0.05) (1/4, 0.05) (1/4, 0.1) (1/5, 0.02)

m = 2 1.021545 1.397 0.755245 0.62051 0.55701 0.437539

m = 3 1.275075 1.47472 0.83896 0.83174 0.918565 0.63741

m = 4 2.0996 2.23919 1.406905 1.082545 1.0169 0.939715

m = 5 2.583505 2.60213 1.467355 1.4411 1.48879 1.181305

動画での認識は最も遅いのが(v, α, m)=(1/2, 0.1, 5) の時で2.60213[s]だった.これに対して最速は(1/5, 0.02, 2)の時で0.437539[s]で,複数回の回答を得るために複数の画像を処理していることを考えると,この値は第5章の表5.1でのα=0.02の際の所要時間

0.521[s]を大きく上回る速さを示す結果となった.これは動画入力では微妙な手ぶれなど

の影響で,静止画を直接利用する際よりも検出される直線部分が激減したことが原因だと考えられる.これによってマスクの領域も激減し, 結果として特徴量の検出についての所要時間が大幅に削減されたことが現れたものだと考えられる.

要とされる回答数を計算し,その数値と表6.1の値との傾向の比較検証を行う.この必要な回答数は,1次投票での得票数が閾値を上回っている『有効回答を得るまでの平均所要回答数』と,その有効回答で行われる『二重投票制が正解で終了するまでの平均所要回数』を乗じた数値によって算出する.

有効回答を得るまでの平均所要回答数

ここでは閾値を設けることで生じた回答拒絶率が実際に回答を得る上でどの程度の影響を与えているかの考察を行う.有効な回答を得られる確率と回答回数の関係を閾値毎に以下の様な6.1式を用いて定義した.

有効回答取得率 = (1−( r

100)ⁿ)×100（r:回答拒絶率n:回答回数） (6.1) いくつかの(v,α)の組み合わせの回答拒絶率を用いた計算結果を,以下の図6.3に示す.

図6.3 閾値毎の有効回答取得率

閾値vが1/5・1/4・1/3の場合,それぞれの有効回答取得率が90％を超えるのが3回・

4回・5回と大きな差が開いていないことが伺える.それに対して閾値が1/2の場合は,90

％を超えるのに9回の回答が必要となり,1/3の場合の倍に近い回答回数を求められている.この時点で閾値を1/2とするのは不適切に考えられるが,一方でその有効回答の正答率が高く,他と比べてmの値が小さいくても充分に信頼できる結果を得られる可能性がある.

二重投票制が正解で終了するまでの平均所要回数

次に二重投票制での閾値mと図5.7の正答率を用いて,最終回答が正解で終了する確率を計算する.これは先述の有効回答までの平均所要回答数が「二重投票に1票入れるの必要な1次投票の回答数」なのに対し,こちらは「2つ目の投票結果が充分に信頼出来る結果で終わることが出来る回答数」を表している.この最終回答が正解で終了する確率は以下の式によって定義する.

n回目までの正解終了確率=

∑n k=1

(k−1)!

(m−1)!(k−m)!(1−p)^k⁻^mp^m（n:回答回数, p:正答率）

(6.2) この6.2式を用いて実際に閾値毎にmの値を変更して計算し,正解終了確率が90％を超えた時の回答回数nを以下の表6.2に示す.

表6.2 二重投票制が正解終了するまでの平均所要回数[回]

(v, α) (1/2, 0.05) (1/2, 0.1) (1/3, 0.05) (1/4, 0.05) (1/4, 0.1) (1/5, 0.02)

m = 2 4 4 5 5 5 6

m = 3 6 6 6 7 7 8

m = 4 7 7 8 9 9 10

m = 5 8 9 9 11 11 12

最終回答を得るのに必要な回答数

以上の数値を利用して算出した最終回とを得るのに必要な回答数を表6.3にまとめた.

m = 2 36 36 25 20 20 18

m = 3 54 54 30 28 28 24

m = 4 63 63 40 36 36 30

m = 5 72 81 45 44 44 36

実測値との比較

表6.1と表6.3の値の傾向を比較する為,図6.4の様に可視化した.これより実測値での平均所要時間と最終回答に必要な回答数の傾向が一致していることが確認出来,測定値が適切であったと考えることが出来る.

図6.4 動画入力における平均回答時間と予測必要回答数

6.4 精度評価

この実験では(v,αm)の組み合わせに依らず,全ての最終回答で正解の物体名を回答した.その一方で,値の組合せ表6.3の右上に近付く程に,途中の回答に正解以外のものも

含まれる頻度が高くなっていた.その為,実験回数を20回より多くした場合には不正解となる可能性がわずかだが存在する.

第 7 _章

総括

7.1 最終結果

SLMを用いることでそのデータベースのサイズは93.5％削減に成功した.静止画では 1枚当たりの所要時間は0.52[s]で,精度は84.0％に達し,全領域を用いた場合に比べて2 倍以上の速さを実現すると同時に精度は33.12％もの向上を果たした.また動画入力による実験では0.44〜2.60[s]と実用面で充分な時間での認識を達成し,精度は静止画における精度を上回る結果となった.以上の成果より,このSURF-based Line Markerは携帯端末上での動作を視野に入れる上で有効な手法でだといえるだろう.

ドキュメント内 AR 向けマーカーの作成特徴抽出を利用した (ページ 31-38)