• 検索結果がありません。

考察

ドキュメント内 黒住 隆行 (ページ 56-61)

験1)

3.5 考察

本章で利用した局所正規化は,乗法性ひずみと加法性雑音をスピーカーやマイ ク,ディスプレ イやカメラの特性の違いに対して不変な量を求めるという観点で導 き出された正規化であり,短時間で乗法性ひずみと加法性雑音が一定であるとい う仮定が適合する範囲で適応的に変動を吸収することができ良好な結果が得られ た.しかしながら,複数の音源が混入する場合や別の物体による遮蔽がある場合 など ,変動モデルの仮定に合わないような場合には,その変動を吸収できなかっ たと考えられる.また,部分空間照合は,探索に有利な周波数や画像の色や領域 を選択するような効果があると考えられるが,利用したデータは周波数や色・領 域に大きな偏りのあるデータでなかったため,大きな改善は見られなかったと考 えられる.縮退特徴は,ある基準を設定しそれに対して相対的な値を利用するも のである.変動に不変であるため高速に探索できるが,利用する相対値の分解能 が十分でなければ ,探索精度が低下してしまう.特に幾何変換のような大きな変 動を扱う場合には,あまり大きな変動を縮退させすぎ ると分解能を低下させてし まうため,特徴の抽出の方法には注意が必要であると考えられる.

3.6 まとめ

基づいた探索手法を提案した.本手法は,機器特性や環境特性などによって発生 する乗法性ひずみや環境雑音のような加法性ひずみを吸収するために,時間周波 数空間または時間空間上の局所領域ごとに正規化を行った後,機器特性や環境雑 音などによるひずみに対して頑健な部分空間に射影して照合を行うというもので ある.実験を行ったところ,これらの効果により探索精度が向上することが確か められた.例えば,蓄積したCD品質の音楽音響信号をマイク やPHSで収録した 10 秒間の探索キー信号によって探索する実験では,騒音レベルが比較的小さい場 所での収録の場合, 71.2% の精度( 収録した音響信号の断片が,CD品質の蓄積 信号のど の曲のど の時刻に対応するか特定する)が得られ,本手法を用いない場 合の 12.8%に比べてかなりの精度の改善が可能なことが分かった.また,ディス プレ イに表示されている映像を携帯カメラで収録し,その収録映像をキーとして,

膨大な映像データからそれと同一の映像を探索する手法についても検討した.映 像探索の場合は,ディスプレイやカメラの機器特性や照明変動などに頑健な特徴を 抽出するために時空間上の局所領域ごとに正規化を行った後,特徴ひずみの少な い部分空間に射影して照合を行うというものである.実験を行ったところ,これら の効果により探索精度が向上することが確かめられた.例えば,蓄積したCM映 像をカメラで収録した6秒間の探索キー信号によって探索する実験では,91.50%

の精度(収録した映像信号の断片が,蓄積信号のどの時刻に対応するか特定する)

が得られ,本手法を用いない場合の 10.75% に比べてかなりの精度の改善が可能 なことが分かった.

本章で利用した局所正規化は,乗法性ひずみと加法性雑音をスピーカーやマイ ク,ディスプレ イやカメラの特性の違いに対して不変な量を求めるという観点で導 き出された正規化であり,短時間で乗法性ひずみと加法性雑音が一定であるとい う仮定が適合する範囲で適応的に変動を吸収することができ良好な結果が得られ た.しかしながら,複数の音源が混入する場合や別の物体による遮蔽がある場合 など ,変動モデルの仮定に合わないような場合には,その変動を吸収できなかっ たと考えられる.また,部分空間照合は,探索に有利な周波数や画像の色や領域 を選択するような効果があると考えられるが,利用したデータは周波数や色・領 域に大きな偏りのあるデータでなかったため,大きな改善は見られなかったと考 えられる.縮退特徴は,ある基準を設定しそれに対して相対的な値を利用するも

のである.変動に不変であるため高速に探索できるが,利用する相対値の分解能 が十分でなければ ,探索精度が低下してしまう.特に幾何変換のような大きな変 動を扱う場合には,あまり大きな変動を縮退させすぎ ると分解能を低下させてし まうため,特徴の抽出の方法には注意が必要であると考えられる.そこで,分解 能を維持したまま幾何変換に対して縮退特徴を利用する必要があるが,これつい ては,第6 章で述べることとする.

-20 -10 0 10 20 30

0 500 1000 1500 2000

power [dB]

frequency [Hz]

original cellular phone (PHS) cellular phone (PDC) street corner coffee shop

図 3.1: 楽曲の一部分1

-20 -10 0 10 20 30

0 500 1000 1500 2000

power [dB]

frequency [Hz]

original

cellular phone (PHS)

cellular phone (PDC)

street corner

coffee shop

frequency feature extraction

local time-frequency-region normalization

robust subspace spanning

time-series search audio signal

a search result

robust subspace

learning

図 3.3: 音響信号探索の処理手順

video feature extraction

local time-space-region normalization

robust subspace spanning

time-series search video signal

a search result

robust subspace

learning

図 3.4: 映像信号探索の処理手順

speaker

ドキュメント内 黒住 隆行 (ページ 56-61)