• 検索結果がありません。

時間周波数解析と畳み込みニューラルネットワークを用いた足音の個人識別と特徴解析

N/A
N/A
Protected

Academic year: 2021

シェア "時間周波数解析と畳み込みニューラルネットワークを用いた足音の個人識別と特徴解析"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2019-HCI-182 No.6 2019/3/18. 情報処理学会研究報告 IPSJ SIG Technical Report. 時間周波数解析と畳み込みニューラルネットワークを用いた 足音の個人識別と特徴解析 塩田 陽也1,a). 板井 陽俊1. 概要:人間の足音には個人の特徴があり,聞きなれた足音を聞くことにより我々はある程度個人を識別す ることができる.歩行足音から人物の特定が可能であれば,防犯システムや生体認証システムに用いるこ とができる.従来では,音声認識において有効とされた信号処理により足音の特徴を抽出し,識別を行う 研究が行われた.しかし,個人を特徴づける足音の音響学的な成分については言及されていない.本研究 では,はじめに機械学習を用いて識別器に足音を学習させることにより,人が個人を識別する際の「聞き なれた状態」を模擬する.次に,識別に用いられた特徴の可視化を行う.識別器が識別に用いた判断の根 拠を可視化することにより,足音の個人特徴が現れやすい成分を解明する. キーワード:足音,畳み込みニューラルネットワーク,時間周波数解析. Personal Identification and Feature Analysis of Footsteps using Time Frequency Analysis and Convolution Neural Network. 1. はじめに. Predictive Coding)をそれぞれ特徴とする HMM を用い た歩行足音による個人識別 [6] などが存在する.従来では,. 現在,防犯,監視システムなどのセキュリティシステム. 音声認識において有効とされた信号処理により足音の特徴. には,指紋認証,静脈認証,虹彩認証などの生体情報を利. を抽出し,識別を行う研究が行われた.しかし,個人を特. 用した生体認証システムが存在する.これらの生体認証に. 徴づける足音の音響学的な成分については言及されていな. おいて,指紋,静脈認証システムは,不特定多数の人物が. い.また,足音を用いた個人の識別率は認証システムのレ. 触れたであろう機器に触れる必要があり,虹彩認証は,認. ベルに至っておらず,その原因の一端として足音の特徴解. 証を行う機器に近づく,立ち止まり認証を行うなどの特別. 析が十分ではないことが挙げられる.本研究では,はじめ. な動作が必要である.それに対して非接触かつ,特別な動. に機械学習を用いて識別器に足音のスペクトログラムを学. 作を必要としないことから,歩行足音を用いた個人識別の. 習させる.スペクトログラムを用いることにより,周波数. 研究が行われている.人間の足音には個人の特徴があり,. 成分の時間変化を学習することができる.次に,識別に用. 聞きなれた足音を聞くことにより我々はある程度個人を識. いられた特徴の可視化を行う.識別器が識別に用いた判断. 別することができる.足音を用いた従来の研究として,歩. の根拠を可視化することにより,各被験者の足音の個人特. 行足音の間隔,LPC 包絡のピークを用いた男女,履物の. 徴を解明する.. 識別 [1],信号エネルギーによる足音の検出 [2],屋外環境 下における足音開始時刻の特定 [3] などがある.また,個 人識別には DP マッチングによる歩行足音の個人識別 [4]. 2. 歩行足音 図 1 に歩行足音の収録環境概略図を示す.被験者は,ス. やメル周波数ケプストラム係数(MFCC : Mel-Frequency. タート地点から 5m 先にあるマイクロフォンに向かい歩く.. Cepstrum Coefficients)[5],線形予測分析(LPC : Linear. このとき,被験者にはマイクロフォンを意識せず自然に通. 1. a). 中部大学 工学研究科 情報工学専攻 Chubu University Aichi 487–8501, Japan [email protected]. c 2019 Information Processing Society of Japan ⃝. 過するよう指示を与えている.マイクロフォンは被験者の 進行方向に対し垂直,床から 81.5cm の高さに固定される.. 1.

(2) Vol.2019-HCI-182 No.6 2019/3/18. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 1. 収録環境概略図. 図 2 歩行足音の特徴. サンプリング周波数は 44100Hz であり,前処理として,収 録した足音データに対し,人間の聴覚特性に近似した周波 数特性を有する A 特性重み付けを行う. 歩行足音が有する特徴について示す.図 2,3 は歩行足音 の特徴と周期性を表す.通常歩行の際に発生する音は,5 つに分類される.また,通常歩行の特徴として周期性を有 する.. • インパクト音 足が地面に接地する際(初期接地)に履物の踵部分と 地面が衝突する.このときに発生する音をインパクト 音と呼ぶ.足音波形において,インパクト音発生時に は突発的な振幅の変動が観測される.. • 摩擦音 初期接地後の体重が前方の下肢に移される期間(荷重 応答期)では,踵を支点としてつま先が接地する.こ. 図 3. 歩行足音と周期性. のとき,踵を支点としたことにより履物と地面が擦れ る音が生じる.これを摩擦音と呼びインパクト音発 生後,一定時間振幅の変動が生じる.摩擦音の特徴と して,2000∼5000Hz 付近の高域成分が強く観測され る [7].. • つま先接地音. 3. 歩行足音の学習 3.1 識別器の選択 機械学習の識別器は CNN (Convolutional Neural Net-. work)を用いる.CNN は 2 次元データを入力に持ち,ス. 荷重応答期完了直前に履物のつま先部分と床面が衝突. ペクトログラムを学習可能であり,識別の根拠となる特徴. する.このときに発生する音をつま先接地音と呼ぶ.. の可視化が可能である.また,モデルは CNN のなかでも. • 衣擦れ音. AlexNet を用いる.AlexNet は,CNN のベースラインと. 歩行の際に衣服によってズボンの内側同士が擦れるこ. して利用されており,解析手法が豊富であるためこのモデ. とがある.このときに発生する音を衣擦れ音と呼ぶ.. ルを選択する.また,全 8 層と比較的小規模なモデルであ. • その他の音. り,解析を行い易い.. 上記のほかに踵部分が複数回当たる音や足を蹴り上げ. CNN に時系列データである音声を学習させる際,MFCC. る際,スリッパと踵が衝突し衝突音が発生する.これ. やスペクトログラムなど時間周波数領域に変換し学習す. らの音は同じ被験者でも歩き方により発生時間や音が. る手法が存在する [8].MFCC は,メルフィルタバンクの. 異なり,発生しない場合もある.. 出力を対数化した後,離散コサイン変換を乗じたものとし. • 周期性. て定義される.メルフィルタバンクは,人の聴覚特性を考. ヒトは通常の歩行ではほぼ等速で歩くため,足音には. 慮した重み付けをするフィルタバンクであり,得られたケ. 周期性が存在する.このためインパクト音や摩擦音も. プストラムの低次成分(スペクトル包絡)が MFCC であ. 一定に近い周期で観測される.. る.スペクトル包絡は, 人間の声道特性を表しているた め音声認識の分野で多く用いられる.しかし,足音の識別. c 2019 Information Processing Society of Japan ⃝. 2.

(3) Vol.2019-HCI-182 No.6 2019/3/18. 情報処理学会研究報告 IPSJ SIG Technical Report. に MFCC を特徴量としたとき,スペクトログラムと比較 して識別精度が下がることが報告されている [9][10].その ため,本研究ではスペクトログラムを入力として用いる.. 3.2 データセット 歩行間隔と左右 1 対の足音を学習させるため,1 データ を 2 歩分と定義し,収録 1 回につき 5 データ取り出す.切 り出す際の開始時刻は磯村らの定義 [11] を基に求める.足 音の切り出しの際,足音の発生による振幅の急激な上昇を 学習させるため,切り出し開始点は足音開始時刻の 0.01[s] 前とする.また,切り出し終了点は,3 歩目の足音開始時 刻の 0.1 秒前とする.AlexNet への入力データは,周波数 成分の時間変化を学習させるため,スペクトログラムとす る.短時間フーリエ変換の窓長は 0.01 秒である 441 点と. 図 4 データセットの切り出し. し,フレームシフトは 221 点とする.CNN を用いて学習す る際,入力データは正方形である必要がある.縦軸は 441 点のデータより求めたスペクトルの折り返し成分を除去し た 221 点であるため,横軸も 221 点とする.このとき,含 まれる足音の長さは(221×221)/44100 より 1.1 秒となる. 切り出した足音の長さは全て 1.1 秒以内であるため,入力 画像のスペクトログラムが存在しない部分は空白とする. この空白は歩行足音の間隔によって変化するため,個人に よって変化する.このことから,空白の大きさは歩行間隔 であり個人特徴の 1 つとして捉えられることができる. 被験者 10 名に対し,各 10 回収録を行い,1 回の収録デー タから 5 つの入力データ抽出する.そのため, 総データ数 は 500 である.また,学習データとテストデータの割合は. 8:2 とする.学習データとテストデータは,実際の運用を 想定し同一歩行内に学習データとテストデータが存在しな いよう収録回数ごとに分割される.表 1 に各パターンの収 録データの分類を示す.各被験者 10 回の収録のうち,1,2 回目に収録したデータをテストデータ,残りを学習データ. 図 5. 入力画像 (データ 1). とした場合から, 9,10 回目をテストデータ,その他を学習 データとした場合の 5 パターン用いて評価を行う.正答率 は,各パターンにおいて重みの初期値を変更して 10 回の 試行後,最も良い正答率をそのパターンの正答率とする.. 表 1 5 パターンのテストデータ パターン テストデータ. 1. 1,2 回目. 4. 識別結果. 2. 3,4 回目. 3. 5,6 回目. 4.1 パターン別正答率. 4. 7,8 回目. 5. 9,10 回目. 表 2 に 5-fold Cross-Validation を利用した 5 パターンの 正答率を示す.平均正答率は 86.4%であり,最も高い正答 率はパターン 3 の 92.0%である.また,パターン 4,5 の正 答率が最も低い 81.0%であった.このことから,パターン. 3 とパターン 4,5 では正答率に 11.0%の差があり,同じ被. 6 の縦軸は正解ラベル, 横軸は予測ラベルである.図 6 よ. 験者の歩行であっても収録回数毎に違いが見られる.. り,被験者 1 の正答数は 34 であり正答率が 68.0%と他の 被験者と比べ正答率が低い.被験者 1 は被験者 0 に 4 デー. 4.2 被験者別正答数 図 6 にクラス分類結果の Confusion Matrix を示す.図. c 2019 Information Processing Society of Japan ⃝. タ,被験者 5 に 7 データ誤分類されており,類似した足音 の特徴が存在すると推測される.. 3.

(4) Vol.2019-HCI-182 No.6 2019/3/18. 情報処理学会研究報告 IPSJ SIG Technical Report 表 2 5 パターンの正答率 パターン 正答率 (%). 1. 89.0. 2. 89.0. 3. 92.0. 4. 81.0. 5. 81.0. 平均. 86.4. 図 7 被験者 6 の特徴. 図 6. Confusion Matrix. 5. 特徴の可視化 特徴の可視化には,Grad-CAM を用いる.Grad-CAM は,学習済みのモデルに対し,畳み込みの最終層で得られ た特徴マップの平均を掛け合わせ,ヒートマップとして出 力することで注目位置の可視化を行う.. 5.1 特徴解析 図 7 に被験者 6 の特徴可視化例を示す.個人特徴として. 図 8 被験者 5 の特徴. インパクト音後の 5000Hz 付近に着目している. これは摩 擦音の特徴 [7] と一致していることから,摩擦音が抽出さ. 最も着目された点は 7 名に見られた歩行間隔である.図 7. れたと考えられる.図 11 の足音波形を確認すると,明確. の赤枠は空白を特徴として抽出している.この空白は歩行. なインパクト音が見られず,接地後徐々に振幅が増加して. 間隔の長さにより異なるため,歩行間隔を個人特徴として. いる.また,0.58 秒にも同様な振幅の増加がみられる.こ. 捉えている.各被験者の歩行間隔が有する標準偏差は最小. れは,足を床に擦るような歩き方であるすり足により発生. が 0.005 であり,被験者間の平均歩行間隔の標準偏差 0.024. した足音と推測される.このような足音を有する被験者は. と比較しばらつきが少ない.このことから各被験者の歩行. 他におらず,インパクト音の直後を特徴として捉えている.. 間隔は異なるが,同一被験者内では歩行間隔のばらつきが. 摩擦音は周波数応答から検出されるピーク周波数が個人に. 少ないため特徴として抽出されたと推測される.. より異なる [7].しかし,その場で片方の足の踵を床につ. 図 8 に被験者 5 の特徴可視化結果を示す.図 8 の元デー. け,踵を床に擦らせることにより摩擦音を収録しており,. タである図 9 の足音波形を確認すると,0.3 秒と 0.8 秒につ. 通常歩行とは異なる.今回の分析では歩行足音においても. ま先接地音が存在する.図 8 の赤枠,黄枠では 0.3 秒と 0.8. 摩擦音が個人特徴として有効であることを示した.. 秒に存在するつま先接地音の前後に注目されており,イン. また,図の黄枠 (0.9 秒 ∼ 1.0 秒,16000Hz ∼ 22050Hz). パクト音からつま先接地音,つま先接地音から次のインパ. は特に周波数成分が見られない領域に注目している.被験. クト音までの間隔,つまり振幅上昇間を特徴として捉えて. 者 1 は,足音開始時刻の前に振幅の増加が現れやすく,そ. いる.この特徴は 6 名の被験者に見られ歩行動作における. の有無を分類の根拠とするため個人特徴として抽出された. 衝突音の間隔を特徴として捉えていると推測される.. と考えられる.. また,図 10 の赤枠(0.1 秒 ∼ 0.3 秒,0.6 秒 ∼ 0.8 秒)は. c 2019 Information Processing Society of Japan ⃝. 4.

(5) Vol.2019-HCI-182 No.6 2019/3/18. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 11 図 9. 被験者 0 の足音波形. 被験者 5 の足音波形. 図 12 図 10. 被験者 1 の特徴. 被験者 0 の特徴. 5.2 誤分類例 図 6 より,被験者 1 は最も誤分類が多く,特に被験者 5 に誤分類されている.図 12 に被験者 1 の特徴可視化結果, 図 13 に被験者 1 の誤分類された特徴可視化結果を示す. 図 12 の被験者 1 は本来 0.4 秒に存在する衝突音からイン パクト音までの間隔と歩行間隔を特徴として抽出されて いる.それに対し,図 13 の赤枠(0.1 ∼ 0.3 秒,0.6 ∼ 0.9 秒)は振幅上昇から次の振幅上昇までの間隔を特徴として 捉えている.被験者 1 は 0.94 秒以降の空白の大きさ (歩行 間隔) を特徴として抽出されているが,誤分類されたデー タの空白は 0.9 秒以降に存在する.この歩行間隔の違いが 誤分類の要因であると考えられる.被験者 1 はインパクト. 図 13 被験者 1 の特徴(誤分類). 音以外の要因による振幅の上昇が多数存在し,足音開始時. 次に,識別に用いられた特徴を可視化することにより,. 刻の決定が困難であるため,足音の切り出しが誤り歩行間. 足音の個人特徴を分析した.機械学習を用いたことにより,. 隔が短くなったと考えられる.. 被験者ごとに着目される特徴が異なることが分かった.個. 6. まとめ. 人特徴として最も着目された点は 7 名に見られた歩行間隔 である.次に着目された点は,6 名に見られた振幅上昇か. 本研究では,CNN による足音を用いた個人識別と識別. ら次の振幅上昇までの間隔である.また,摩擦音に着目点. に用いた特徴の解析を行った.5 パターンのテストデータ. を有する被験者が見られた.以上のうち歩行間隔は個人識. と学習データを作成し Cross-Validation により評価した結. 別に有効であることが既に示されている [12].一方,振幅. 果,10 名に対し 86.4%の識別精度となった.. 上昇間,および摩擦音が識別に有意な情報であることは知. c 2019 Information Processing Society of Japan ⃝. 5.

(6) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2019-HCI-182 No.6 2019/3/18. られておらず,足音を用いた個人識別に対する新たな知見 が得られた.今後の課題として,RNN や DNN 用いた足 音による個人識別の検討が挙げられる. 参考文献 水谷春菜,安川博,板井陽俊:歩行足音を用いた男女識別 に関する基礎検討,信学技報,Vol.111,No.27,pp.61-65 (2011). [2] She, B.: Framework of footstep detection in in-door environment, Proc. of ICA2004, pp.715-718 (2004). [3] 田中将太,板井陽俊,安川博:屋外環境下における足音開 始時刻の特定に関する一検討,信学技報,Vol.114,No.122, pp.1-5 (2014). [4] 野村祐基,磯村太郎,板井陽俊,安川博:DP マッチン グを用いた歩行足音の個人識別に関する検討,信学技報, Vol.107,No.235,pp.73-77 (2007). [5] Davis, S. B., and Mermelstein, P.: Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences, IEEE Trans. Audio, Speech and Signal Proc, Vol.28, No.4, pp.357-366 (1980). [6] 田中宏宜,板井陽俊,安川博:HMM を用いた歩行足音によ る個人識別に関する一検討,信学技報,Vol.113,No.467, pp.7-10 (2014). [7] 林健太,田中将太,板井陽俊:局所定常 AR モデルを用い た摩擦音のスペクトル解析,信学技報,Vol.115,No.505, pp.33-35 (2016). [8] Abdel-Hamid, O., Mohamed, A., Jiang, H., Deng, L., Penn, G. and Yu, D.: Convolutional neural networks for speech recognition, IEEE/ACM TASLP, Vol.22, pp.15331545 (2014). [9] 板井陽俊,野村祐基,板井陽俊,安川博:ケプストラムと DTW を用いた歩行足音の識別,IPSJ MPS-66,pp.61-64 (2007). [10] 野村祐基,磯村太郎,板井陽俊,安川博:歩行足音のコサ イン距離を用いた DP マッチングによる個人識別,信学技 報,Vol.106,No.575,pp.7-12 (2007). [11] 磯村太郎,野村祐基,板井陽俊,安川博:屋内環境下におけ る歩行足音の検出手法に関する一検討,信学技報,Vol.107, No.548,pp.1-6 (2008). [12] Shoji, Y., Takasuka, T. and Yasukawa, H.: Personal identification using footstep detection, Proc. of IEEE ISPACS 2004, pp.43-47 (2004).. [1]. c 2019 Information Processing Society of Japan ⃝. 6.

(7)

図 1 収録環境概略図 サンプリング周波数は 44100Hz であり,前処理として,収 録した足音データに対し,人間の聴覚特性に近似した周波 数特性を有する A 特性重み付けを行う. 歩行足音が有する特徴について示す.図 2,3 は歩行足音 の特徴と周期性を表す.通常歩行の際に発生する音は, 5 つに分類される.また,通常歩行の特徴として周期性を有 する. • インパクト音 足が地面に接地する際(初期接地)に履物の踵部分と 地面が衝突する.このときに発生する音をインパクト 音と呼ぶ.足音波形において,インパ
表 2 5 パターンの正答率 パターン 正答率 (%) 1 89.0 2 89.0 3 92.0 4 81.0 5 81.0 平均 86.4 図 6 Confusion Matrix 5
図 9 被験者 5 の足音波形 図 10 被験者 0 の特徴 5.2 誤分類例 図 6 より,被験者 1 は最も誤分類が多く,特に被験者 5 に誤分類されている.図 12 に被験者 1 の特徴可視化結果, 図 13 に被験者 1 の誤分類された特徴可視化結果を示す. 図 12 の被験者 1 は本来 0.4 秒に存在する衝突音からイン パクト音までの間隔と歩行間隔を特徴として抽出されて いる.それに対し,図 13 の赤枠( 0.1 ∼ 0.3 秒, 0.6 ∼ 0.9 秒)は振幅上昇から次の振幅上昇までの間隔

参照

関連したドキュメント

重要な変調周波数バンド のみ通過させ認識性能を向 上させる方法として RASTA が知られている. RASTA では IIR フィルタを用いて約 1 〜 12 Hz

音節の外側に解放されることがない】)。ところがこ

名の下に、アプリオリとアポステリオリの対を分析性と綜合性の対に解消しようとする論理実証主義の  

断面が変化する個所には伸縮継目を設けるとともに、斜面部においては、継目部受け台とすべり止め

自分は超能力を持っていて他人の行動を左右で きると信じている。そして、例えば、たまたま

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

歩行 体力維持と気分転換 屋外歩行・屋内歩行 軽作業 蝶番組立作業等を行い、工賃収入を得る 音楽 カラオケや合唱をすることでのストレスの解消

これら諸々の構造的制約というフィルターを通して析出された行為を分析対象とする点で︑構