結論 - 音声からキーワードを検出する技術の高度化に関する研究利用統計を見る

みを用いたDPの距離計算式を用いた場合より誤検出が抑制され，検索性能が改善された．しかし，CMスコアに関しては，導入する方法を再検討した結果，MRPにおいて僅かに改善された程度であった．

第6章では，さらなる音声中の検索語検出性能改善のため，検索語の音素長に応じた誤検出抑制パラメータの適用法について述べた．音素長が10未満の検索語に対して編集距離のコストを高くすることで，検索性能が改善することが示された．さらに，NULL 遷移のコストをVotingによって決定することで，NULL遷移の信頼度に応じたコストを与えることが可能であり，検索性能が改善することが示された．このとき，音素長が10 未満の検索語に対するNULL遷移のコストを高く設定することで，F-measureが最大となる閾値を高くすることが可能となり，音素長が10以上の検索語におけるF-measure が最大となる閾値に近づけることで，検索性能が改善することが示された．

また，他の誤検出抑制法としてネットワーク型インデックスの複雑さに着目したエントロピーを検討した．しかし，単純なエントロピーの利用では，STDの性能改善に効果が薄いことが示された．エントロピーの調査結果から，未知語・既知語に限らず誤検出を低く抑えようとすると，エントロピーが低い発話に含まれる検索語しか検出することができないことが示された．STDの性能を改善するための一つのアプローチとして，エントロピーが高い発話に対して何らかの音声認識上の対策を講じることが必要であることが示された．

また，音声中の検索語検出のタスクの一つであるiSTDタスクに対して本提案手法が有効であるか評価を行い，その結果について述べた．本手法をiSTDタスクに用いることで，高い検出性能が得られることが示された．さらに，エントロピーを適用することで，iSTDタスクにおいては検索性能が向上することが示された．

STDならびにiSTDにおいて，複数の音声認識システムの出力を利用することと，それらの出力をネットワーク型のインデックスとして利用することが有効であることが示された．また，複数の音声認識システムの出力から得られる情報を利用することが，

誤検出を抑制した検索語の検出に有効であることが示された．以上より，本研究の目標である未知検索語に対して頑健なSTD手法を提案することは達成された．

未知検索語に対して頑健なSTD手法に対する今後の課題とその解決案として，以下が挙げられる．

１点目として，複数の音声認識システムの出力の厳密なアライメントを検討する必要がある．濱中らの実験結果[70]より，複数の音声認識システムの厳密なアライメントとエントロピーを用いることによって音声認識性能が向上することが示されている．

本手法の複数の音声認識システムのアライメントは，ROVER[20]の手法と同様のベースとなる音素列と他の音素列を1つずつペアワイズアライメントしていくことでアライメントを行っている．このアライメント手法はアライメントの制度自体には注力しておらず，アライメントの順序によって結果が異なるという問題がある．この解決策として，アライメントをプログレッシブ法を用いることが挙げられる．

また，アライメントに厳密な音響マッチングを導入することも挙げられる．音声認識結果には，認識した音素または音節の発声フレームが出力される．このフレーム情報に基づいてアライメントを行うことで，アライメント精度の改善が図れる可能性が

ある．

２点目として，ネットワーク型インデックスを構築する音声認識システムの組み合わせを検討する必要がある．機械学習などを使って最適な認識システムの組合せを選ぶことで，検索性能の改善が図れる可能性がある．

３点目として，さらなる誤検出抑制パラメータの検討と検索語とインデックスの距離計算方法の検討が挙げられる．本論文ではエントロピーの指標を用いることで検索性能の改善を図ったが，その効果は僅かであった．また，本論文では，編集距離ベースの検索語とインデックスの距離計算に基づいて，検索語の検出を行った．実験結果から，編集距離を用いることで高い検索性能が得られることが示されたが，エントロピーの指標に基づく距離計算や，CM スコアをベースとした距離計算を行うことで，本論文で示した検索結果とは異なる結果が得られる可能性がある．このエントロピーベースの距離計算や，CM スコアベースの距離計算に，Votingなどの誤検出抑制パラメータを導入することによって，検索性能が改善される可能性がある．

また，これらの編集距離ベースの検出結果と，エントロピーベースやCMスコアベースの検出結果を統合することによって，検索性能が改善される可能性がある．

第7章では，提案した音声中の検索語検出手法をシステムソリューションなどに用いることが可能であるかを考察した．まず，提案した音声中の検索語検出手法を，大語彙連続認識システムで用いる言語モデルの学習データ選別や，認識単語の選別に用いることで，音声認識性能を向上させることが可能かを考察した．結果として，STDを用いた語彙推定処理により，認識辞書の語彙を大幅に削減することが可能となり，それに伴い，すべての講演・講義で音声認識率が改善することが示された．

また，電子ノート作成支援システムに提案したSTD手法を利用し，その効果を考察した．結果として，電子ノート見直し作業において，STDは有効である可能性があるということが示された．

以上より，本研究で提案した未知検索語に頑健なSTD手法はシステムソリューションへの応用が可能であることが示された．しかし，検索速度の向上が必要であることが課題として明らかになった．また，本提案手法では複数の音声認識システムを利用している．このため，リアルタイムな処理を行う場合には，多くの計算リソースを必要とする．

検索速度の改善については，マルチスレッド／マルチプロセス化やGPGPUを用いた並列処理によって改善することが可能と考えられる．また，計算機上でのPTNの表現方法を見直すことによってインデックスの構築，並びに検索語の検出速度の向上が図れると考えられる．

今後の展望として，本研究で提案した未知検索語に頑健なSTD手法をリアルタイム性が必要となるシステムソリューションへの適用課題は多々存在する．しかし，大量の音声ドキュメントータから検索語を検出するタスクにおいては有用である．例えば，

コールセンターなどで録音された大量の音声データから，オペレータが顧客に対して発してはならないNGワードを発話していないか，また，顧客満足度の高いオペレータと低いオペレータではどのような発話の違いがあるのかなどを分析するツールとして有用であると考えられる．

謝辞

本研究を遂行し学位論文をまとめるにあたり，終始暖かい激励とご指導，ご鞭撻を頂いた，指導教官である関口芳廣教授ならびに西崎博光助教に心より感謝申し上げます．関口教授，西崎助教には筆者の山梨大学工学部コンピュータ・メディア工学科及び専攻在学中より，音声情報処理に関してご指導頂きました．研究を進めるための環境を整備頂き，幾度と音声情報処理研究の道に導いて頂いたことに心より感謝申し上げます．

本論文をまとめるにあたり，有益な御助言を賜りました山梨大学工学部コンピュータ理工学科福本文代教授，山梨大学工学部情報メカトロニクス工学科宗久知男教授，

同鈴木良弥教授，同小谷信司教授，同丹沢勉准教授に心より感謝申し上げます．

社会人学生として，研究と仕事の両立を支援して頂いた，東京エレクトロンTS株式会社佐野聡氏，小島伸二氏，中矢哲氏，アライメントチームの皆様に心より感謝申し上げます．

博士課程在学中，共同研究者として，古屋裕斗氏，中込大生氏，米倉千冬氏，鈴木和将氏，澤田直輝氏に多大なご協力を頂きました．厚く御礼申し上げます．また，共に切磋琢磨し研究に挑んだ関口・西崎研究室の方々に感謝します．諸氏との交友により，充実した日々を過ごすことができました．ここに記して謝意を表します．

最後になりますが，これまで私を暖かく応援してくれた両親へ心から感謝します．そして，社会人学生として博士課程への入学を快く承諾し，どのような状況においても応援してくれました素晴らしい婚約者智恵美に心から感謝します．

ドキュメント内音声からキーワードを検出する技術の高度化に関する研究利用統計を見る (ページ 105-125)