• 検索結果がありません。

音声認識エンジンの複数実行の効果

N/A
N/A
Protected

Academic year: 2021

シェア "音声認識エンジンの複数実行の効果"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 74 回全国大会. 2F-5. 音声認識エンジンの複数実行の効果 川辺弘之†. 瀬戸就一‡. 杉森公一† 金城大学†. 下村. 有子†. 金城大学短期大学部‡. 1.はじめに. 果を与え、本手法の有効性を示す。. 本研究を含む進行中の研究プロジェクトの目 的は,聴覚障害学生が大学の講義を不自由なく 受講できるシステムの構築である。この研究プ ロジェクトでは,多数の入力ボランティアのキ ーボード入力によりノートテイクを実現してい た[1]。「質(正確さ)より量(人数)」の概念 にもとづいたノートテイクシステムである。そ こで問題になったのは,多数の入力ボランティ アを確保することと,キーボード入力の正確さ であった。そこで,入力ボランティアを確保す る問題を解決するため,キーボード入力を講師 による音声入力に置き換えることを我々は構想 している。さらに,音声認識率は約 80%と高くは ないが,初心者によるキーボード入力より優る。 したがって,音声認識に「質より量」のアプロ ーチを適用することで上記の問題を解決できる。 このような熟練を要しない音声入力による聴講 支援システムの構築は,就業の場においても多 くの応用が期待できる。例えば聴覚障害者の就 業支援や遠隔会議システムへの字幕付加などで ある。一方健常者においても業務日報の音声入 力などに応用が可能である。 並列実行はマイクロプロセッサにおける現在 の趨勢を反映している。最近のパーソナルコン ピュータは 2 並列ではあるが並列コンピュータ となっている。また,8 から 16 個のプロセッサ コアを備えたワークステーションも廉価に市販 されている。この状況を考慮すると,音声認識 エンジンのアルゴリズムを工夫して認識率を向 上させること以外に,多数のプロセッサコアで 異なった特徴を持った音声認識エンジンを同時 並列実行するアプローチも有望である。この場 合,多数の音声認識結果から最終的な音声認識 結果を多数決で抽出することになる。 本研究では,まず,音声認識システムの並列 実行についてのモデルとそのコンピュータシミ ュレーション結果を簡単に紹介する。次に,音 声認識プログラムに異なった設定を施した場合 の認識結果、そして、多数決原理で抽出した結. 2.モデルとコンピュータシミュレーション. Effectiveness of Multiple Execution of Voice Recognition Engine †H. Kawabe, K. Sugimori, Y. Shimomura・Kinjo University ‡S. Seto・Kinjo College. 4-9. 我々のシステムでは,多くの初心者が同時に 講義データを入力すると想定してきた。本研究 では、人力での入力をコンピュータによる音声 認識に置き換えることを目指している。この際、 特性の異なった音声認識プログラムが並列実行 される。したがって,講師が発した文章データ を複数得ることができる。この中には,正しく 認識された単語もあれば,誤って認識された単 語もある。このとき,並列動作する音声認識プ ログラムの数が増えれば,正しい単語も多くな ることが期待できる。一方,単語の認識誤りの 傾向とその発生率や発生箇所はランダムで,全 く同じ認識誤りは現れないと仮定する。したが って,複数の単語データにおいて,2つ以上同 じ単語データが現れたならば,それは正しい単 語であると仮定する。すなわち,認識誤りの完 全なランダム性を仮定する。そして,複数の認 識単語データから正しい認識箇所を抽出し,つ なぎ合わせることで,元の文章の再現が可能に なる。 音声認識プログラムの並列実行の数が増加す れば,正しく認識する確率が向上すると期待で きる。コンピュータシミュレーションにおいて、 すべての音声認識プログラムが確率 0.5 で正し く認識できるという条件下で並列数を変えた場 合、6∼8 並列で十分な精度が得られている。さ らに,10 並列程度で 95%を超える認識率となる。 これは,現在のワークステーションの能力で処 理できる領域である[2]。 3.調整パラメータによる音声認識への影響 音声認識システムは認識エンジンと認識エン ジンの調節パラメータとから構成される。同一 の音声であってでも、異なったパラメータで調 整された認識エンジンに与えると、異なった認 識結果を得る。 本研究では、音声認識エンジンとして Julius[3]を用いた。Julius では、音響モデルや、 言語モデル、デコーダを変更可能であり、また、. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 74 回全国大会. ID 1 2 3. モデル. 状態数. 4.結論. 性別. Triphone 3000 3000 Dependent PTM triphone 3000 Dependent PTM triphone 3000 Independent 表1:音響モデル ID A B C D. 第 1 パス 第 2 パス. モデル. 語数. 圧縮率. 20k.1-1 20K 20k.1-1.10p 20K 60k.1-1 60K 60k.1-1.10p 60K 表2:言語モデル. 10% 10%. 単語間 言語 トライフォン モデル 近似的 Bigram 厳密 Trigram 表3:デコーダ. 探索法 最尤近似 N ベスト. 解析する際、無音期間の長さなどのパラメータ を調整できる。我々が今回用いた音響モデル、 言語モデルを表1、2に示す。 Julius に「およそ桃太郎の話を知らない人は いない」という文章を与え、表3のデコーダを 用いて音声認識させた結果が表4である。表4 では、認識された単語のうち原文に含まれてい る単語の数を認識率とした。 それぞれの認識率は 6/10(60%)から 7/10(70%) であったが、多数決原理を用いて共通部分を取 り出すことで 8/9(89%)へと認識率が向上した。. ID. 低い認識率の音声認識エンジンであってでも、 種々の音声認識エンジンを数多く同時並列実行 し、認識結果に対して多数決を行うことで、 少々の誤認識は隠蔽され、結果的に高い認識率 が得られる。このことはコンピュータシミュレ ーションで予想されていたが、実際に音声認識 エンジンで実行して確認した。したがって、 我々の手法は効果的であることが明らかになっ た。 今回得られた最終的な認識率はまだまだ満足 できるものではない。言語モデルにおける辞書 の語彙数を増やすことや、パラメータをさらに 調整することで、さらに認識率を向上させたい。 また、多くの話者の種々の文章を与えてでも、 高い認識率が得られることを目指したい。 謝辞 本研究の一部は日本学術振興会科学研究費基 盤研究 (C) No. 22500519 の助成を受けたもので ある。 参考文献 [1] S. Seto, et.al., The 20th National Conference of Australian Society for Operations Research, Australia (2009) [2] H. Kawabe, et.al., The 40th International Conference on Computers and Industrial Engineering, Japan (2010) [3] A. Lee, et.al., Proc. European Conf. on Speech Communication and Technology, pp.1691-1694, 2001.. 文章. 認識率. 原文. およそ. ももたろう. の. はなし. お. しらない. ひと. わ. いない. -. 1-A 2-A 3-A 1-B 2-B 3-B 1-C 2-C 3-C 1-D 2-D 3-D 共通. およそ およそ およそ およそ およそ およそ およそ およそ およそ およそ およそ およそ およそ. の かん もだん もと のうせん ぼん ぼん の かん もと もと の かん もと の こぶ もと. お. はなし は が はなし はなし はんが はなし はなし はなし はなし はなし はなし はなし はなし. お お も お お も お も も お も も お. しらない しらない しらない しらない しらない しらない しらない しらない しらない しらない しらない しらない しらない. ひと ひと ひと ひと ひと ひと ひと ひと ひと ひと ひと ひと ひと. わ わ わ わ わ わ わ わ わ わ わ わ わ. いない いない いない いない いない いない いない いない いない いない いない いない いない. 7/10 6/10 6/9 7/10 6/10 6/9 7/10 6/9 6/9 7/10 6/9 6/10 8/9. の の の の の の の の の の の. て. しゅう. 表4:認識結果. 4-10. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

外声の前述した譜諺的なパセージをより効果的 に表出せんがための考えによるものと解釈でき

私はその様なことは初耳であるし,すでに昨年度入学の時,夜尿症に入用の持物を用

パキロビッドパックを処方入力の上、 F8特殊指示 →「(治)」 の列に 「1:する」 を入力して F9更新 を押下してください。.. 備考欄に「治」と登録されます。

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

ダウンロードした書類は、 「MSP ゴシック、11ポイント」で記入で きるようになっています。字数制限がある書類は枠を広げず入力してく

・性能評価試験における生活排水の流入パターンでのピーク流入は 250L が 59L/min (お風呂の

・電源投入直後の MPIO は出力状態に設定されているため全ての S/PDIF 信号を入力する前に MPSEL レジスタで MPIO を入力状態に設定する必要がある。MPSEL

理由:ボイラー MCR範囲内の 定格出力超過出 力は技術評価に て問題なしと確 認 済 み で あ る が、複数の火力