パターン認識
音声認識とは
• 音声認識とは、人間の声などをコンピューターに認識させること • 話し言葉を文字列に変換したり音声の特徴をとらえて声を出している 人を識別したりする機能のこと (指)キーボードから入力 ↓ (声)マイクから入力(「音声入力」あるいは「ディクテーション(聞き取り)」) • (ちょうどキーボードから文字列やショートカットを入力してアプリケー ションを操作できるように)音声認識でアプリケーションを操作すること も可能(「音声操作」) • 「音声認識」に話者が誰なのか識別する機能を含めること=あらかじ め記録しておいた音声パターンと比較して個人認証等をおこなう機能 (「話者認識」)音声認識の歴史
(Advanced mediaのHPより)
• 第一世代(1960~)単語認識
•
単語の音声認識が可能になった段階。単語認識
は音声認識の中心技術にあたるため、現在でも精
度向上のための研究が行われている。
• 第二世代(1991~)文章認識
• 文法を統計化することで、単語の連続、つまり
文
章を認識することが可能になった。そのため音声
をテキスト化する能力も向上。
• 第三世代(2001~)人主体の認識
•
不特定話者
でも音声認識できるよう、事前学習の必要性
を排除し、会話スピード、アクセントの違いによる問題を解
決。幅広いマーケットに順応できるレベルまで到達した。
• 第四世代(2008~)ユビキタス
• 「いつでも」「どこでも」「だれでも」が利用できる技術へ。
多様化するモバイル端末で利用可能。
• 第五世代(2011~)超音声認識
• 従来の音声認識の常識を覆す人間並みの認識結果の提
供。オントロジー(文章の内容の理解)と知的推論により擬
人化されたコミュニケーションインタフェースが可能に。
音声認識の実現例
• 2001年宇宙の旅のHAL9000や、スターウォーズなどの映画に多く登場 • 最近は徐々に現実化 • バウリンガル(Bow-Lingual)は、株式会社タカラ(現・タカラトミー、開発 は子会社のドリームズ・カム・トゥルー)、株式会社インデックス(現・イン デックス・ホールディングス)、日本音響研究所が共同開発した、犬との コミュニケーションツール。日本では2002年9月発売。 • 本体と、犬の首輪に装着するワイヤレスマイクから構成される。 • マイクで捕らえた犬の鳴き声を本体に転送しリアルタイムで分析、日本 語に翻訳された感情表現を本体の液晶画面に表示する。出力されるの は「フラストレーション」「威嚇」「自己表現」「楽しい」「悲しい」「欲求」の6 種類の感情。 • 当初は20万個の販売を目標としていたが、最終的には国内外で約30万 個を売り上げ、2002年度のイグノーベル賞平和賞を受賞した。音声認識の有用な用途
• コンピュータとの対話
• 航空券や列車の予約、株価の情報、天気予報、電話番号案内など • 現在の技術では、 • 決められた語彙からしゃべる • 誤認識を避けるために、確認→結構まどろっこしい• 議事録自動書き起こし
• 字幕
• 利点
• 情報入力が速い • 手書きよりも8~10倍、キーボードよりも3~4倍 • 動き回りながら入力可能認識の技術
1. 統計的手法
1. 大量の発話を記録した学習用データから音声の特徴を蓄積 2. 認識対象となる入力音声から抽出された特徴と蓄積された特徴とを比較 3. 最も近い言語系列を認識結果として出力 • 一般に、音声の音響的な特徴と言語的な特徴を分離して扱う • 音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を 持っているかを表したもので、音響モデルと呼ばれる(隠れマルコフモデ ルなど) • 言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モ デルと呼ばれる。• 例えば、「あなた (a n a t a)」という発声の直後⇒「が (g a)」や「は (w a)」などの 発声
• 言語モデルの表現としては、認識対象の言語が大規模な場合(パソコン上 での文書作成など)はn-gramが良く用いられ、認識対象の言語が人手で
網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文 法が良く用いられる
認識の技術
2.動的時間伸縮法
• 動的時間伸縮法(Dynamic time warping、DTW)は初期の
音声認識手法⇒隠れマルコフモデルに基づく手法が一般
化
• 時間または早さの異なる2つの信号シーケンスの間の類似
度を測るアルゴリズム
• 例えば、人間の歩行のパターンは、素早く歩いても、ゆっくり歩い ても、さらには歩行の画像を早送りしてもスロー再生しても一定の パターンが存在する。DTW は音声だけでなく動画などの任意の時 系列のデータに適用可能である。 • 音声認識においては、発声速度がどうであっても一定のパターン を検出するために使われていた。従って、比較のための標準パ ターンが必要であり、認識できる語彙は限定される。認識の技術
3.隠れマルコフモデル
• 音声信号は、断片的あるいは短時間の定常信号と見ることができる⇒ 隠れマルコフモデル(Hidden Markov Model、HMM)が適用可能
• 10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見な すことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えるこ とができる。 • 隠れマルコフモデルによる音声認識は自動的に学習され、単純で計算 量もそれほど多くない。 • 音声認識について考えられる最も簡単な設定では、隠れマルコフモデ ルは10ミリ秒ごとに例えば13次元程度の実数値ベクトル(ケプストラム 係数)を出力する • ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第 一(最大)係数を取り出したものである • 各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関 する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結した ものとなる。
実際と課題
• 音声認識システムの研究開発にはコンピュータが普及しだ
した1970年代から21世紀初頭の現在まで、長年にわたっ
て莫大な資金と優秀な人材が投入 されてきたが、成功して
普及したものはほとんどない
• 話者を限定して、「ディクテーション」と呼ばれる事前のト
レーニングを行う方式の音声認識システムでは、日本語で
は理想的な環境下では80%の認識率
• それらのトレーニングを積まない場合60%が限度
• 語彙を限定してトレーニングを必要としないシステムでは、
不特定多数の話者の音声を認識できるが語彙が少ないた
めに利用範囲は限定
• 同音異義語が少ない欧米系の言語では90%の認識率が
ある
性能評価
• 音声認識システムの性能は一般に
正確度と速度
で表される
• 正確度=単語誤り率 (word error rate, WER)
• 速度=実時間係数 (real time factor, RTF)
Windowsにおける利用
• Windows Vista以降で は音声認識機能が搭載され
ており、この機能を使用して、キーボード入力なし
にチャットをするなどの操作が可能
• 音声認識機能でパソコンを操作 するといった利用
方法はこれまでにもあったが、日本語の認識率を
向上させているほか、マウスやキーボードで行う
Windowsの操作が音声で操作できるようになって
いる。
企業・団体における利用
• 企業、病院、自治体では、2005-6年頃から次第に
次のような実用システムの導入が活発化してきて
いる。
• 医師向け電子カルテ入力システム
• 自治体向け議事録作成支援システム
• コールセンター向けオペレータ支援・通話内容分析シス
テム
• 学校向け語学学習アプリケーションでの発音評価シス
テム
その他の利用例
• 携帯端末(iPhoneなど)へのメール文章入力 • 同時通訳型の機械翻訳、自動通訳 • パソコン上での文書作成(口述筆記の自動化) • 音声指示による機械操作(カーナビ、電子カルテ等のハンズフリーコン ピューティング) • 指示を聞き分けるペットロボット(ロボット工学への応用) • 音声対話受付案内システム(自動音声応答装置) • 裁判員制度での評議における証言内容などの確認(映像と文字の連 動)• 音声Webアプリケーション w3voice Laboratory (音声認識や対話を体験 できるWebサイト)
その他の応用例
• 「感性制御技術」(Sensibility Technology=ST)などと
組み合わせることにより
• 例えば「ごめんなさい」も口先だけで軽く言った「ごめん
なさい」も同じ「ごめんなさい」でしかないが
• 早口で軽いトーンの「ごめんなさい」は、バカにしている
と判断して怒った態度で接したり、ゆっくり丁寧に発音さ
れた「ごめんなさい」は、心から の謝辞だと理解して許
したりすることが可能となる。
音声の認識方法
• 音素モデル
• 音素 /a/, /k/のようなもの→音素モデル
• 単語辞書(音素のつながり)
• /sakura/
• 言語モデル
• 文法を書いた本のこと
• これにより、単語を接続
• 音響モデル+単語辞書+言語モデル→音声認識デ
コーダ(デコーダとは、「解読装置」)
コンピュータに取り込み 音の高さ成分