音声言語処理の進歩と今後

全文

(1)社団法人情報処理学会研究報告 IPSJ SIG Technical Report. 2004−SLP−50 (4) 2004／2／6. 音声言語処理の進歩と今後中川聖一y y 豊橋技術科学大学〒 441{8580 愛知県豊橋市天伯町雲雀ヶ丘 1{1 E-mail: [email protected] あらまし. この 10 年間で、音声言語処理技術は格段に進歩し、数々の実用化がなされている。しかし、音. 声認識関連技術の実用化の普及は、未だ不充分である。ユーザインタフェースの問題、アプリケーションの設定の問題なども一因であるが、ロバストな音声認識技術が未熟であることが最大の原因であると考える。本稿では、この 10 年間の音声言語処理技術の進歩を振り返り、研究者の立場から見た音声言語処理の今後について考える。キーワード音声言語処理, 音声認識, 音響モデル, 言語モデル, デコーダ, ロバストネス, 対話処理. Progress and Future on Spoken Language Processing Seiichi NAKAGAWAy y Toyohashi University of Technology, 1-1, Hibarigaoka, Tenpaku-cho, Toyohashi, Aichi, 440-8580 Japan E-mail: [email protected] Abstract The technology on spoken language processing has progressed in a decade and has been applied to practical åelds. However, the usage did not spread unlike we expected. This fact is not caused by only the incompleteness of user-interface and the lack of killer applications, but also the poor robustness on speech recognition technology. In this paper, we disscuss future problems from a view point of researchers. Key words spoken language processing, speech recognition, acoustic model, language model, decoder, robustness, spoken dialogue. うち「社会的コンセンサス」は音声の実用化に伴って徐々. 1. はじめに{10 年を振り返って{. には得られつつある。「人工人格化」は、その後の「ペッ. 音声言語情報処理研究会の発足の記念すべき第１回の. トロボット・癒し系ロボット」ブームに見られるように、. 研究発表会（1994 年 4 月）で、嵯峨山氏は「なぜ音声認. その方向に技術開発が進んだと言える。「応用開発インタ. 識は使われないか。どうすれば使われるか？」という衝. フェース」は Voice − XML や SAPI など、やはりこの. 撃的なテーマで講演された（第 1 回 SLP 研究賞）[1]。多. 方向に技術開発が進んだと言える。問題は「ロバストネ. 数の電子メール討論結果をまとめ、使われる条件として. ス」と「語彙制約なし任意音声の認識」である。後者につ. 「音声認識の使い方についての社会的コンセンサス」「音. いては、第 15 回研究会（1997 年 2 月）で西村雅史氏が. 声認識のロバストネス」「人工人格化」「応用開発インタ. 連続発声可能な新聞読み上げ音声の認識を実演され、会. フェース」「語彙制限なしの任意音声の認識」をあげ、最. 場はどよめきに包まれたことは記憶に新しい（「単語を単. 後に「今回のような議論はほぼ永遠に繰り返されるもの. 位とした日本語ディクテーションシステム」第 3 回 SLP. だろう」と結論付けている。人間に関わる「言語と脳の. 研究賞）。その後、NHK のニュース自動字幕化の実用化、. 仕組み」の解明は最も困難な研究と言われており、本質. IPA のディクテーションプロジェクト（プロジェクト代. をついた研究賞にふさわしい講演であった。上の条件の. 表の鹿野清宏氏「日本語ディクテーション基本ソフトウェ. −23−.

(2) ア（97 年度版）の性能評価」（第 21 回研究会、1998 年. の認識であった。1970 年前後の目標は孤立単語の認識で. 5 月）、第 4 回 SLP 研究賞）などを経て今日に至ってい. あった。1980 年前後（1978 年の「Speak & Spell」の発. る。このフリーンソフトウェア（この発端となった SLP. 売が契機）の目標は単音節単位の日本語入力であった。. の WG で行った音声データベース JANAS の整備も忘れ. しかし、結果はどうであったであろうか。当時としては、. てはならない）が我国の音声関連研究や周辺研究に与え. 目標が達成されればいろんなアプリケーションが可能で. た影響は大きく、安価な商用ディクテーションソフトウェ. あり、実用に結びつくと考えられたに違いない。しかし、. アとともに手軽に音声応用システムを開発する道を拓い. 1980 年代の文節単位の音声ワープロも頓挫し、1990 年. た。しかし、これは独自に連続音声認識システムを開発. 代の連続発声の音声ディクテーションも思ったほど普及. する研究機関が限られてきたことなど、研究者にとって. していない。それは、人間の音声認識システムに対する. は両刃の剣である。. 限りない高性能の要求に他ならない。これは、音声が人. 1990 年後半のディクテーションソフトウェアの開発・. 間と人間とのコミュニケーション手段として最も自然で. 商用化によって、次のターゲットの模索時に、古井貞煕氏. 常用しているものだからで、これを相手が機械だからと. 代表の「話し言葉工学」プロジェクトの果たした役割は大. 言って使い方を譲歩したり、不便をしいられたのではた. きい（小磯花絵氏「日本語話し言葉コーパスの設計の概要. まったものではない。他に代替手段のないものは人間は多. と書き起こし基準について」、第 36 回研究会、2001 年 5. 少の譲歩や不便を我慢するものであるが、音声ではそれ. 月、第 5 回 SLP 研究賞）。これによって、次の目標は自然. が許される場面は非常に限られている。逆説的になるが、. 発話（spontaneous speech）となり、今日に至っている。. もし賢明な研究者がこの程度の研究目標が達成されても、. 総括すれば「雑音、ハンズフリー、自然発話」等に関. 到底実用化は無理だろうと先を見越して正しく判断でき. する「ロバストネス」の問題が依然として残っていると. ていたら、音声認識の研究はここまで進歩しなかっただ. 言える。「雑音」に関しては、SLP 傘下に WG（中村哲氏. ろう。少なくとも企業の研究者は「ここまでできれば必. 代表）が組織されており、健全な研究方向ではあるだろ. ず実用化になるアプリケーションが多く存在する」と信. うが、SLP の守備範囲からやや外れている。. じて、1 歩 1 歩研究を進めてきたに違いない。大学の研. 上述のような音声音声認識の研究の流れ以外に、SLP. 究者は興味本位で人間のやっていることを機械で実現し. では忘れてはならないもう一つの大きな流れがあった。そ. たい、音声の本質を解明したいという欲求で研究を続け. れは音声対話・マルチモーダル対話・音声インタフェース. てきたのだろう。多少、法螺を吹いてでも研究費を獲得. の研究である。これは文部省科研費重点領域研究「音声対. し研究を継続するのも許されることもある。. 話」（1994 年∼1996 年、堂下修司氏代表）と通産省のプ. 2. 2 要求される音声認識の性能. ロジェクト「リアルワールドコンピューティング」（1992. 音声に関連する興味深い研究は多くある。例えば言語. 年∼2002 年）が牽引力となった（伊藤慶明氏「同時複数. 獲得の研究である。人間はどのようにして単語とその意. 話者の会話音声およびジェスチャのリアルタイム統合理解. 味概念や文法を獲得していくのだろうか？また、日本語. による Novel Interface System」第 7 回研究会、1995. の音節という単位・概念を獲得していくのだろうか？我々. 年 7 月、第 2 回 SLP 研究賞）。. はこの問題に興味を持って音声と画像情報から単語の概. 今後も、音声対話や音声インタフェースの研究は SLP. 念や文法の獲得、音声情報から音節単位の獲得の研究を. の主流テーマであり続けるであろうし、最近においても. 行い、そこそこの研究成果を得た [4] [5]。しかし、可能性. 確実に進歩しており、また斬新なアイデアも提案されて. を明らかにしただけで幼児のように言語概念が獲得でき. いる（後藤真孝氏「音声補完：TAG on speech」、第 32. たとはとても言えるものではなかった。この時改めて感. 回研究会、2000 年 7 月、第 5 回 SLP 研究賞）。. じたのは、人間並みのパターン認識・照合能力を機械が備えなければこの種の研究は成功しないということであっ. 2. 何が問題か. た。あまりにも先走った研究はオリジナリティがあって. 音声認識の問題点を機会があるごとに指摘してきた. も成功は難しい。（この種の研究は，学会では一般に高く. が [1] [2] [3]、本稿では少し異なった観点から考えること. 評価されることがあるし、まったく理解が得られないこ. にする。. ともある。）. 2. 1 進歩しながら振り出しに戻る音声研究. もう一つの例に韻律情報がある。音声認識には韻律情. 1960 年前後の音声認識研究の目標は「母音や単音節」. 報が役立つと考えられ数多くの研究がなされてきた [6]。. −24−.

(3) 結論を簡単に言うと音声認識性能の悪い場合は、韻律情. た。転機は「折り紙理論」と称する 3 次元物体の線図形. 報は効果的に働き、音声認識性能がある程度高くなれば. 解釈理論の構築からであり、その後、数多くの実世界へ. 韻律情報はあまり役立たない。現在はちょうどこの段階. のコンピュータビジョン研究の応用を成し遂げられてい. であると考えられている。音声認識性能がもっと向上す. る。この豊富な経験からの主張の意味は重い。. れば、韻律情報が効いてくるし、必要となる場合が増えると考えられる。. また、画像処理研究者の和田俊和氏は「人間の先見的知識に基づいて非常に複雑な現実世界を記述しようとす. この他、未知語の獲得やドメイン以外の発話の棄却、. るアプローチの限界が明解になった。現在、画像理解とい. ワードスポッティングのためには現在のレベルを越える. うタスクの実現に使える材料はおそらく「事例」しかあ. 高い音声認識技術・性能が要求される。教師なし学習の. りえないだろう」と述べている（但し、知識やルールに. 場合には、単語認識率が 80%を越えれば音節認識率に換. 基づく画像理解のアプローチを否定はしていない）[11]。. 算すると 90%程度になり教師なし学習と教師あり学習の. コンピュータの記憶容量、計算の精度は人間の能力を. 効果の差は小さくなる [7] [8] （しかし、これも認識率の. 凌駕している。HMM やトライグラムの数十万∼数百万. 最終目標値に依存することに注意を要する）。人間の音声. というパラメータがそれぞれ 10%でも変動すれば認識率. 知覚の性能は悪い条件下でも単語認識率換算で 80%は越. は大きく劣下するが、このような方法はとても人間がやっ. えていると思われるので難なく自律的に話者適応（環境. ているとは思われない。音声認識は人間の音声知覚過程. 適応）していると予想できる。. の構成的解明という科学的な側面と人間と機械とのイン. 2. 3 音声認識は科学か工学か. タフェースに用いるという工学的側面がある。この両者. 音声の研究は科学的な側面と工学的な側面を持ってい. の立場を明確に区別し、研究をすすめていく必要がある。. る。音声認識の研究も同様で、人間の知覚過程を解明し. 勿論、科学的側面から得られた知見を工学的モデルに取. ようとする立場から工学的に応用しようとする立場まで. り入れていく必要があるが、有用な知見は意外と少ないのが現状である [2] [12]。但し、知覚実験により、分析合. ある。ここでは後者の立場で考える。筆者が、最近、最も感銘を受けた記事の一つは、金出. 成音の明瞭さと特徴パラメータの関係、知覚に重要な音. 武雄氏の「コンピュータビジョンと AI」（第 16 回人工知. 声区間（わたり部）、コンテキスト依存の範囲 [13] など音. 能学会全国大会招待講演の要約）[9] である。以下その要. 声認識システムを構築するのに参考になる知見はある。. 点を述べ、音声分野にあてはめた場合を記す。. 3. 確率モデルによる音声認識の問題. è ビジョンというものは、幾何学・代数学をしっかり. 3. 1 定式化と探索. やり、物理・光学的性質を使えばいろいろな難しい問題. よく知られているように音声認識問題は以下のように. が解ける。→音声というものは、信号処理をしっかりやり、音声の物理的性質を使えばいろいろな問題が解ける。. 定式化される。. è コンピュータビジョンで成功したものはほとんど. ^ jY ) = max P (Y jW ) ÅP (W )=P (Y ) P (W. 認識問題ではない。→音声認識は難しい。実用化したの. fW g. は音声符号化であり、音声認識よりも音声合成の方が実現しやすい（様々な音声を合成するのは認識よりも難しいが [10]）。. è 人間を知るという目的ではなく、より知能的なシステムをつくるという目的なら、人間のやっているのと関係なくやった方が賢く、人間がやっていることが最適であるというのは懐疑的である。「何ができるか」のヒン. (1). ここで、Y は観測される音声特徴時系列パターン、. W (= W1 ÅÅÅWN ) は単語列である。P（Y) は、音声時系. 列パターンの事前確率で W とは独立なので無視できる。. P（Y｜W) は通常 HMM で、P(W) は通常トライグラムでモデル化される。これらの欠点は以前から指摘されているのでここではふれない [1] [2] [3]。(1) 式は通常、次のように定式化されて最適単語列を見つける。. トとして受け止めるべきで、そのやり方はまねる必要はない。「まねる」と「学ぶ」は一緒ではない。→大量データに基づく音響モデル、言語モデルは人間のモデルとは. ^ = arg max log P (Y jW ) W fW g. 異なるが一つの正しい工学的アプローチである。金出氏の研究歴は、最初はパターンのクラスタリングの修士論文から始まり、顔画像の認識が博士論文であっ. −25−. = arg max fW g. N X. t. flog P (yti+1 jWi ) + ïlog P (Wi jhi ) + ãg i. i=1. (2).

(4) よる変動がモデルの構築とパラメータ推定を困難にしてここでは、hi は単語履歴、 ï は音響尤度と言語尤度. いることから、音声合成のように大量の音声データを用. のバランスを取るための言語重み、ã は挿入ペナルティ. いた特定話者の音響モデルを構築・評価するのも、研究. （ボーナス）である。DP マッチングでも言えたことであ. を促進させる一助になるかも知れない。. るが、(2) 式の定式化に対して、最適な単語列を見つけるほど単語認識率が向上する [14] [15] [16]。これは、人間の. 線形予測モデルと線形回帰モデルを併合した次のモデルも試みられた [22] [23]。. 決定的単語知覚法と異なってはいるが、工学的モデルとしては正しいという証左でもある。しかし、1∼2%の単語. y(t) =. 言語重みと挿入ペナルティの値の理論的考察は少なく. [1] [17] [18]、実験的に検討されているに過ぎない [19] [20]。言語重みについては、我々は音響尤度のフレーム長依存性（2 倍長く発声すれば尤度は 2 倍になる）と音響特徴パラメータの冗長性（MFCC に対して、△ MFCC を同時に用いると尤度はほぼ 2 倍になる）に起因することを示した。勿論、信頼性の高い方に重みを大きくするという. ûi (k)y(t Ä k) +. k=1. 認識率の向上（10%程度の誤り率の減少）は、実用上どれほど意味のあるものか冷静に考えて見る必要がある [2]。. K X. M X. p. bi (p)t + ei (t). (4). p=0. ここで、i は状態を表し、K は予測次数、M は線形回帰モデルの次数である。一般に û も L 次の多項式で表されたモデルも提案されている [23]。さらに、û と b を t に依存するように拡張されている。y(t) の近似という点からはベースラインの K=L=M=0 に対して、 K=1,2 が最も効果があるが、競合パターンに対しても近似してしまい、認識精度とは直結しない [23]。最近では、隠れ軌跡モデル (hidden trajectory model : HTM) を HMM に埋め込んだ次の調音結合モデル (HTHMM) が提案されている [24] [25]。. 一般論も考慮すべきである。一方、挿入ペナルティ（ボー. z(t) = g(t) + w(t). ナス）の理論的考察は難しい。例えば、言語モデルを用. y(t) = h. u(t). (z(t)) + v(t). (5). いない場合の連続単語認識や連続音節認識の場合は接続時にペナルティの値を設定する必要がある。これは、全区間をカバーする単語列（音節列）を構成する単語（音節）が多い程、尤度の高い単語列が生じる可能性が高くなるからである。また、これは代替可能な候補数が多い程、この現象の可能性が高くなるので、パープレキシティに依存する。勿論、音響モデルの精度がよくなればペナ. ここで、g(t) は隠れ軌跡の予測値、z(t) は真値、u(t) はフレームｔでの音声単位（例：音素/ 音素の状態）、hu (z) は調音パラメータから音響パラメータへの非線形写像関数（MLP で実現）である。g(t) はターゲット T に斬近する次の 2 次の臨界制動関数で表現される。. ルティの値は小さくなる。一方、言語モデルを用いる場 2. 2. g(t) = 2çu(t) g(t Ä 1) Ä çu(t) g(t Ä 2) + (1 Ä çu(t) ) Tu (t). 合、単語の接続毎に接続確率を乗じていくので、単語数. (6). が多くなる程不利になり、ボーナスを設定する必要がある。このペナルティとボーナスの両要素を加味した値の設定の理論的考察は難しい。. また、h(z) はテーラー展開で近似し、o(t) は次式で. 3. 2 音響モデル. 表す。. HMM による音響モデルの欠点は、フレーム間の相関 ñ + u0 (t) ñ + H(Z Ä Z) y(t) = ñ. のモデル化や、動的な特徴変化のモデル化ができない点と継続時間の分布のモデル化が不充分であるという 2 点である [1] [2] [3]。前者に対しては多くの手法が提案されてきた [2] [21]。最も一般的な手法はフレーム間の相関に対してはセグメントを用いることとパラメータの動的変化に対しては次式で近似することである。 éy(a) 1 é2 y(a) (t Ä a)2 (t Ä a) + y(t) = y(a) + ét 2 é2 t2. (7). H ＝ 0 の場合は、通常の HMM と等価になる。実装上、連続状態に相当する g は量子化される。Aurora2 の評価では、音素単位の HTHMM は通常の triphone HMM を上回る結果を得ているが 10%の改善率に留まっている。調音モデルやフォルトマントからの音声合成法が従来か. (3). ら試みられてはいるが、成功しているとは言えず、合成よりも認識に有効と言えるか疑問である。. しかし、y(t) が話者によって異なり、しかも状態間で. 最近、HMM 合成の手法を音声認識モデルに適用したト. の y(t) の連続性を考慮することが難しく、簡易的手法と. ラジェクトリモデルが提案されている [26] [27]。これは、. して△、△△パラメータがよく用いられている。話者に. 静的パラメータ時系列から動的パラメータである△、△. −26−.

(5) △パラメータが確定的に決定できることを明示的にモデ. ムよりも広いコンテキストを用いており [39]、この差の. ル化したものである。特定話者の評価実験で、音素認識. 解消法として、トライグラムの広いコンテキストによる. 結果候補の再評価に用いて、15%程度の誤り削減率を得. 適応化 [2] （キャッシュモデル、トリガーモデル、LSA モ. ている。HMM による音声合成がある程度の成功を収め. デル）や構造化言語モデルとトライグラムの併用 [2] など. ているという事実から、有望な手法の一つと考えてよい。. が提案されている。この他、トピック別言語モデルの混. しかし、ダイナミックベイジアンネットワーク [28] を含. 合法などと併用すればトライグラムと比べてパープレキ. め、上述のような音響モデルの研究は重要ではあるが、期. シティの削減率は 30%程度が期待でき [2]、言語コーパス. 待以上の改良が得られていないのが現状である。. の継続的な充実を図ればほぼ限界に近づくと考えられる。. 一方、音響モデルの単位と認識法を見直す必要がある。音響モデルの単位としては、トライフォンに代わり、音. 一方、少量のコーパスで言語モデルを適応化する手法は、実用上重要である。. 節単位や単語単位が見直されている [29]。これは、大量の音声データと計算機パワーの増大によるところが大きい。. 言語レベルのモデル化対象は単語系列であり、単語の種類は有限個であるから離散確率分布でモデル化するの. 欧米語ではトライフォンよりも音節の方が広いコンテキ. が自然であるが、パラメータ数が極めて多い。LSA など. ストを考慮でき、知覚・発声の単位であることから今後. は単語空間を 100∼200 次元に圧縮しているが、10 次元. 益々有望となってこよう。日本語の場合は、音節単位は. 程度に圧縮し、ｎグラムを連続確率密度分布でモデル化. トライフォンよりも扱うコンテキストは狭いが、認識に. する方法でどこまで正確にモデル化できるか検討するの. 重要な子音と母音のわたり区間が定常区間よりも正確に. は興味ある問題である。. モデル化できるからコンパクトでしかもロバストな認識. これからの問題は未知語や姓名などのすべて辞書とし. 単位である [30] [31]。日本語の場合はコンテキスト依存音. て登録できないものの処理、文を越える文脈を通した認. 節モデルを考慮する必要がある [32]。さらに、発音の変形. 識誤りの訂正（認識決定の先送り機構、現在の認識シス. （例えば無声化や脱落）に関しては、音節単位の方がトライフォンよりもモデル化が容易である。. テムは 1 文内でこれを実現している）、背景知識を利用した意味・意図理解である。これらの問題は音響モデルの. 発音の変形に関しては、音響モデルでカバーするためには、音響モデルよりも単語単位の方がより有望である. 高精度化、遅々として進まない文脈理解・言語理解の研究の進展を待たなければならない。. が、一部の単語に適用するのが現実的である。そこで、発. 4. ロバスト性. 音変形辞書の研究の重要性も見直す必要がある。. 4. 1 音声認識のロバスト性. また、パターン認識の一般論として、誤り最小学習法が効果があるように複数認識器の混合手法を追求するの. 音声認識の性能が劣化する要因として、a) 話者の個人. も有望である。特徴パラメータ領域での混合（マルチス. 差や発話スタイルの差の他に、b) マイクロフォン特性や. トリーム）[33] や認識器の混合（ローバー法や機械学習. 伝送路歪（帯域幅の差など）、c) 雑音や残響（反射音）、. 法）[34]、トレーニングデータからのパラメータ学習の混. マイクロフォンとの距離の差などがある [40]。a) に対し. 合（バギング法やブースティング法）[35] など検討に値す. ては音響モデルの学習に多数の話者のデータや認識時の. る手法である。なお、システムの改善には認識誤り分析が. 発話スタイルに合致するトレーニングデータを用いるこ. 重要であることは言うまでもない [36] [37] [38]。しかし、. とにより効果のあることがわかっており、この上に話者. 誤り原因は認識モデルに依存することに注意を要する。. 適応化や環境適応化により音響モデルを適応化する方法が試みられている。. 3. 3 言語モデル人間の知覚過程から学ぶべき点はあるがまねる必要は. b) の電気的伝送系の歪に対しては、トレーニングデー. ないと 2.3 節で述べたが、人間の音声言語処理の能力・性. タとテストデータ間の特性の歪みを事前情報をもとに直. 能は工学的目標として参考になる。人間の音韻知覚精度. 接補償する以外に方法はない。. は 90∼95%、言語知識の利用による一般文章に対する単. 実用上重要なのが c) の空間伝送系の歪による変動であ. 語単位のパープレキシティは 100 前後である [2]。一方、. る。加法性雑音に限っても、定常性雑音と非定常性雑音、. 機械のそれぞれの能力は 70∼80%、70∼200（ドメイン. 突発性雑音などがあり、スペクトル減算法、マルチバン. 依存）である [2]。このことより、トライグラム言語モデ. ド・マルチストリーム法、欠除特徴理論（missing feature. ルは優れたモデルと言える。しかし、人間はトライグラ. theory）、音響バックオフ、確率ユニオンモデル等が提案. −27−.

(6) されている [40] [41] [42]。スペクトル減算法以外は、不確. る手段で、人間同士の対話ではよく見かける現象である。. かな特徴パラメータは用いないで、信頼できる特徴パラ. この実現には、あいまいな箇所以外は確実に理解できる. メータだけを用いようとするものである。しかし、ハン. というシステム全体の性能向上が要求される。一方、後. ズフリーの音声認識を考えた場合、マイクロフォンと発. 者は、雑談的に対話をはずませるための技術で実装は比. 話者の距離は 1∼3 ｍ程度になり、反射音などによる伝送. 較的容易である。システムが予期していないユーザ発話の対処も重要で. 歪（乗算性歪）も同時に扱う必要がある。この場合、音声特徴空間を多数の部分空間に分割すれ. ある。例えば、ドメイン外・タスク外発話の検出と棄却、. ば、話者、加法性雑音、伝送路歪を同時に近似的に適応. ユーザの独り言や隣人との会話とシステムへの入力との. 化できると考えられる [40] [43]（但し、分析フレーム長. 区別 [52] などの技術である。音声対話システムを継続的. を越える残響音の扱いは難しい [44]）。これは、スペク. に運用し、対話データベースの収集と対話データの分析. トル領域の部分空間とケプストラム領域の部分空間は. を行い、システムの改良にフィードバックすることも重. 1 対 1 に対応しており、その部分空間内では、近似的に. 要である [49] [53]。. 両者が線形関係になっていると仮定できるからである。. 5. 音声言語処理技術の応用. 部分空間への分類の仕方として、HMM の状態毎の適応化や、VQ コードベクトルによる CDCN（Codeword -. 1995 年時に、筆者らが予想していた音声言語処理技術. Dependent Cepstrum Normalization）[45] がある。最. の応用分野は自動車系（ナビゲーション）、電話系（ポー. 近、CDCN 法を一般化した GMM 法による音声信号の推. タルサイト、ヘルプデスク）、教育系（CAI）、ディクテー. 定法が提案されているが [46]、有望な手法と考えられる。. ションマシン系を挙げ、マルチメディアにおける音声処. 現状の音声認識技術では S/N 比が 10 ｄ B 以下の環境や. 理は不透明とした [10]。教育系、特に語学 CAI（CALL）. マイクロフォンとの距離が 2 ｍを越えると使いものにな. に関しては、この 10 年間の音声認識技術の進歩により. らない状況である [41]。このような状況で手法の優劣の議. マーケットはまだ小さいが着実に実用化が行われている. 論がどれ程意味があるか考えてみる必要がある [47]。筆者. と言ってよい [54]。この 10 年間に予想外に注目を浴びた. の予想では特徴パラメータや音響モデルが実用上に耐え. のはロボット系（ペットロボット）であった。これは今後. 得る程に精度が向上すれば、部分空間ごとの適応化法の. とも癒し系ロボットとして需要がありそうである。コミュ. 違いによる認識率の差はなくなると考えている。. ニケーションでは身体性が重要であると実証されたのも. 悲しいことに、クリーン音声で学習した音響モデルで. この 10 年であったと思われるが、テレビゲームに没入感. 雑音重畳音声を雑音除去手法を施して認識した結果は、. が生じている事実からも、（身体性を有してなくても）雑. 種々の雑音重畳音声で学習した音響モデルで雑音重畳音. 談に応じるロバストな音声コミュニケーション手法の確. 声を認識した結果よりも悪いのが現状である [48]。これは. 立が望まれる。この 10 年間に確実に芽生えてきたのがマルチメディア. 音声認識・パターン認識の難しさを如実に物語っている。. 4. 2 言語処理・対話処理のロバスト性. 情報における音声処理分野でトピック抽出 [55]、インデキ. 音声入力のロバスト性を高めるためには、話し言葉で. シング [56] [57]・検索 [58] [59] [60]・要約 [61] [62] ・質問. 頻繁に生じる助詞落ち、省略、倒置、言い淀み、言い直. 応答 [63] [64] の基礎研究が行われ、今後大きく発展しそ. し、断片的な発話 [10] [49] を扱えること以外に誤認識・誤. うな分野である。テキスト文書を対象とした研究にない、. 解の回復機能（error handling）が重要である。通常の音. 環境音も含めた音声に特化した研究が有用である。話し. 声対話システムではシステム側からの確認発話で対処す. 言葉をそのまま書き起こすと読解し難い文となるので音. る場合が多いが、これに対するユーザの応答の認識さえ. 声の整形 [65] も重宝であるが言語理解という難しい問題. 完全にはできない。. を内包している。近い将来、人が生涯見聞き・話す映像・. 対話効率の観点からの対話制御法が検討されている. 音声をすべて身体装着で記録・蓄積することも技術的に. が [50]、ユーザに負担をかけずに対話をスムーズに進め. 可能となる。この膨大な情報の管理、検索は音声言語を. るためには、システムの誤解の自動検出 [51] やユーザの. キーとして行うのが効率的で有用である。例えば「言っ. 誤り訂正発話の自動検出 [52] も重要である。高等な対話. た言わない」のトラブルの解消に役立つ。これは「見た. 技術としては「わかったふり」言動、「わからないふり」. 見てない」、「したしてない」のトラブルの解消よりも有. 言動がある。前者は文脈情報からシステムが自動回復す. 用でしかも実現性が高い。今後の大量マルチメディア情. −28−.

(7) 報時代において、音声言語処理技術はセマンティックディジタルアーカイブの核として位置付けられよう。. 6. むすび本稿では、音声言語処理技術の動向と問題点を指摘した。主な主張を要約すると、. è 音声認識を工学的問題をとらえると人間の知覚方法と違ったアプローチになっても不思議ではない。. è 音声認識を確率モデルで定式化する場合、音響モデル、言語モデル、探索ゴリズムに分類でき、特に音響モデルの不十分さが問題である。. è （コンテキスト依存）音節モデルや単語単位モデルが音声のモデル単位として有望である。. è 統計的パターン認識手法の適用の余地はまだ残されている。. è 音声生成モデルによる音声認識手法は、音声合成で成功しない限り難しい。. è 音声認識の性能が実用に耐え得る程度に向上すれば、教師なしの比較的単純なモデル適応化手法でも複雑な適応化手法と引けをとらない効果が見込める。. è 未知語の処理と獲得が重要な問題であるが、これには高精度な音響モデルと高度な自然言語理解の技術が必要である。. è 音声認識のロバストネス（実環境下、ハンズフリー）と対話処理のロバストネス（認識誤りや誤解からの回復）は実用上重要な課題である。. è 音声ドキュメントのインデキシング・検索・要約・質問応答は今後有望な分野となる。本稿では従来からの筆者の主張と筆者らの研究例を参照しながら音声言語処理研究の進歩と今後を述べた。他の研究機関の参考文献は、入手しやすいものを挙げたのみで、オリジナリティのある重要な論文を落としている可能性は大きいが他意はないので御容赦願いたい。少し偏った見方かも知れないが、議論のきっかけになれば幸いである。文. 献. [1] 中川聖一, \音声認識の研究課題", 情報処理学会, 音声言語情報処理, SLP29-1, (1999.12) [2] 中川聖一, \音声認識研究の動向", 電子情報通信学会論文誌, Vol.83-DII, No.2, pp.433-457, (2000) [3] 中川聖一, \音声認識において HMM とトライグラムを越えるもの", 人工知能学会誌, Vol.17, No.1, pp.35-40, (2002) [4] 中川聖一, 中西宏文, 古部成章, 板橋光義, \視聴覚情報の統合化に基づく概念の獲得", 人工知能学会誌, Vol.8, No.4, pp.499-508, (1993) [5] 中川聖一, 斎藤稔, 升方幹雄, \音声情報処理単位の自動獲得と音声認識・符号化への応用", 人工知能学会誌,. −29−. Vol.13, No.4, pp.619-630, (1998) [6] 浮田輝彦, 中川聖一, 坂井利之, \日本語算術文の音声認識におけるピッチパターンの利用", 電子情報通信学会論文誌, Vol.63-D, No.11, pp.954-961, (1980) [7] W. Zhang and S. Nakagawa, \Continuous speech recognition using an on-line speaker adaptation method based on automatic speaker clustering", IEICE Trans. Vol.E83-D, No.3, pp.434-473, (2003) [8] 渡辺友裕, 中川聖一, 西崎博光, 宇津呂武仁, \講演音声における認識結果の高信頼度部分の抽出とそれを用いた教師なし話者適応", 情報処理学会, 音声言語情報処理, SLP49-2, (2003.12) [9] 金出武雄, \コンピュータビジョンと AI{その関係と無関係{", 人工知能学会誌, Vol.18, No.3, pp.328-335, (2003) [10] 中川聖一, 堂下修司, \音声言語情報処理研究の動向と研究課題", 情報処理, Vol.36, No.11, pp.1012-1019, (1995) [11] 和田俊和, \画像理解{新たな方法論は見つかったか？", 計測と制御, Vol.42, No.6, pp.485-490, (2003) [12] 中川聖一, \音声認識から音声言語理解へ" 日本音響学会誌, Vol.52, No.11, pp.852-856, (1996) [13] 北岡教英, 新宮将久, 中川聖一, \言語的・音響コンテキストが講演音声の聴取および認識に及ぼす効果", 電子情報通信学会, 音声技報, SP2003-33, (2003.6) [14] 中川聖一, \拡張連続 DP 法による連続音声認識", 電子情報通信学会論文誌, Vol.67-D, No.10, pp.1242-1249, (1984) [15] 柴田大輔, 小林哲則, \ワンパストライグラムデューダにおける単語履歴の束ね処理に関する研究", 日本音響学会秋季大会講演論文集, 3-9-12, (2002.10) [16] 北岡教英, 高橋伸寿, 中川聖一, \N-best 線形辞書検索と 1-best 近似木構造辞書探索の併用による大語彙連続音声認識", 電子情報通信学会, 音声技報, SP2003-26, (2003.6) [17] 小川厚徳, 武田一哉, 板倉文忠, \一般化ベルヌーイ試行に基づく言語確率の補正方法", 電子情報通信学会論文誌, Vol.81-DII, No.12, pp.2703-2711, (1998) [18] 堀部千寿, 峯松信明, 中川聖一, \音響モデル尤度と言語モデル尤度のバランスの理論的・実験的検討", 情報処理学会, 音声言語情報処理, SLP31-10, (2000.5) [19] 甲斐充彦, 廣瀬良文, 中川聖一, \N-gram 言語モデルと効率的検索法を用いた大語彙連続音声認識システム", 電子情報通信学会, 音声技報, SP97-99, (1998.1) [20] 伊藤彰則, 牧野正三, \デコーダパラメータ設定の有意性の検討", 日本音響学会, 春季講演論文集, 3-4-10, (2003.3) [21] 南泰浩, \音声生成モデルを考慮した音声認識", 日本音響学会誌, Vol.59, No.11, pp.682-687, (2003) [22] L. Deng and M. Aksmanovic \Speaker-independent phonetic classiåcation using hidden Markov models with mixtures of trend functions", IEEE Trans. Speech and Audio process., Vol.5, No.4, pp.319-324, (1997) [23] L. Deng, D. O'Shaughnessy, \Speech Processing - a dynamic and optimization - oriented approach" Marcel Dekker, Inc. (2003) [24] J-L. Zhou, F. Seide, and L. Deng, \Coarticulation modeling by embedding a target - derected hidden trajectory model into HMM-model and training", Proc. ICASSP, pp.748-751, (2003) [25] F. Seide, J-L. Zhou, and L. Deng, \Coanticulation modeling by embedding a target - directed hidden trajectory model into HMM-MAP decoding and evaluation", Proc. ICASSP, pp.748-751, (2003) [26] Y. Minami, E. Mcdermott, A. Nakamura, and S..

(8) [27]. [28] [29]. [30]. [31]. [32]. [33] [34]. [35] [36]. [37]. [38]. [39]. [40] [41] [42]. [43]. [44]. [45]. [46]. Katagiri, \Recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time series", Proc. ICASSP, pp.957-960, (2002) 全炳河, 徳田恵一, 北村正, \静的・動的特徴の明示的な関係により HMM から導出されるトラジェクトリモデル", 情報処理学会, 音声言語情報処理, SLP49-10, (2003.12) \特集号", Computer Speech and Language, Vol.17, No.5, pp.2-3, (2003) A. Sethy and S. Narayaman, \Split - lexicon based hierachical recognition of speech using syllable and word level acoustic units", Proc. ICASSP, pp.772-775, (2003) 中川聖一, 花井健豪, 山本一公, 峯松信明, \HMM に基づく音声認識のための音節モデルと triphone モデルの比較", 電子情報通信学会論文誌, Vol.83-DII, No.6, pp.1412-1421, (2000) 緒方淳, 有木康雄, \日本語話し言葉音声認識のための音節に基づく音響モデリング", 電子情報通信学会論文誌, Vol.86-DII, No.11, pp.1523-1530, (2003) 池田太郎, 山本一公, 松本弘, 西谷正信, 宮沢康永, \音節連鎖モデルによる大語彙連続音声認識", 情報処理学会, 音声言語情報処理, SLP49-26, (2003.12) A. Webb, \Statistical pattern recognition", (2nd edition), Wiley, (2003) 小玉康広, 渡辺友裕, 宇津呂武仁, 西崎博光, 中川聖一, \機械学習を用いた複数の大語彙連続音声認識モデルの混合", 情報処理学会, 音声言語情報処理, SLP45-16, (2003.2) 麻生英樹, 津田宏治, 村田昇, \パターン認識と学習の統計学", 岩波書店, (2003) 南条浩輝, 李晃伸, 河原達也, \大雄語彙連続音声認識における認識誤り原因の自動同定", 情報処理学会, 音声言語情報処理, SLP27-6, (1999.7) 山本一公, 中川聖一, \発話スタイルによる話速・音韻間距離・尤度の違いと音声認識性能の関係", 電子情報通信学会論文誌, Vol.83-DII, No.11, pp.2438-2442, (2000) 篠崎隆広, 古井貞煕, \話し言葉音声認識における話者間の認識率変動要因の解析", 情報処理学会, 音声言語情報処理, SLP39-19, (2001.12) M. Owens, A. Kruger, P. Donnelly, P. D. Smith, J. Ming, \A missing word test comparison of human and statistical language model performance", Proc. EuroSpeech, pp. 145-149, (1999) 中川聖一, \ロバストな音声認識のための音響信号処理", 日本音響学会誌, Vol.53, No.11, pp.864-871, (1997) 中村哲, \外乱に強い音声認識を目指して", 日本音響学会誌, Vol.57, No.10, pp.662-667, (2001) 松本弘, \雑音環境下の音声認識法、雑音下音声認識に関する共通コーパスと評価", 第 2 回情報科学フォーラム（FIT）, pp.1-4, (2003.9) 中川聖一, 越川忠, \最大事後確率推定法を用いた連続出力分布型 HMM の適応化", 日本音響学会誌, Vol.49, No.10, pp.721-728, (1993) 山本仁, 西本哲也, 嵯峨山茂樹, \フレームごとのモデル合成による残響音声認識" 情報処理学会, 音声言語処理, SLP49-22, (2003.12) A. Acero, \Acoustical and Enviranmental Robustness in Automatic Speech Recognition", Kluwer Academic Pub, (1993) 藤本雅清, 有木康雄, \GMM と EM アルゴリズムを用いた加法性雑音及び乗法性歪みの抑圧", 情報処理学会, 音. −30−. 声言語情報処理, SLP49-5, (2003.12) [47] 中川聖一, 高木英行, \パターン認識における有意差検定と音声認識システムの評価法", 日本音響学会誌, Vol.50, No.10, pp.849-854, (1994) [48] 山田武志, 他 9 名, \雑音下音声認識のための複数の前処理手法の統合とその AURORA-2J による評価", 情報処理学会, 音声言語情報処理, SLP47-18, (2003.12) [49] 中川聖一：小特集, \{音声対話システムの実力と課題{小特集に寄せて−−音声対話システム構築の課題{", 日本音響学会誌, Vol.54, No.11, pp.785-790, (1998) [50] 堂坂浩ニ, 安田宣仁, 宮崎昇, 中野幹生, 相川清明, \システム知識制限下における効率的対話制御" 情報処理学会, 音声言語処理, SLP33-9, (2000.10) [51] 平沢純一, 宮崎昇, 相川清明, \質問応答連鎖からの音声対話システムの誤解の検出", 情報処理学会, 音声言語情報処理, SLP34-41, (2000.12) [52] 北岡教英, 角谷直子, 中川聖一, \対話音声中の言い直し発話の検出と認識", 情報処理学会, 音声言語情報処理, SLP46-6, (2003.5) [53] 西村竜一他, \生駒市コミュニティセンタ音声情報案内システムの開発と運用", 情報処理学会, 音声言語情報処理, SLP45-6, (2003.2) [54] 中川聖一, \語学学習における音声言語処理技術の利用", 電子情報通信学会論文誌, Vol.85, No.12, pp.942-943, (2002) [55] 山本夏夫, 緒方淳, 有木康雄, \トピックセグメンテーションに基づく講義ビデオの構造化の検討", 情報処理学会, 音声言語情報処理, SLP42-12, (2002.7) [56] 長谷川将宏, 秋田裕哉, 河原達也, \談話標識の抽出に基づいた講演音声の自動インデキシング", 情報処理学会, 音声言語情報処理, SLP36-6, (2001.5) [57] 大府克年他, \音声認識を用いたマルチメディアコンテンツのインデクシング", 情報処理学会, 音声言語情報処理, SLP47-4, (2003.7) [58] 鷹尾誠一, 有木康雄, 緒方淳, \クロスメディア・パッセージ検索{テロップや CG フリップ文字列を検索質問とした発話文書に対する検索方式", 電子情報通信学会論文誌, Vol.84-DII, No.8, pp.1809-1816, (2001) [59] 西崎博光, 中川聖一, \音声キーワードによるニュース音声データベース検索手法", 情報処理学会論文誌, Vol.42, No.12, pp.3137-3184, (2001) [60] 伊藤克亘, 藤井敦, \NTCIR-3 ワークショップにおける音声入力型ウェブ検索タスク", 情報処理学会, 音声言語情報処理, SLP43-5, (2002.10) [61] 堀智織古井貞煕, \単語抽出による音声要約文生成法とその評価", 電子情報通信学会論文誌, Vol.85-DII, No.2, pp.200-209, (2002) [62] 小林聡, 吉川裕視, 中川聖一, \表層情報と韻律情報を利用した講演音声の要約", 情報処理学会, 音声言語情報処理, SLP43-7, (2002.10) [63] 堀知織, 鈴木潤, 堀貴明, 磯崎秀樹, 前田英作, \音声インタラクティブ QA のための応答対話文生成法", 日本音響学会講演論文集, 2-9-10, (2002.9) [64] 西崎博光, 中川聖一, \ニュース音声を対象とした音声質問応答システムの試作", 情報処理学会, 音声言語情報処理, SLP46-5, (2003.5) [65] 下岡和也, 河原達也, 奥乃博, \講演の書き起こしに対する統計的手法を用いた文体の整形", 情報処理学会, 音声言語情報処理, SLP41-3, (2002.5).

(9)