音声言語処理の進歩と今後
全文
(2) ア(97 年度版)の性能評価」(第 21 回研究会、1998 年. の認識であった。1970 年前後の目標は孤立単語の認識で. 5 月)、第 4 回 SLP 研究賞)などを経て今日に至ってい. あった。1980 年前後(1978 年の「Speak & Spell」の発. る。このフリーンソフトウェア(この発端となった SLP. 売が契機)の目標は単音節単位の日本語入力であった。. の WG で行った音声データベース JANAS の整備も忘れ. しかし、結果はどうであったであろうか。当時としては、. てはならない)が我国の音声関連研究や周辺研究に与え. 目標が達成されればいろんなアプリケーションが可能で. た影響は大きく、安価な商用ディクテーションソフトウェ. あり、実用に結びつくと考えられたに違いない。しかし、. アとともに手軽に音声応用システムを開発する道を拓い. 1980 年代の文節単位の音声ワープロも頓挫し、1990 年. た。しかし、これは独自に連続音声認識システムを開発. 代の連続発声の音声ディクテーションも思ったほど普及. する研究機関が限られてきたことなど、研究者にとって. していない。それは、人間の音声認識システムに対する. は両刃の剣である。. 限りない高性能の要求に他ならない。これは、音声が人. 1990 年後半のディクテーションソフトウェアの開発・. 間と人間とのコミュニケーション手段として最も自然で. 商用化によって、次のターゲットの模索時に、古井貞煕氏. 常用しているものだからで、これを相手が機械だからと. 代表の「話し言葉工学」プロジェクトの果たした役割は大. 言って使い方を譲歩したり、不便をしいられたのではた. きい(小磯花絵氏「日本語話し言葉コーパスの設計の概要. まったものではない。他に代替手段のないものは人間は多. と書き起こし基準について」、第 36 回研究会、2001 年 5. 少の譲歩や不便を我慢するものであるが、音声ではそれ. 月、第 5 回 SLP 研究賞)。これによって、次の目標は自然. が許される場面は非常に限られている。逆説的になるが、. 発話(spontaneous speech)となり、今日に至っている。. もし賢明な研究者がこの程度の研究目標が達成されても、. 総括すれば「雑音、ハンズフリー、自然発話」等に関. 到底実用化は無理だろうと先を見越して正しく判断でき. する「ロバストネス」の問題が依然として残っていると. ていたら、音声認識の研究はここまで進歩しなかっただ. 言える。 「雑音」に関しては、SLP 傘下に WG(中村哲氏. ろう。少なくとも企業の研究者は「ここまでできれば必. 代表)が組織されており、健全な研究方向ではあるだろ. ず実用化になるアプリケーションが多く存在する」と信. うが、SLP の守備範囲からやや外れている。. じて、1 歩 1 歩研究を進めてきたに違いない。大学の研. 上述のような音声音声認識の研究の流れ以外に、SLP. 究者は興味本位で人間のやっていることを機械で実現し. では忘れてはならないもう一つの大きな流れがあった。そ. たい、音声の本質を解明したいという欲求で研究を続け. れは音声対話・マルチモーダル対話・音声インタフェース. てきたのだろう。多少、法螺を吹いてでも研究費を獲得. の研究である。これは文部省科研費重点領域研究「音声対. し研究を継続するのも許されることもある。. 話」(1994 年∼1996 年、堂下修司氏代表)と通産省のプ. 2. 2 要求される音声認識の性能. ロジェクト「リアルワールドコンピューティング」(1992. 音声に関連する興味深い研究は多くある。例えば言語. 年∼2002 年)が牽引力となった(伊藤慶明氏「同時複数. 獲得の研究である。人間はどのようにして単語とその意. 話者の会話音声およびジェスチャのリアルタイム統合理解. 味概念や文法を獲得していくのだろうか?また、日本語. による Novel Interface System」第 7 回研究会、1995. の音節という単位・概念を獲得していくのだろうか?我々. 年 7 月、第 2 回 SLP 研究賞)。. はこの問題に興味を持って音声と画像情報から単語の概. 今後も、音声対話や音声インタフェースの研究は SLP. 念や文法の獲得、音声情報から音節単位の獲得の研究を. の主流テーマであり続けるであろうし、最近においても. 行い、そこそこの研究成果を得た [4] [5]。しかし、可能性. 確実に進歩しており、また斬新なアイデアも提案されて. を明らかにしただけで幼児のように言語概念が獲得でき. いる(後藤真孝氏「音声補完:TAG on speech」、第 32. たとはとても言えるものではなかった。この時改めて感. 回研究会、2000 年 7 月、第 5 回 SLP 研究賞)。. じたのは、人間並みのパターン認識・照合能力を機械が備 えなければこの種の研究は成功しないということであっ. 2. 何が問題か. た。あまりにも先走った研究はオリジナリティがあって. 音声認識の問題点を機会があるごとに指摘してきた. も成功は難しい。(この種の研究は,学会では一般に高く. が [1] [2] [3]、本稿では少し異なった観点から考えること. 評価されることがあるし、まったく理解が得られないこ. にする。. ともある。). 2. 1 進歩しながら振り出しに戻る音声研究. もう一つの例に韻律情報がある。音声認識には韻律情. 1960 年前後の音声認識研究の目標は「母音や単音節」. 報が役立つと考えられ数多くの研究がなされてきた [6]。. −24−.
(3) 結論を簡単に言うと音声認識性能の悪い場合は、韻律情. た。転機は「折り紙理論」と称する 3 次元物体の線図形. 報は効果的に働き、音声認識性能がある程度高くなれば. 解釈理論の構築からであり、その後、数多くの実世界へ. 韻律情報はあまり役立たない。現在はちょうどこの段階. のコンピュータビジョン研究の応用を成し遂げられてい. であると考えられている。音声認識性能がもっと向上す. る。この豊富な経験からの主張の意味は重い。. れば、韻律情報が効いてくるし、必要となる場合が増え ると考えられる。. また、画像処理研究者の和田俊和氏は「人間の先見的 知識に基づいて非常に複雑な現実世界を記述しようとす. この他、未知語の獲得やドメイン以外の発話の棄却、. るアプローチの限界が明解になった。現在、画像理解とい. ワードスポッティングのためには現在のレベルを越える. うタスクの実現に使える材料はおそらく「事例」しかあ. 高い音声認識技術・性能が要求される。教師なし学習の. りえないだろう」と述べている(但し、知識やルールに. 場合には、単語認識率が 80%を越えれば音節認識率に換. 基づく画像理解のアプローチを否定はしていない)[11]。. 算すると 90%程度になり教師なし学習と教師あり学習の. コンピュータの記憶容量、計算の精度は人間の能力を. 効果の差は小さくなる [7] [8] (しかし、これも認識率の. 凌駕している。HMM やトライグラムの数十万∼数百万. 最終目標値に依存することに注意を要する)。人間の音声. というパラメータがそれぞれ 10%でも変動すれば認識率. 知覚の性能は悪い条件下でも単語認識率換算で 80%は越. は大きく劣下するが、このような方法はとても人間がやっ. えていると思われるので難なく自律的に話者適応(環境. ているとは思われない。音声認識は人間の音声知覚過程. 適応)していると予想できる。. の構成的解明という科学的な側面と人間と機械とのイン. 2. 3 音声認識は科学か工学か. タフェースに用いるという工学的側面がある。この両者. 音声の研究は科学的な側面と工学的な側面を持ってい. の立場を明確に区別し、研究をすすめていく必要がある。. る。音声認識の研究も同様で、人間の知覚過程を解明し. 勿論、科学的側面から得られた知見を工学的モデルに取. ようとする立場から工学的に応用しようとする立場まで. り入れていく必要があるが、有用な知見は意外と少ない のが現状である [2] [12]。但し、知覚実験により、分析合. ある。ここでは後者の立場で考える。 筆者が、最近、最も感銘を受けた記事の一つは、金出. 成音の明瞭さと特徴パラメータの関係、知覚に重要な音. 武雄氏の「コンピュータビジョンと AI」(第 16 回人工知. 声区間(わたり部)、コンテキスト依存の範囲 [13] など音. 能学会全国大会招待講演の要約)[9] である。以下その要. 声認識システムを構築するのに参考になる知見はある。. 点を述べ、音声分野にあてはめた場合を記す。. 3. 確率モデルによる音声認識の問題. è ビジョンというものは、幾何学・代数学をしっかり. 3. 1 定式化と探索. やり、物理・光学的性質を使えばいろいろな難しい問題. よく知られているように音声認識問題は以下のように. が解ける。→音声というものは、信号処理をしっかりや り、音声の物理的性質を使えばいろいろな問題が解ける。. 定式化される。. è コンピュータビジョンで成功したものはほとんど. ^ jY ) = max P (Y jW ) ÅP (W )=P (Y ) P (W. 認識問題ではない。→音声認識は難しい。実用化したの. fW g. は音声符号化であり、音声認識よりも音声合成の方が実 現しやすい(様々な音声を合成するのは認識よりも難し いが [10])。. è 人間を知るという目的ではなく、より知能的なシ ステムをつくるという目的なら、人間のやっているのと 関係なくやった方が賢く、人間がやっていることが最適 であるというのは懐疑的である。「何ができるか」のヒン. (1). ここで、Y は観測される音声特徴時系列パターン、. W (= W1 ÅÅÅWN ) は単語列である。P(Y) は、音声時系. 列パターンの事前確率で W とは独立なので無視できる。. P(Y|W) は通常 HMM で、P(W) は通常トライグラム でモデル化される。これらの欠点は以前から指摘されて いるのでここではふれない [1] [2] [3]。(1) 式は通常、次の ように定式化されて最適単語列を見つける。. トとして受け止めるべきで、そのやり方はまねる必要は ない。「まねる」と「学ぶ」は一緒ではない。→大量デー タに基づく音響モデル、言語モデルは人間のモデルとは. ^ = arg max log P (Y jW ) W fW g. 異なるが一つの正しい工学的アプローチである。 金出氏の研究歴は、最初はパターンのクラスタリング の修士論文から始まり、顔画像の認識が博士論文であっ. −25−. = arg max fW g. N X. t. flog P (yti+1 jWi ) + ïlog P (Wi jhi ) + ãg i. i=1. (2).
(4) よる変動がモデルの構築とパラメータ推定を困難にして ここでは、hi は単語履歴、 ï は音響尤度と言語尤度. いることから、音声合成のように大量の音声データを用. のバランスを取るための言語重み、ã は挿入ペナルティ. いた特定話者の音響モデルを構築・評価するのも、研究. (ボーナス)である。DP マッチングでも言えたことであ. を促進させる一助になるかも知れない。. るが、(2) 式の定式化に対して、最適な単語列を見つける ほど単語認識率が向上する [14] [15] [16]。これは、人間の. 線形予測モデルと線形回帰モデルを併合した次のモデ ルも試みられた [22] [23]。. 決定的単語知覚法と異なってはいるが、工学的モデルと しては正しいという証左でもある。しかし、1∼2%の単語. y(t) =. 言語重みと挿入ペナルティの値の理論的考察は少なく. [1] [17] [18]、実験的に検討されているに過ぎない [19] [20]。 言語重みについては、我々は音響尤度のフレーム長依存 性(2 倍長く発声すれば尤度は 2 倍になる)と音響特徴パ ラメータの冗長性(MFCC に対して、△ MFCC を同時 に用いると尤度はほぼ 2 倍になる)に起因することを示 した。勿論、信頼性の高い方に重みを大きくするという. ûi (k)y(t Ä k) +. k=1. 認識率の向上(10%程度の誤り率の減少)は、実用上どれ ほど意味のあるものか冷静に考えて見る必要がある [2]。. K X. M X. p. bi (p)t + ei (t). (4). p=0. ここで、i は状態を表し、K は予測次数、M は線形回 帰モデルの次数である。一般に û も L 次の多項式で表さ れたモデルも提案されている [23]。さらに、û と b を t に 依存するように拡張されている。y(t) の近似という点か らはベースラインの K=L=M=0 に対して、 K=1,2 が 最も効果があるが、競合パターンに対しても近似してし まい、認識精度とは直結しない [23]。最近では、隠れ軌跡 モデル (hidden trajectory model : HTM) を HMM に埋 め込んだ次の調音結合モデル (HTHMM) が提案されてい る [24] [25]。. 一般論も考慮すべきである。一方、挿入ペナルティ(ボー. z(t) = g(t) + w(t). ナス)の理論的考察は難しい。例えば、言語モデルを用. y(t) = h. u(t). (z(t)) + v(t). (5). いない場合の連続単語認識や連続音節認識の場合は接続 時にペナルティの値を設定する必要がある。これは、全 区間をカバーする単語列(音節列)を構成する単語(音 節)が多い程、尤度の高い単語列が生じる可能性が高く なるからである。また、これは代替可能な候補数が多い 程、この現象の可能性が高くなるので、パープレキシティ に依存する。勿論、音響モデルの精度がよくなればペナ. ここで、g(t) は隠れ軌跡の予測値、z(t) は真値、u(t) は フレームtでの音声単位(例:音素/ 音素の状態)、hu (z) は調音パラメータから音響パラメータへの非線形写像関 数(MLP で実現)である。g(t) はターゲット T に斬近 する次の 2 次の臨界制動関数で表現される。. ルティの値は小さくなる。一方、言語モデルを用いる場 2. 2. g(t) = 2çu(t) g(t Ä 1) Ä çu(t) g(t Ä 2) + (1 Ä çu(t) ) Tu (t). 合、単語の接続毎に接続確率を乗じていくので、単語数. (6). が多くなる程不利になり、ボーナスを設定する必要があ る。このペナルティとボーナスの両要素を加味した値の 設定の理論的考察は難しい。. また、h(z) はテーラー展開で近似し、o(t) は次式で. 3. 2 音響モデル. 表す。. HMM による音響モデルの欠点は、フレーム間の相関 ñ + u0 (t) ñ + H(Z Ä Z) y(t) = ñ. のモデル化や、動的な特徴変化のモデル化ができない点 と継続時間の分布のモデル化が不充分であるという 2 点 である [1] [2] [3]。前者に対しては多くの手法が提案され てきた [2] [21]。最も一般的な手法はフレーム間の相関に 対してはセグメントを用いることとパラメータの動的変 化に対しては次式で近似することである。 éy(a) 1 é2 y(a) (t Ä a)2 (t Ä a) + y(t) = y(a) + ét 2 é2 t2. (7). H = 0 の場合は、通常の HMM と等価になる。実装上、 連続状態に相当する g は量子化される。Aurora2 の評価 では、音素単位の HTHMM は通常の triphone HMM を 上回る結果を得ているが 10%の改善率に留まっている。 調音モデルやフォルトマントからの音声合成法が従来か. (3). ら試みられてはいるが、成功しているとは言えず、合成 よりも認識に有効と言えるか疑問である。. しかし、y(t) が話者によって異なり、しかも状態間で. 最近、HMM 合成の手法を音声認識モデルに適用したト. の y(t) の連続性を考慮することが難しく、簡易的手法と. ラジェクトリモデルが提案されている [26] [27]。これは、. して△、△△パラメータがよく用いられている。話者に. 静的パラメータ時系列から動的パラメータである△、△. −26−.
(5) △パラメータが確定的に決定できることを明示的にモデ. ムよりも広いコンテキストを用いており [39]、この差の. ル化したものである。特定話者の評価実験で、音素認識. 解消法として、トライグラムの広いコンテキストによる. 結果候補の再評価に用いて、15%程度の誤り削減率を得. 適応化 [2] (キャッシュモデル、トリガーモデル、LSA モ. ている。HMM による音声合成がある程度の成功を収め. デル)や構造化言語モデルとトライグラムの併用 [2] など. ているという事実から、有望な手法の一つと考えてよい。. が提案されている。この他、トピック別言語モデルの混. しかし、ダイナミックベイジアンネットワーク [28] を含. 合法などと併用すればトライグラムと比べてパープレキ. め、上述のような音響モデルの研究は重要ではあるが、期. シティの削減率は 30%程度が期待でき [2]、言語コーパス. 待以上の改良が得られていないのが現状である。. の継続的な充実を図ればほぼ限界に近づくと考えられる。. 一方、音響モデルの単位と認識法を見直す必要がある。 音響モデルの単位としては、トライフォンに代わり、音. 一方、少量のコーパスで言語モデルを適応化する手法は、 実用上重要である。. 節単位や単語単位が見直されている [29]。これは、大量の 音声データと計算機パワーの増大によるところが大きい。. 言語レベルのモデル化対象は単語系列であり、単語の 種類は有限個であるから離散確率分布でモデル化するの. 欧米語ではトライフォンよりも音節の方が広いコンテキ. が自然であるが、パラメータ数が極めて多い。LSA など. ストを考慮でき、知覚・発声の単位であることから今後. は単語空間を 100∼200 次元に圧縮しているが、10 次元. 益々有望となってこよう。日本語の場合は、音節単位は. 程度に圧縮し、nグラムを連続確率密度分布でモデル化. トライフォンよりも扱うコンテキストは狭いが、認識に. する方法でどこまで正確にモデル化できるか検討するの. 重要な子音と母音のわたり区間が定常区間よりも正確に. は興味ある問題である。. モデル化できるからコンパクトでしかもロバストな認識. これからの問題は未知語や姓名などのすべて辞書とし. 単位である [30] [31]。日本語の場合はコンテキスト依存音. て登録できないものの処理、文を越える文脈を通した認. 節モデルを考慮する必要がある [32]。さらに、発音の変形. 識誤りの訂正(認識決定の先送り機構、現在の認識シス. (例えば無声化や脱落)に関しては、音節単位の方がトラ イフォンよりもモデル化が容易である。. テムは 1 文内でこれを実現している)、背景知識を利用し た意味・意図理解である。これらの問題は音響モデルの. 発音の変形に関しては、音響モデルでカバーするため には、音響モデルよりも単語単位の方がより有望である. 高精度化、遅々として進まない文脈理解・言語理解の研 究の進展を待たなければならない。. が、一部の単語に適用するのが現実的である。そこで、発. 4. ロバスト性. 音変形辞書の研究の重要性も見直す必要がある。. 4. 1 音声認識のロバスト性. また、パターン認識の一般論として、誤り最小学習法 が効果があるように複数認識器の混合手法を追求するの. 音声認識の性能が劣化する要因として、a) 話者の個人. も有望である。特徴パラメータ領域での混合(マルチス. 差や発話スタイルの差の他に、b) マイクロフォン特性や. トリーム)[33] や認識器の混合(ローバー法や機械学習. 伝送路歪(帯域幅の差など)、c) 雑音や残響(反射音)、. 法)[34]、トレーニングデータからのパラメータ学習の混. マイクロフォンとの距離の差などがある [40]。a) に対し. 合(バギング法やブースティング法)[35] など検討に値す. ては音響モデルの学習に多数の話者のデータや認識時の. る手法である。なお、システムの改善には認識誤り分析が. 発話スタイルに合致するトレーニングデータを用いるこ. 重要であることは言うまでもない [36] [37] [38]。しかし、. とにより効果のあることがわかっており、この上に話者. 誤り原因は認識モデルに依存することに注意を要する。. 適応化や環境適応化により音響モデルを適応化する方法 が試みられている。. 3. 3 言語モデル 人間の知覚過程から学ぶべき点はあるがまねる必要は. b) の電気的伝送系の歪に対しては、トレーニングデー. ないと 2.3 節で述べたが、人間の音声言語処理の能力・性. タとテストデータ間の特性の歪みを事前情報をもとに直. 能は工学的目標として参考になる。人間の音韻知覚精度. 接補償する以外に方法はない。. は 90∼95%、言語知識の利用による一般文章に対する単. 実用上重要なのが c) の空間伝送系の歪による変動であ. 語単位のパープレキシティは 100 前後である [2]。一方、. る。加法性雑音に限っても、定常性雑音と非定常性雑音、. 機械のそれぞれの能力は 70∼80%、70∼200(ドメイン. 突発性雑音などがあり、スペクトル減算法、マルチバン. 依存)である [2]。このことより、トライグラム言語モデ. ド・マルチストリーム法、欠除特徴理論(missing feature. ルは優れたモデルと言える。しかし、人間はトライグラ. theory)、音響バックオフ、確率ユニオンモデル等が提案. −27−.
(6) されている [40] [41] [42]。スペクトル減算法以外は、不確. る手段で、人間同士の対話ではよく見かける現象である。. かな特徴パラメータは用いないで、信頼できる特徴パラ. この実現には、あいまいな箇所以外は確実に理解できる. メータだけを用いようとするものである。しかし、ハン. というシステム全体の性能向上が要求される。一方、後. ズフリーの音声認識を考えた場合、マイクロフォンと発. 者は、雑談的に対話をはずませるための技術で実装は比. 話者の距離は 1∼3 m程度になり、反射音などによる伝送. 較的容易である。 システムが予期していないユーザ発話の対処も重要で. 歪(乗算性歪)も同時に扱う必要がある。 この場合、音声特徴空間を多数の部分空間に分割すれ. ある。例えば、ドメイン外・タスク外発話の検出と棄却、. ば、話者、加法性雑音、伝送路歪を同時に近似的に適応. ユーザの独り言や隣人との会話とシステムへの入力との. 化できると考えられる [40] [43](但し、分析フレーム長. 区別 [52] などの技術である。音声対話システムを継続的. を越える残響音の扱いは難しい [44])。これは、スペク. に運用し、対話データベースの収集と対話データの分析. トル領域の部分空間とケプストラム領域の部分空間は. を行い、システムの改良にフィードバックすることも重. 1 対 1 に対応しており、その部分空間内では、近似的に. 要である [49] [53]。. 両者が線形関係になっていると仮定できるからである。. 5. 音声言語処理技術の応用. 部分空間への分類の仕方として、HMM の状態毎の適応 化や、VQ コードベクトルによる CDCN(Codeword -. 1995 年時に、筆者らが予想していた音声言語処理技術. Dependent Cepstrum Normalization)[45] がある。最. の応用分野は自動車系(ナビゲーション)、電話系(ポー. 近、CDCN 法を一般化した GMM 法による音声信号の推. タルサイト、ヘルプデスク)、教育系(CAI)、ディクテー. 定法が提案されているが [46]、有望な手法と考えられる。. ションマシン系を挙げ、マルチメディアにおける音声処. 現状の音声認識技術では S/N 比が 10 d B 以下の環境や. 理は不透明とした [10]。教育系、特に語学 CAI(CALL). マイクロフォンとの距離が 2 mを越えると使いものにな. に関しては、この 10 年間の音声認識技術の進歩により. らない状況である [41]。このような状況で手法の優劣の議. マーケットはまだ小さいが着実に実用化が行われている. 論がどれ程意味があるか考えてみる必要がある [47]。筆者. と言ってよい [54]。この 10 年間に予想外に注目を浴びた. の予想では特徴パラメータや音響モデルが実用上に耐え. のはロボット系(ペットロボット)であった。これは今後. 得る程に精度が向上すれば、部分空間ごとの適応化法の. とも癒し系ロボットとして需要がありそうである。コミュ. 違いによる認識率の差はなくなると考えている。. ニケーションでは身体性が重要であると実証されたのも. 悲しいことに、クリーン音声で学習した音響モデルで. この 10 年であったと思われるが、テレビゲームに没入感. 雑音重畳音声を雑音除去手法を施して認識した結果は、. が生じている事実からも、(身体性を有してなくても)雑. 種々の雑音重畳音声で学習した音響モデルで雑音重畳音. 談に応じるロバストな音声コミュニケーション手法の確. 声を認識した結果よりも悪いのが現状である [48]。これは. 立が望まれる。 この 10 年間に確実に芽生えてきたのがマルチメディア. 音声認識・パターン認識の難しさを如実に物語っている。. 4. 2 言語処理・対話処理のロバスト性. 情報における音声処理分野でトピック抽出 [55]、インデキ. 音声入力のロバスト性を高めるためには、話し言葉で. シング [56] [57]・検索 [58] [59] [60]・要約 [61] [62] ・質問. 頻繁に生じる助詞落ち、省略、倒置、言い淀み、言い直. 応答 [63] [64] の基礎研究が行われ、今後大きく発展しそ. し、断片的な発話 [10] [49] を扱えること以外に誤認識・誤. うな分野である。テキスト文書を対象とした研究にない、. 解の回復機能(error handling)が重要である。通常の音. 環境音も含めた音声に特化した研究が有用である。話し. 声対話システムではシステム側からの確認発話で対処す. 言葉をそのまま書き起こすと読解し難い文となるので音. る場合が多いが、これに対するユーザの応答の認識さえ. 声の整形 [65] も重宝であるが言語理解という難しい問題. 完全にはできない。. を内包している。近い将来、人が生涯見聞き・話す映像・. 対話効率の観点からの対話制御法が検討されている. 音声をすべて身体装着で記録・蓄積することも技術的に. が [50]、ユーザに負担をかけずに対話をスムーズに進め. 可能となる。この膨大な情報の管理、検索は音声言語を. るためには、システムの誤解の自動検出 [51] やユーザの. キーとして行うのが効率的で有用である。例えば「言っ. 誤り訂正発話の自動検出 [52] も重要である。高等な対話. た言わない」のトラブルの解消に役立つ。これは「見た. 技術としては「わかったふり」言動、「わからないふり」. 見てない」、「したしてない」のトラブルの解消よりも有. 言動がある。前者は文脈情報からシステムが自動回復す. 用でしかも実現性が高い。今後の大量マルチメディア情. −28−.
(7) 報時代において、音声言語処理技術はセマンティックディ ジタルアーカイブの核として位置付けられよう。. 6. む す び 本稿では、音声言語処理技術の動向と問題点を指摘し た。主な主張を要約すると、. è 音声認識を工学的問題をとらえると人間の知覚方 法と違ったアプローチになっても不思議ではない。. è 音声認識を確率モデルで定式化する場合、音響モ デル、言語モデル、探索ゴリズムに分類でき、特に音響 モデルの不十分さが問題である。. è (コンテキスト依存)音節モデルや単語単位モデ ルが音声のモデル単位として有望である。. è 統計的パターン認識手法の適用の余地はまだ残さ れている。. è 音声生成モデルによる音声認識手法は、音声合成 で成功しない限り難しい。. è 音声認識の性能が実用に耐え得る程度に向上すれ ば、教師なしの比較的単純なモデル適応化手法でも複雑 な適応化手法と引けをとらない効果が見込める。. è 未知語の処理と獲得が重要な問題であるが、これ には高精度な音響モデルと高度な自然言語理解の技術が 必要である。. è 音声認識のロバストネス(実環境下、ハンズフリー) と対話処理のロバストネス(認識誤りや誤解からの回復) は実用上重要な課題である。. è 音声ドキュメントのインデキシング・検索・要約・ 質問応答は今後有望な分野となる。 本稿では従来からの筆者の主張と筆者らの研究例を参 照しながら音声言語処理研究の進歩と今後を述べた。他 の研究機関の参考文献は、入手しやすいものを挙げたの みで、オリジナリティのある重要な論文を落としている 可能性は大きいが他意はないので御容赦願いたい。少し 偏った見方かも知れないが、議論のきっかけになれば幸 いである。 文. 献. [1] 中川 聖一, \音声認識の研究課題", 情報処理学会, 音声言 語情報処理, SLP29-1, (1999.12) [2] 中川 聖一, \音声認識研究の動向", 電子情報通信学会論文 誌, Vol.83-DII, No.2, pp.433-457, (2000) [3] 中川 聖一, \音声認識において HMM とトライグラムを 越えるもの", 人工知能学会誌, Vol.17, No.1, pp.35-40, (2002) [4] 中川 聖一, 中西 宏文, 古部 成章, 板橋 光義, \視聴覚情 報の統合化に基づく概念の獲得", 人工知能学会誌, Vol.8, No.4, pp.499-508, (1993) [5] 中川 聖一, 斎藤 稔, 升方 幹雄, \音声情報処理単位の自 動獲得と音声認識・符号化への応用", 人工知能学会誌,. −29−. Vol.13, No.4, pp.619-630, (1998) [6] 浮田 輝彦, 中川 聖一, 坂井 利之, \日本語算術文の音声認 識におけるピッチパターンの利用", 電子情報通信学会論 文誌, Vol.63-D, No.11, pp.954-961, (1980) [7] W. Zhang and S. Nakagawa, \Continuous speech recognition using an on-line speaker adaptation method based on automatic speaker clustering", IEICE Trans. Vol.E83-D, No.3, pp.434-473, (2003) [8] 渡辺 友裕, 中川 聖一, 西崎 博光, 宇津呂 武仁, \講演音 声における認識結果の高信頼度部分の抽出とそれを用い た教師なし話者適応", 情報処理学会, 音声言語情報処理, SLP49-2, (2003.12) [9] 金出 武雄, \コンピュータビジョンと AI{その関係と無関 係{", 人工知能学会誌, Vol.18, No.3, pp.328-335, (2003) [10] 中川 聖一, 堂下 修司, \音声言語情報処理研究の動向と研 究課題", 情報処理, Vol.36, No.11, pp.1012-1019, (1995) [11] 和田 俊和, \画像理解{新たな方法論は見つかったか?", 計測と制御, Vol.42, No.6, pp.485-490, (2003) [12] 中川 聖一, \音声認識から音声言語理解へ" 日本音響学会 誌, Vol.52, No.11, pp.852-856, (1996) [13] 北岡 教英, 新宮 将久, 中川 聖一, \言語的・音響コンテキ ストが講演音声の聴取および認識に及ぼす効果", 電子情 報通信学会, 音声技報, SP2003-33, (2003.6) [14] 中川 聖一, \拡張連続 DP 法による連続音声認識", 電子 情報通信学会論文誌, Vol.67-D, No.10, pp.1242-1249, (1984) [15] 柴田 大輔, 小林 哲則, \ワンパストライグラムデューダに おける単語履歴の束ね処理に関する研究", 日本音響学会 秋季大会講演論文集, 3-9-12, (2002.10) [16] 北岡 教英, 高橋 伸寿, 中川 聖一, \N-best 線形辞書検索と 1-best 近似木構造辞書探索の併用による大語彙連続音声認 識", 電子情報通信学会, 音声技報, SP2003-26, (2003.6) [17] 小川 厚徳, 武田 一哉, 板倉 文忠, \一般化ベルヌーイ試行 に基づく言語確率の補正方法", 電子情報通信学会論文誌, Vol.81-DII, No.12, pp.2703-2711, (1998) [18] 堀部 千寿, 峯松 信明, 中川 聖一, \音響モデル尤度と言語 モデル尤度のバランスの理論的・実験的検討", 情報処理 学会, 音声言語情報処理, SLP31-10, (2000.5) [19] 甲斐 充彦, 廣瀬 良文, 中川 聖一, \N-gram 言語モデルと 効率的検索法を用いた大語彙連続音声認識システム", 電 子情報通信学会, 音声技報, SP97-99, (1998.1) [20] 伊藤 彰則, 牧野 正三, \デコーダパラメータ設定の有意性 の検討", 日本音響学会, 春季講演論文集, 3-4-10, (2003.3) [21] 南 泰浩, \音声生成モデルを考慮した音声認識", 日本音響 学会誌, Vol.59, No.11, pp.682-687, (2003) [22] L. Deng and M. Aksmanovic \Speaker-independent phonetic classiåcation using hidden Markov models with mixtures of trend functions", IEEE Trans. Speech and Audio process., Vol.5, No.4, pp.319-324, (1997) [23] L. Deng, D. O'Shaughnessy, \Speech Processing - a dynamic and optimization - oriented approach" Marcel Dekker, Inc. (2003) [24] J-L. Zhou, F. Seide, and L. Deng, \Coarticulation modeling by embedding a target - derected hidden trajectory model into HMM-model and training", Proc. ICASSP, pp.748-751, (2003) [25] F. Seide, J-L. Zhou, and L. Deng, \Coanticulation modeling by embedding a target - directed hidden trajectory model into HMM-MAP decoding and evaluation", Proc. ICASSP, pp.748-751, (2003) [26] Y. Minami, E. Mcdermott, A. Nakamura, and S..
(8) [27]. [28] [29]. [30]. [31]. [32]. [33] [34]. [35] [36]. [37]. [38]. [39]. [40] [41] [42]. [43]. [44]. [45]. [46]. Katagiri, \Recognition method with parametric trajectory synthesized using direct relations between static and dynamic feature vector time series", Proc. ICASSP, pp.957-960, (2002) 全 炳河, 徳田 恵一, 北村 正, \静的・動的特徴の明示的な 関係により HMM から導出されるトラジェクトリモデル", 情報処理学会, 音声言語情報処理, SLP49-10, (2003.12) \特集号", Computer Speech and Language, Vol.17, No.5, pp.2-3, (2003) A. Sethy and S. Narayaman, \Split - lexicon based hierachical recognition of speech using syllable and word level acoustic units", Proc. ICASSP, pp.772-775, (2003) 中川 聖一, 花井 健豪, 山本 一公, 峯松 信明, \HMM に 基づく音声認識のための音節モデルと triphone モデル の比較", 電子情報通信学会論文誌, Vol.83-DII, No.6, pp.1412-1421, (2000) 緒方 淳, 有木 康雄, \日本語話し言葉音声認識のための 音節に基づく音響モデリング", 電子情報通信学会論文誌, Vol.86-DII, No.11, pp.1523-1530, (2003) 池田 太郎, 山本 一公, 松本 弘, 西谷 正信, 宮沢 康永, \音 節連鎖モデルによる大語彙連続音声認識", 情報処理学会, 音声言語情報処理, SLP49-26, (2003.12) A. Webb, \Statistical pattern recognition", (2nd edition), Wiley, (2003) 小玉 康広, 渡辺 友裕, 宇津呂 武仁, 西崎 博光, 中川 聖 一, \機械学習を用いた複数の大語彙連続音声認識モデル の混合", 情報処理学会, 音声言語情報処理, SLP45-16, (2003.2) 麻生 英樹, 津田 宏治, 村田 昇, \パターン認識と学習の統 計学", 岩波書店, (2003) 南条 浩輝, 李 晃伸, 河原 達也, \大雄語彙連続音声認識に おける認識誤り原因の自動同定", 情報処理学会, 音声言語 情報処理, SLP27-6, (1999.7) 山本 一公, 中川 聖一, \発話スタイルによる話速・音韻間 距離・尤度の違いと音声認識性能の関係", 電子情報通信 学会論文誌, Vol.83-DII, No.11, pp.2438-2442, (2000) 篠崎 隆広, 古井 貞煕, \話し言葉音声認識における話者間 の認識率変動要因の解析", 情報処理学会, 音声言語情報処 理, SLP39-19, (2001.12) M. Owens, A. Kruger, P. Donnelly, P. D. Smith, J. Ming, \A missing word test comparison of human and statistical language model performance", Proc. EuroSpeech, pp. 145-149, (1999) 中川 聖一, \ロバストな音声認識のための音響信号処理", 日本音響学会誌, Vol.53, No.11, pp.864-871, (1997) 中村 哲, \外乱に強い音声認識を目指して", 日本音響学会 誌, Vol.57, No.10, pp.662-667, (2001) 松本 弘, \雑音環境下の音声認識法、雑音下音声認識に 関する共通コーパスと評価", 第 2 回情報科学フォーラム (FIT), pp.1-4, (2003.9) 中川 聖一, 越川 忠, \最大事後確率推定法を用いた連続 出力分布型 HMM の適応化", 日本音響学会誌, Vol.49, No.10, pp.721-728, (1993) 山本 仁, 西本 哲也, 嵯峨山 茂樹, \フレームごとのモデル 合成による残響音声認識" 情報処理学会, 音声言語処理, SLP49-22, (2003.12) A. Acero, \Acoustical and Enviranmental Robustness in Automatic Speech Recognition", Kluwer Academic Pub, (1993) 藤本 雅清, 有木 康雄, \GMM と EM アルゴリズムを用 いた加法性雑音及び乗法性歪みの抑圧", 情報処理学会, 音. −30−. 声言語情報処理, SLP49-5, (2003.12) [47] 中川 聖一, 高木 英行, \パターン認識における有意差検定 と音声認識システムの評価法", 日本音響学会誌, Vol.50, No.10, pp.849-854, (1994) [48] 山田 武志, 他 9 名, \雑音下音声認識のための複数の前処 理手法の統合とその AURORA-2J による評価", 情報処 理学会, 音声言語情報処理, SLP47-18, (2003.12) [49] 中川 聖一:小特集, \{音声対話システムの実力と課題{小 特集に寄せて−−音声対話システム構築の課題{", 日本音 響学会誌, Vol.54, No.11, pp.785-790, (1998) [50] 堂坂 浩ニ, 安田 宣仁, 宮崎 昇, 中野 幹生, 相川 清明, \シ ステム知識制限下における効率的対話制御" 情報処理学 会, 音声言語処理, SLP33-9, (2000.10) [51] 平沢 純一, 宮崎 昇, 相川 清明, \質問応答連鎖からの音声 対話システムの誤解の検出", 情報処理学会, 音声言語情報 処理, SLP34-41, (2000.12) [52] 北岡 教英, 角谷 直子, 中川 聖一, \対話音声中の言い直 し発話の検出と認識", 情報処理学会, 音声言語情報処理, SLP46-6, (2003.5) [53] 西村 竜一他, \生駒市コミュニティセンタ音声情報案内シ ステムの開発と運用", 情報処理学会, 音声言語情報処理, SLP45-6, (2003.2) [54] 中川 聖一, \語学学習における音声言語処理技術の利用", 電子情報通信学会論文誌, Vol.85, No.12, pp.942-943, (2002) [55] 山本 夏夫, 緒方 淳, 有木 康雄, \トピックセグメンテー ションに基づく講義ビデオの構造化の検討", 情報処理学 会, 音声言語情報処理, SLP42-12, (2002.7) [56] 長谷川 将宏, 秋田 裕哉, 河原 達也, \談話標識の抽出に基 づいた講演音声の自動インデキシング", 情報処理学会, 音 声言語情報処理, SLP36-6, (2001.5) [57] 大府 克年他, \音声認識を用いたマルチメディアコンテン ツのインデクシング", 情報処理学会, 音声言語情報処理, SLP47-4, (2003.7) [58] 鷹尾 誠一, 有木 康雄, 緒方 淳, \クロスメディア・パッ セージ検索{テロップや CG フリップ文字列を検索質問と した発話文書に対する検索方式", 電子情報通信学会論文 誌, Vol.84-DII, No.8, pp.1809-1816, (2001) [59] 西崎 博光, 中川 聖一, \音声キーワードによるニュース音 声データベース検索手法", 情報処理学会論文誌, Vol.42, No.12, pp.3137-3184, (2001) [60] 伊藤 克亘, 藤井 敦, \NTCIR-3 ワークショップにおける 音声入力型ウェブ検索タスク", 情報処理学会, 音声言語情 報処理, SLP43-5, (2002.10) [61] 堀 智織 古井 貞煕, \単語抽出による音声要約文生成法と その評価", 電子情報通信学会論文誌, Vol.85-DII, No.2, pp.200-209, (2002) [62] 小林 聡, 吉川 裕視, 中川 聖一, \表層情報と韻律情報を利 用した講演音声の要約", 情報処理学会, 音声言語情報処 理, SLP43-7, (2002.10) [63] 堀 知織, 鈴木 潤, 堀 貴明, 磯崎 秀樹, 前田 英作, \音声イ ンタラクティブ QA のための応答対話文生成法", 日本音 響学会講演論文集, 2-9-10, (2002.9) [64] 西崎 博光, 中川 聖一, \ニュース音声を対象とした音声質 問応答システムの試作", 情報処理学会, 音声言語情報処 理, SLP46-5, (2003.5) [65] 下岡 和也, 河原 達也, 奥乃 博, \講演の書き起こしに対す る統計的手法を用いた文体の整形", 情報処理学会, 音声言 語情報処理, SLP41-3, (2002.5).
(9)
関連したドキュメント
地図 9 “ソラマメ”の語形 語形と分類 徽州で“ソラマメ”を表す語形は二つある。それぞれ「碧豆」[pɵ thiu], 「蚕豆」[tsh thiu]である。
†Kanazawa University kakuma-machi, kanazawa-shi, Ishikawa, 920-1192 Japan E-mail: †[email protected] Abstract In this paper, we propose Vision Chip architecture
Accept customer request (via telephone, e-mail, fax and etc.). Record and track incident and users’ feedback. Update users the current status and progress about
Department of Central Radiology, Nagoya City University Hospital 1 Kawasumi, Mizuho, Mizuho, Nagoya, Aichi, 467-8602 Japan Received November 1, 2002, in final form November 28,
The study on the film of the block copolymer ionomer with a cesium neutralized form (sCs-PS- b -f-PI) revealed that a small amount of water and thermal annealing promoted the
Vondrák の
* Department of Mathematical Science, School of Fundamental Science and Engineering, Waseda University, 3‐4‐1 Okubo, Shinjuku, Tokyo 169‐8555, Japan... \mathrm{e}
MEHMET AL SARIG ¨ OL Department of Mathematics, Pamukkale University, 20017 Denizli, Turkey e-mail