• 検索結果がありません。

学位論文内容の要旨

N/A
N/A
Protected

Academic year: 2021

シェア "学位論文内容の要旨"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 情 報 科 学 ) 藤 原 敬 記

学 位 論 文 題 名

音声対話システムにおける頑健な言語理解と 自然な音声対話に関する研究

学位論文内容の要旨

  現 在,情報 機器の 高速化 ・高度 化を背 景に身 の回り の様々 な場所で コンピ ュータが利用されてい る. それら の入出 力装置 として はタッチパネルやディスプレイ,あるいはキーボードやマウスといっ たも のが一 般的で ある. しかし 一方で ,これ らの入出 力装置 は車載 情報機 器などでの使用において は, 安全性 や操作 性など を考え た場合,必ずしも最適なインターフェースとはいえない.そこで近年 マン マシン インタ ーフェ ースと して, 音声対 話システ ムが注 目され てきて いる.音声対話システム は,音声認識,言語理解,問題解決,対話制御,音声合成など様々な技術を統合したシステムである.音 声は ,人間 が日常 用いて いるコ ミュニケーション手段であり,ユーザにとって親しみやすく,また特 別な 訓練が 必要な いとい う利点 がある.さらに手や目を占有しない(ハンズフリー・アイズフリー)

ので他の作業を行いながらでも使用可能であると言った利点もある.

  実 環境での 音声対 話シス テムの 使用に おいて は様々 な問題 が存在す る.そ のひとっに音声認識誤 りが ある. 音声認 識は長 年に渡 って研究されてきており,孤立発話や読み上げ音声などに対しては,

実用 レベル に達し ている といえ る.実 際にニ ュースの 字幕作 成にお いて音 声認識が実用化されてい る. また現 在では 市販の ソフト ウェア として 販売され ている ものも 少なく ない.しかし,アナウン サー が原稿 を読み 上げて いる音 声やき ちんと 発声して いる音 声に対 しての 認識率は高いものの,日 常会 話の話 し言葉 などの 自発発 話の音 声に対 する認識 率はそ れほど 高くな い,自発発話の音声認識 が難しいのは,自発発話音声には,言い直し,言いよどみ,繰り返し,間投詞,不正確な発音などが含 まれ ,音響 的にも 言語的 にも読 み上げ音声とは大きく異なるためである.そのため,実環境での音声 対話 システ ムの使 用を考 えた場 合には,誤認識を完全に回避することは難しい.誤認識が起きると,

シス テムは ユーザ の期待 する応 答とか け離れ た応答を 行い, 対話が スムー ズに進まなくなることも 多く ある. そこで 本研究 では, 音声認識器が誤認識した場合でも,正しくユーザの意図を推定するこ とが できる 頑健な 音声言 語理解 手法を提案する.提案手法では,音声認識器が誤認識した場合でも多 くの 場合, 複数候 補(N‑best)中 に正解 が含ま れてい ること, システ ムが誤 認識した場合にはユーザ は大 体訂正 反応を 示すこ と,タ スク指 向対話 には強い 一貫性 があル ユーザ は基本的に意味的・文脈 的に 関係し た内容 以外を 発話し なぃことを利用する.また,提案手法では予め全ての認識可能単語を 理解 候補と して保 持し, 言語理 解部の 対話戦 略におい て音声 認識結 果中の 単語との意味的関連性な どを 考慮し ている .これ により 音声認 識結果 のN‑best中に 正解の 一部が 含まれ ていない場合でも,

複数 のユー ザ発話 の認識 結果に 基づく ことで 正しい意 図を推 定する ことが 可能となっている.評価     ―194―

(2)

データにおいて,提案手 法における対話単位での理解 率は72.2%(21,430/29,670対話),単語単位で の理解率は87.1%(77,544/89,010単語)であり,従 来手法の最新認識結果の上位候補を優先するシス テムの57.9%(17,178/29,670対話),75.4%(67,084/89,010単語)と比較しても有効であることが明ら かになった.

  提案した言語理解手法 により言語理解部における性 能の向上は確認された.し かし,実際のシステ ムの使用においては,ユ ーザ意図として可能性のある 理解候補を全て考慮し計算 を行っているため,

ユー ザが 発話 し てか らシ ステ ムが 応 答するまで若 干のタイムラグがあり,人 間同士の自然な対話と はいえなかった.これは ,人対機械におけるコミュニ ケーションにおいては,音 声認識や言語理解の 精度,合成音声の質など だけではなく,テンポやりズム,システム発話の韻律情報(以降,対話リズム と呼ぶ)も重要であると 言う知見と一致する.この対話リズムは,発話者の状態(対話の盛り上がり,

対話意図,感情など)に より大きく変化すると考えら れる.対話リズムに与える 影響が最も強い要素 とし て対 話意 図 が考 えら れる が, 対 話意図と対話 リズムの関係を分析した研 究はほとんど存在しな い.そこで,人間同士の コミュニケーションの自然さ で音声対話が可能な音声対 話システムを実現す るために,実際の人間同 士のタスク指向型の音声対話 を収集し,対話意図と対話 リズム(発話タイミ ング. FO.発話速度)に関する分析を行った.その結果,発話タイミングは,発話者の思考時間,発話 内容の重要度,対話相手 の予想(期待)と同じ対話意 図かどうかが影響すること が明らかになった.

またFOと 発話 速 度は 発話 内容 の重 要 度,対話相手 の予想(期待)と同じ対話 意図かどうかが影響す ることが明らかになった ,

  人 間同 士の タ スク 指向 対話 にお け る対話意図と 対話リズムの関係について 分析を行ったが,今後 さら にコ ンピ ュ ータ が普 及す るこ と を考えると, より多様な状況での音声対 話システムの使用が予 想される.近年では,喜 怒哀楽に代表される感情音声 に対する研究も行われてき ており,様々な発話 様式への取り組みがみら れる.一方人間の発話を考え ると,人間は様々な音韻要 素・韻律要素を柔軟 に制御し様々な発話様式 を実現している.しかし,日 常会話などにおいて人間は 常にはっきりと発話 しているわけではなぃ. 発話内容や発話様式,対話意 図などによりそれほどはっ きりと発話しないこ とがある.っまり自然音 声には明瞭である部分とそう ではない部分があり,この 状態が連続的に変化 することで,自然性や人 間らしさと感じている可能性 がある.そこで,この明瞭 性の変化を合成シス テムヘ導入することで, 人間の多様な発話様式にも対 応可能な音声対話システム の実現を目指す.本 研究では,明瞭性を変化 させるために従来あまり扱わ れていなかった比較的明瞭 でなぃ部分,っまり 音声 の「 あい ま い」 な部 分に 注目 す る.なお本研 究における「あいまい」と は重要な情報の含まれ なぃ 部分 など の 「個 々の 音韻 はは っ きりしないが 部分全体としてなめらかで ある」状態を示してお り,より長い発話単位( 文,呼気段落など)全体で表現される,伝えたい内容の了解度を失ってしまう ような,文全体に渡った 「不明瞭さ」ではない,特に 文意に関わる重要な部分の 明瞭性は高く保った ままである.本論文では ,予備調査によりあいまいな音声に特に顕著な変化として観測された,Fo,パ ワー,フオルマント周波 数を後処理加工することで合 成音声の明瞭性を制御する ことを試みた.また 制御した合成音声を聴取 実験により評価した.その結 果,発話内容により明瞭性 を変化させた合成音 声は,「丸みのある」, 「やわらかい」といった人間 性に関係する形容詞につい て無加工の音声より 強い印象を持っことが判 明した.また,「落ち着いた」,「冷静な」といった印象も強くなることが明 らかとなった.

‑ 195

(3)

学位論 文審査の要旨 主査

副査 副査 副査

教 授 教 授 教 授 准 教 授

荒 木 山 本 長 谷山 伊 藤

学 位 論 文 題 名

健 .治     強 美 紀 敏 彦

音声 対話シ ステムにおける頑健な言語理解と 自然な 音声対話に関する研究

  著 者は,音 声対話 システ ムにお いて音 声認識 誤りが 発生し た場合で もユー ザの発話内容を正しく 理解できる頑健な言語理解手法についての提案を行った.音声対話システムは,音声認識,言語理解,

問題 解決, 対話制 御,音 声合成など様々な技術を統合したシステムである.音声は人間が日常用いて いる コミュ ニケー ション 手段であり,ユーザにとって親しみやすく,また特別な訓練を必要としない とい う利点 がある .さら に手や日を占有しない(ハンズフリー・アイズフリー)ので他の作業を行い なが らでも 使用可 能であ るといった利点もある.一方,音声認識誤りが起きると,システムはユーザ の期 待する 応答と かけ離 れた応答を行い,対話がスムーズに進まなくなるという問題がある.そこで 著者 は,音 声認識 誤りに よる理解誤りを回避するために,音声認識誤りが発生した場合でも多くの場 合, 複数候 補(N‑best)中 に正解 が含ま れてい ること ,システ ムが誤 認識し た場合にはユーザは大体 訂正 反応を 示すこ と,タ スク指 向対話 には強 い一貫性 があル ユーザ は基本 的に意味的・文脈的に関 係し た内容 以外を 発話し ないこ とを利 用した .また, 提案手 法では 予め全 ての認識可能単語を理解 候補 として 保持し ,言語 理解部 の対話 戦略に おいて音 声認識 結果中 の単語 との意味的関連性などを 考慮 してい る.こ のこと により 音声認 識結果 のN‑best中に 正解の 一部が 含まれていない場合でも,

複数 のユー ザ発話 の認識 結果に 基づく ことで 正しい意 図を推 定する ことが 可能となっている.評価 デー タにおいて,提案手法における対話単位での理解率は72.2%(21,430/29,670対話),単語単位で の理 解率は87.1%(77,544/89,010単語)であり,従来手法の最新認識結果の上位候補を優先するシス テムの57.9%(17,178/29,670対話),75.4%(67,084/89,010単語)と比較しても有効であることが明ら かになった.

  次 に著者は ,人間 と対話 システムが自然にやりとりできるためのテンポやりズム,システム発話の 韻律 情報な どを「 対話リ ズム」 と定義 し,こ の対話リ ズムと 対話意 図との 関係について調査を行つ た. これは ,上述 の対話 システムは理解精度の点では従来手法よりも向上しているにもかかわらず,

人間 同士の 対話ほ どの自 然性が 見られ なかっ たことと ,近年 の知見 におい て明らかになった,人対 機械 の対話 におい ては理 解精度だけではなく対話リズムも重要であることに基づいている.著者は,

196

(4)

対話リズ ムを構成する要素として,発 話タイミング,FO,発話速 度を考え,これらと対話意図の関係 について 分析を行っている.その結果,発話タイミングは,発話者の思考時間,発話内容の重要度,対 話 相手 の予 想 (期 待) と同じ 対話意図かどうかが影響する ことが明らかとなった.ま たFOと発話速 度は発話 内容の重要度,対話相手の予 想(期待)と同じ対話意図 かどうかが影響することが明らかと なった.

  次に 著者 は ,多 様な 状況に も対応可能な多様な発話様式 を持つ対話システムについ て研究を行つ た.人間 は様カ橙音韻要素・韻律要素 を柔軟に制御し様々な発話 様式を実現している.しかし,日常 会 話な どに お いて 人間 は常に はっきりと発話しているわけ ではなく,発話内容などに よりそれほど は っき りと 発 話し ない ことが ある.著者は,自然音声には 明瞭である部分とそうでは たい部分があ り,この 状態が連続的に変化すること で,自然性や人間らしさと 感じている可能性を考え,この明瞭 性の変化 を音声合成へ導入することで ,人間の多様な発話様式の実現を試みた. FO,パワー,フオル マ ント 周波 数 を後 処理 加工す ることで合成音声の明瞭性の 制御を行い,作成した合成 音声を聴取実 験により 評価した.その結果,発話内容により明瞭性を変化させた合成音声は,「丸みのある」,「や わ らか い」 と いっ た人 間性に 関係する形容詞について無加 工の音声より強い印象を持 つことが判明 し た . ま た , 「 落 ち 着 い た 」 , 「 冷 静 な 」 と い っ た 印 象 も 強 く な る こ と が 明ら かと な った .   著者は 論文全体を通じて,研究領域 の現状の分析,新規提案内 容の記述,有効性の主張,研究領域 における 位置づけを正確に行ったと判 定する.

  以上 を要 約 する と, 著者は 音声対話システムにおいて, 認識信頼度と対話履歴を用 いる言語理解 手 法を 提案 し ,音 声認 識誤り が発生した場合でも正しくユ ーザの発話内容を理解する ことが可能で あること を示した.また,対話リズムに注目し,対話意図と対話リズムの関係について分析を行った.

さ らに 多様 な 発話 様式 を実現 するための試みとして明瞭性 の制御を行った.本研究を 通じて情報メ ディア工 学,音声言語処理工学の発展 に貢献するところ大なるも のがある.よって,著者は北海道大 学博士( 情報科学)の学位を授与され る資格あるものと認める.

197

参照

関連したドキュメント

分に図れず妥当でないと解する︒また︑様々な問題点を放置

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

音節の外側に解放されることがない】)。ところがこ

問についてだが︑この間いに直接に答える前に確認しなけれ

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

記述内容は,日付,練習時間,練習内容,来 訪者,紅白戦結果,部員の状況,話し合いの内

• 問題が解決しない場合は、アンテナレベルを確認し てください(14