• 検索結果がありません。

博士(工学)木村泰知 学位論文題名

N/A
N/A
Protected

Academic year: 2021

シェア "博士(工学)木村泰知 学位論文題名"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

     博士(工学)木村泰知 学位論文題名

遺伝的アルゴリズムを用いた帰納的学習による 音声対話処理手法における性能向上に関する研究

   学位論文内容の要旨

  人間の優れた能カのーっに言語の使用があげられる.人間のような言語能カを有するコ ンピュータ,すなわち,人間と自然に対話できるコンビュータの研究が1950年代から行 われており,コンピュータの発明当初,人間と同等の対話処理能カを有するシステムを実 現することは時間の問題と考えられていた.しかしながら,現在,実現されたことは電話 による天気予報案内,観光案内,スケジュール管理などの非常に限定された状況において のみである.この大きな理由として,自然言語には暖味な表現及び多様な表現が数多く存 在することがあげられる,さらに,予め与える知識には限界があり,未知語処理などが必 要になることがあげられる.対話システムの本質は,「どれだけ多様な表現を使って対話 が行えるか」,「どれだけ自然にやりとりが行えるか」にあるといわれている.これは,音 声対話には同一の内容を表現する場合にも,多様な表現が存在し,ユーザに適応した利用 方法を考える必要があることを示している.

  音声対話では,情報は文字言語のように符号というディジタル表現ではなく,連続した 音声波形とぃうアナログ表現で与えられる.コンピュータでは,アナログ表現からディジ タル表現に変換する際に誤りが生じる.他にも音声対話の問題としては,発話自体の誤り である言い誤りから始まり,「話し言葉」特有の問題,すなわち,フィラー,言い直しが 含まれる.これらの問題点を考慮しながら,頑健な処理を行う場合,予め規則を与えるこ とでは,ユーザに依存している状況,あるいは未知の状況に適応することが困難である.

すなわち,予め与える知識に加えて,対象ヘ適応する能カを付与することが望まれる.

  本研究の目的は,音声対話処理の頑健性を向上させるために,実対話例から動的な規則 を獲得することにより,ユーザあるいは,対象に依存した多様な表現を扱うことである,

音声対話における表現は,会話の状況及びタスクの違いに加えて,ユーザの口癖にっいて も考慮しなければならず,それら全て,コンピュータにとって未知の状況に遭遇したこと となる.コンピュータの場合,未知の状況での対処は困難であるが,人間は未知の状況に 対して高い適応能カを有している.人間の言語獲得は連続した未知語列から言語を獲得 しているため,未知語処理の問題を扱っていると考えられる.人間は,日常の言語使用を 通じて新しい表現や語彙を獲得することで,言語知識を向上させている,音声対話処理に おいても,日常の会話を通して,言語知識を向上させる仕組みを考えるべきである.コン ピュータ上で言語獲得過程を実装することを考える場合,獲得されている知識や能カに違

‑ 68―

(2)

いがあるため,予め与える能カと獲得すべき能カに分ける必要がある.帰納的学習では,

予め与える能カを「2つの事物に対して共通部分とそれ以外の差異部分を識別する能力」

と仮定する,提案手法では,予め与える言語知識を少なくすることで,汎用性が高くなり,

ユーザに依存した表現を獲得することが可能となる.実対話例を用いて,少量のデータか ら有効な応答を行うことが可能となる.まず,学習能カとして,表層的な一致による共通 部分とそれ以外の差異部分を利用してユーザ発話とシステム応答の対応関係を獲得する.

日常会話では特に明確なタスクが設定されていないコミュニケーションが多いことから,

ここでは雑談を対象とする,対話例から応答のためのルールを獲得し,交叉・突然変異・

淘汰・帰納的学習という5っの処理を用いて行う応答をGA―IL (Inductive Learning with Genetic Algorithm)応答と呼ぶ.GA−ILのルール辞書に適したルールが存在しない場合,

本 システム は,キー ワードを用いて応答を行うELIZAのアルゴリズムも用いる.このよ う な応答をELIZA型応答と 呼ぶ.ELIZA型 応答はユー ザとシステムの対話を継続し,対 話例を獲得するために行う.雑談を対象に評価実験を行い,実対話例から学習することで 実際のユーザが使用している表現や季節に依存した応答など行えることを確認した.評 価実験の結果,本手法を用いた音声対話システムは,正応答と準応答の合計が76.1%とな り,ELIZA型システムに対して9.6ポイントの向上が確認された.

  しかしながら,音声対話は多様な表現が存在するため,表層的な比較を用いた規則獲得 方法では,獲得が困難な場面も存在する.そこで,学習能カを向上させるために,情報量 に基づいた重要部分の抽出に基づく規則獲得手法を提案する.学習能カを向上させるた めに,共通部分としていた表層的な一致とそれ以外である差異部分の考え方を変更する.

情報量に基づき共通部分と差異部分を決定することにより,効率的に規則を獲得する.間 投詞は個人ごとに表現や回数に違いがあるため予め設定するのは困難であるが,比較的出 現回数が多いため,情報量が小さくなることを利用する.本手法は情報量の大きい部分に 基づいて応答文を生成することで,問投詞,雑音による影響を削減する.ここでは,ホテ ル クラーク とお客の 対話を書 き起こしたATRのSLDBコーパ スを用い た評価実 験に関し て説明する.表層的な共通部分による帰納的学習との文生成率を比較した結果,19ポイ ントの向上が確認された.

  また,音声対話の多様性を解決するために,自立語及び情報量の大きな単語のみを扱う のではなく,全ての単語に重み付けを行うことで,発話文と学習データ中の文の類似性を 測定するアプローチを試みる.これは,自然言語処理には同じ意味を持つ表現が数多く存 在するため,ユーザの発話に注目し,発話の同定を行う.しかし,字面が完全に一致して いなぃ場合,一致率の高い文が必ずしも同じような内容をあらわしているとは限らないた め,それぞれの対象に適した計算方法が必要となる.提案手法では,各発話文を決定され た重みを付与したべクトル表現に変換し,ユークリッド距離の近い文を同じ内容を持つ文 とする.ここでは,各単語に対して情報量による重みと単語の出現頻度を掛け合わせる.

これをそァ・ Aol (termア reque'ncyxA'mountoゾJn/or'mation)と呼ぶ.この提案手法を評価 するために,類似度を利用した発話文の同定を行う,提案手法に基づぃて構築した対話処 理による評価実験の結果,字面上の一致率による選択方法に対して13ポイント, tf.ゼガ の重み付けを用いたユークリッド距離に基づく類似度 に対して6.5ポイントの正応答率 の向上が確認された.

69 ‑

(3)

  以上の結果から,情報量により重要部分の抽出及びtf・ぞガの重み付けによる類似度評 価を用いることにより,遺伝的アルゴリズムを用いた帰納的学習による音声対話処理手法 における性能向上が確認された.

70

(4)

学位論文審査の要旨 主査    教授    荒 木健治 副査    教授    青 木由直 副査    教授    北 島秀夫 副査   助教授   伊藤敏彦

学 位 論 文 題 名

遺伝的アルゴリズムを用いた帰納的学習による 音声対話処理手法における性能向上に関する研究

  著者は,音声対話システムにおける多様な表現に関する問題を解決するために,遺伝的 アルゴリズムを用いた帰納的学習による手法の提案を行い,性能向上に関する研究を行っ た.著者は,近年の音声認識技術の向上に伴う音声対話処理の需要を考慮し,言語的なア プローチによる音声対話処理に着目した.音声対話には,発話自体の誤りである言い誤り から始まり,「話し言葉」特有の問題であるフアラー,言い直しが含まれる.そこで,これ らの問題を解決するために,著者は実対話例を用いることで各対象に内在する対話規則の 獲得を試みた.対話規則を獲得する能カを高めることに着目し,予め与えた言語知識を少 量 に す る こ と で , 汎 用 性 を 高 め 対 象 ヘ 適 応 す る こ と を 可 能 と し た . .   音声対話における表現は,会話の状況及びタスクの違いに加えて,ユーザの口癖につい ても考慮しなければならず,それら全て,コンピュータにとって未知の状況に遭遇したこ ととなる.コンピュータとは違い,人間の場合は未知の状況に対して高い適応能カを有し ている.人間の言語獲得は連続した未知語列から言語を獲得しているため,未知語処理の 問題を扱っていると考えられる.人間は,日常の会話を通じて新しい表現や語彙を獲得す ることで,言語知識を向上させているため,著者のシステムは,.日常の会話を通して言語 知識を向上させる仕組みを実現させている.著者が提案する帰納的学習では,予め与える 能カを「2つの事物に対して共通部分とそれ以外の差異部分を識別する能力」と仮定する.

ここで共通部分は字面の比較により一致した部分とする.予め与える言語知識を少なくす ることで,汎用性が高くなり,ユーザに依存した表現を獲得するという理由からである.

帰納的学習だけでは効率の良い規則獲得が困難であるため,遺伝的アルゴリズムの交叉・

突然 変 異・ 淘 汰 の考 え 方 を導入する ことで少 量の対話 例におけ る問題を 解決する .   提案手法の持つ学習能カの高さを実証するために,数多くの話題が混在する雑談を対象 としたシ ステムの 構築を行い,キーワード及び文生成テンプレートを利用したELIZAシ ステムとの比較実験を行う.雑談を対象とした1、000ターンの評価実験では,実対話例か     ―71ー

(5)

ら 学 習 す る こ と で 実 際 の ユ ー ザ が 使 用 し て い る 表 現 や 季 節 に 依 存 した 応答 等が 可 能で あ る こ と を 確 認し た. 評価 実 験の 結果 ,本 手法 を用 いた 音声 対話 シス テム は, 意味 が 正し く 表 現 が 自 然 であ る正 応答 と 意味 は正 しい が表 現が 不足 して いる 準応 答の 合計 が76.1%と な り,ELIZA型システムに対して9.6ポイントの向上が確認された.

  し か し な がら ,音 声対 話 は多 様な 表現 が存 在す るた め, 字面 の比 較を 用い た規 則 獲得 方 法 で は , 表 層 的 に 類 似 し た2例 が 存 在 し ない 場合 には 規則 の獲 得が 困難 とな る. そ こで , 著 者 は 学 習 能カ を向 上さ せ るた めに ,情 報量 に基 づい た重 要部 分の 抽出 に基 づく 規 則獲 得 手 法 を 提 案 した .学 習能 カ を向 上さ せる ため に, 共通 部分 とし てい た表 層的 な一 致 とそ れ 以 外 で あ る 差異 部分 の考 え 方を 改善 する .情 報量 に基 づき 共通 部分 と差 異部 分を 決 定す る こ と に よ り ,効 率的 に規 則 を獲 得す る. 間投 詞及 びユ ーザ の口 癖は 個人 ごと に表 現 や回 数 に 違 い が あ るた め予 め設 定 する のは 困難 であ るが ,比 較的 出現 回数 が多 いた め, 情 報量 が 小 さ く な る こ と を 利 用 す る . 提 案 手 法 の 持 つ 学 習 能 カ の 高 さ を 実 証す るた めに , ホテ ル ク ラ ー ク と お 客 の 対 話 例 で あ るATRのSLDB (Speech and Language DataBas)コ ー パ ス を 用 い た 評価 実験 を行 っ た. 表層 的な 比較 を用 いた 規則 獲得 を行 う帰 納的 学習 と の文 生 成率を比 較した結果,19ポイントの向上が確認された.

  情 報 量 を 用い た手 法で は ,音 声対 話の 多様 性を 解決 する ため に, 重要 部分 を情 報 量に よ り 抽 出 し た が, 不要 語と し て扱 う単 語が 多く なり ,利 用可 能な 単語 まで 不要 語と す ると い う 問 題 が 存 在し た. そこ で ,類 似性 の考 えに 基づ いて ,全 ての 単語 に重 み付 けを 行 うこ と で , 不 要 語 処理 を行 わず に 発話 文と 学習 デー タ中 の文 の類 似性 を測 定し た. これ は ,自 然 言 語 処 理 の 多義 性及 び多 様 な表 現の 問題 を解 決す るこ とに なる ,著 者は ,各 発話 文 を決 定 さ れ た 重 み を付 与し たベ ク トル 表現 に変 換し ,各 単語 に対 して 情報 量に よる 重み と 単語 の 出 現頻 度を 掛け 合 わせ るこ とに より ,ユ ーク リッ ド距 離Dを 求め ,類 似度 をSjt7l= DD+―1 とした. これをtゾ. Aol (termア reque'ncyxAmou'ntoゾ I'nア o'rmation)の重み付けを用いた ユ ー ク リ ッ ド 距 離 に 基 づ く 類 似 度 と 呼 ぶ . こ の 提 案 手 法 を 評 価 す るた めに ,類 似 度を 利 用 し た 発 話 文 の 同 定 を 行 う . 提 案 手 法 の 持 つ 学 習 能 カ の 高 さ を 実 証 す る た め に ,ATRの SLDBに 含 ま れ る 約12,000発 話 か ら , 同 じ内 容で 異な る2つ の表 現の 発話 を154組 収 集し , 字 面 の ー 致 率 に よ る 選 択 方 法 と , 他 の 文 書 に 出 現 し な い タ ー ム ほ ど文 章の 特徴 を あら わ すターム として重みを大きくするtア・ idf (term′ reque'ncyXi'nversedocume'nt′ requency) の 重 み 付 け を用 いた ユー ク リッ ド距 離に 基づ く類 似度 との 比較 実験 を行 った .提 案 手法 に 基 づ い て 構 築 し た 対 話 処 理 に よ る 評 価 実 験 の 結 果 , 字 面 上 の 一 致 率に よる 選択 方 法に 対 し て13ポイ ント , えノ . idfの 重み 付け を用 いたユークリッド距離に基づ く類似度に対して 6.5ポイントの正応答率の向上が確認 された・

  以 上 を 要 約す ると ,音 声 対話 にお ける 表現 の多 様性 に関 する 問題 を解 決す るた め に, 遺 伝 的 ア ル ゴ リズ ムを 用い た 帰納 的学 習に よる 音声 対話 処理 手法 の提 案を 行っ た. さ らに , 情 報量 によ .る 規 則の 獲得 及ぴ 類似 度に よる 文の比較を行うことで,音声 対話システムの性 能 を 向 上 さ せる こと が可 能 であ るこ とを 示し た. 本研 究を 通じ ての ,情 報メ ディ ア 工学 , 自 然 言 語 処 理工 学の 発展 に 貢献 する とこ ろ大 なる もの があ る. よっ て, 著者 は北 海 道大 学 博士(工 学)の学位を授与される資格あるものと認める.

72

参照

関連したドキュメント

   次に、上記で提案した凸閉曲面の形状決定法をより複雑な物体の形状決定に適用できる

    

また、分子線エピタキシー装置を用いて作製した VOPc 蒸着膜に対しても研究を行った。蒸着膜の場

JEV を4 ℃下で吸着させ、細胞に吸着した放射活性を経時的にグラフ|三芝うも Vero あゥイル攴吸着量はNRK

   第 4 章で は,第2 章,および第3 章によ り得られた単一管内の振動

実験によって抽出された基礎バラメータを掘削深推定システムのサブプログラムとなるニュ

性を担いながら事業性の低い商業劇場を独自の視点と基本空間構成の工夫により、複合化

   現在、鉄筋コンクリート部材のねじり挙動を変形も含めて評価できる手法として、鉄筋 コンクリート