データベース検索用音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価

全文

(1)Vol. 43. No. 3. Mar. 2002. 情報処理学会論文誌. データベース検索用音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価小. 暮. 悟†. 中. 川. 聖. 一†. 音声対話システムを実現するための要素技術である音声認識技術や言語処理技術の研究開発においては，近年，各種の重要な手法が確立しつつある．しかし，実際に音声対話システムを実用化することを考えた場合，今までのような使いやすさ，頑健性などに関する技術だけでは不十分であり，拡張性や移植性なども十分考慮する必要がある．本論文では，音声対話システムの移植性，特に意味理解部と検索部の移植性に焦点を当て，システムのドメイン・タスク独立な部分とドメイン・タスク依存な部分を明確に分割することにより，音声対話システム構築の効率を上げる方法を提案する．実際に，観光案内ドメイン・タスクと文献検索ドメイン・タスクの 2 つのドメインにシステムを適用しシステム構築の効率の評価を行った．観光案内のドメイン・タスクにおいて，ドメイン・タスク適用により構築されたシステムと，既存のドメイン・タスク依存のシステムの性能を比較した結果，約 80%の意味理解率を落とすことなく，構築作業量を 84 時間・人から 17 時間・人に大幅に削減することができ，効率が向上した．また文献検索のドメイン・タスクにおいても，観光案内のドメイン・タスクと同等の性能と効率が確認できた．. Construction and Evaluation of Portable Interpreter and Retrieval Module of Spoken Dialogue System for Database Retrieval Satoru Kogure† and Seiichi Nakagawa† Recently the technology for speech recognition and language processing has been improved, and speech recognition systems and dialogue systems have been developed to be practical use. But if these systems become practical, not only those fundamental techniques but also the techniques of portability and expansibility should be developed. We focus on the portability of spoken dialogue system, especially, the interpreter and retrieval modules, and the purpose of this study is to propose the way increasing the efficiency of system development of the spoken dialogue system according to clearly distinguish between domain/task independent parts and domain/task dependent parts of the spoken dialogue system. We adapted the system for a sightseeing guidance task and a literature retrieval task, and evaluated the portability and efficiency of the system. On the sightseeing guidance task, we improved the efficiency of system development without reducing the performance of the system. On the literature retrieval task, we also obtained almost the same result as the sightseeing guidance task.. 今まで開発を行ってきた1)∼5) ．助詞落ちや倒置表現の. 1. はじめに. 理解による頑健な言語理解1) ，入力として音声とタッ. 近年，音声対話システムの研究が広く行われている．. チパネルを用い，出力では音声合成と写真やエージェ. 最近では特に「ロバスト性」や「ユーザビリティー」に. ントを用いるマルチモーダル処理2) ，未知語・冗長語を. 関する研究が注目を集めている．我々も，タッチスク. 考慮した頑健な音声認識3) ，ユーザの意図を解析し代. リーンと音声による入力とグラフィカルな出力を実現. 案を提案したり協調的な応答をしたりする応答生成4) ，. した富士山観光案内システムを開発し，音声認識・言語. 照応の解決や様々な意味表現を同一視する処理をほど. 理解・応答生成・マルチモーダルインタフェースのそれ. こした言語理解5)についての研究を行ってきた．. ぞれについて，頑健で使いやすいシステムを目指して，. 一般に，音声対話システムは，対話の対象となる領域・分野を限定して開発されるのが普通である．また，. † 豊橋技術科学大学工学部情報工学系 Department of Information and Computer Sciences, Faculty of Engineering, Toyohashi University of Technology. 利用者が解決・達成したい問題・処理の種類によっても，音声対話システムの仕様が異なることが多い．ここで，本論文では対話の対象となる領域・分野のこと 714.

(2) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. 715. をドメイン，あるドメイン下で利用者が解決・達成し. 更することの容易さを示し，拡張性とは，ドメイン・. たい問題・処理のことをタスクと呼ぶことにする．た. タスク知識をあとから動的に追加・修正・削除するこ. とえば，『富士山観光案内』『東三河観光案内』『文献検. との容易さを示す．本論文においてはデータベース検. 索』などがドメインの例で，『宿泊施設を検索する』『観. 索用音声対話システムという広義のドメインに限定し. 光施設の値段や場所を検索する』『論文キーワードだ. て議論を進める．本論文におけるデータベース検索用. けから論文を検索する』『論文キーワードと著者名か. 音声対話システムの移植性とは，観光案内や文献検索. ら論文を検索する』などがタスクの例である．ドメイ. といった狭義のドメイン・タスクを変更することの容. ンを変更すると必ずタスクを変更する必要がある．ま. 易さを示し，拡張性とは，ドメイン・タスク知識を後. た，同じドメインでもタスクが異なることはありうる．. から動的に追加・修正・削除することの容易さを示す．. 通常，音声対話システムの仕様は，ドメインやタス. 実際に新しい音声対話システムを最初から構築する. クに大きく依存するが，音声対話システム全体のモ. には莫大なコストがかかることから，今後，これまで. ジュール性を高め，システムの移植性や拡張性を上げ. 開発してきたシステムを他のドメイン用に変更したり，. るためには，システムのどの部分がドメインやタスク. 汎用的なシステムを開発することが重要になってくる. に依存していて，どの部分がドメインやタスクからは. と予想される．実際，「移植性」や「拡張性」を重要視. 独立であるかを明確に区別する必要がある．そこで，. する研究もいくつか行われてきている6)∼15) ．. まず，以下ではデータベース検索用音声対話システム. PIA 6)というシステムは，複雑な音声対話システムでもプロトタイプを簡単に構築できる．これは，Vi-. の各モジュールのドメイン独立・依存，タスク独立・依存という概念を定義する．ドメイン独立とは，データベース検索の分野内でのすべてのドメインで共通に使用できることを示す．ドメイン依存とは，ドメイン. sual BASIC を用いて実装され，認識のロバスト性と対話の自然さを両立させることに重点をおいている． REWARD（ Real World Applications of Robust Di-. イン下においてすべてのタスクで共通に利用可能であ. 7) alogue ）というプロジェクトで試作しているシステムは，開発者がシステムの開発，デバッグを一括して管. ることを示し，タスク依存とはタスク独立ではないこ. 理でき，従来の音声対話構築よりも早い時間でシステ. とを示す．ドメインとタスクについてそれぞれ独立，. ムを構築することができる．OGI（ Oregon Graduate. 依存という概念を定義したため，ある情報をドメイン. Institute ）で開発された CSLU Toolkit 8)というシス. とタスクで分類すると 4 種類に分類される．. テムは，音声処理に関する知識を全然持っていなくて. 独立でないことを示す．次にタスク独立とはあるドメ. • ドメイン独立・タスク独立個々の検索対象デー. も音声を使ったアプリケーションを素早く構築するこ. タベースには依存せず，ある言語共通で使用でき. とができる．MIT で開発された GALAXY 9)は音声対. る言語知識などがあげられる．. 話システムを構築するための枠組みで，システムの拡. • ドメイン依存・タスク独立検索対象データベース中の個々のデータを表現する名詞などの語彙知識のうち検索方法などのタスクの違いに依存しな. 張性に重点を置いている．システムの各構成要素は独立に開発できる．それぞれの構成要素は HUB を介してデータのやりとりを行う．Sasajima らは EUROPA. い情報などがあげられる． • ドメイン依存・タスク依存検索方法などのタス. という音声対話構築ルールを提案し，MINOS という. クの違いに応じて，データベース中の各データを. 「情報検索」にタスクを限定するている10) ．田中らは，. どのように検索・表示するかといった検索に関し. ことで，データベース自体には依存しない汎用的な情. た情報などがある．. 報検索用音声対話についての研究を報告している11) ．. カーナビゲーションシステムを実際に構築して評価し. • ドメイン独立・タスク依存ドメインが変わるとタスクも変わるので，すべてのドメインで共通に. このシステムでは，アプリケーション開発者は，複雑. 使える情報は，自動的にすべてのタスクで共通に. ベースに対しての音声対話による情報検索を利用する. な文法，語彙の設定を行うことなく，手持ちのデータ. 使えなければならない．つまり，ドメイン独立な. ことができるが，ユーザの発話できる内容をメニュー. 情報はすべてタスク独立といえる．よって本論文. に提示することでユーザの発話を制限している．秋葉. ではドメイン独立でタスク依存な情報は考えない．. らは，マルチモーダルインタフェースの汎用性に関す. 次に，データベース検索用音声対話システムの移植. る研究を報告している12) ．彼らは，MILES というマ. 性，拡張性を以下で定義する．一般的に音声対話シス. ルチモーダル対話記述言語を開発し，ジャンケンや地. テムの移植性とは，システムのドメイン・タスクを変. 下鉄乗換え案内などいくつかの対話タスクを実際に試.

(3) 716. 情報処理学会論文誌. Mar. 2002. 図 1 システムの構成 Fig. 1 System overview.. 作している．荒木らは，音声対話システムにおけるタ. イン・タスクについて，実際に適用を行い，ドメイン・. スクを「スロットフィリング」「データベース検索」「説. タスク適用にかかる作業量を時・人で定量的に評価し. 明」「それ以外」に分割し，前 3 つのタスクについて. た．また，意味理解率と応答生成率による性能の評価. は，その対話をスクリプト言語で記述している. 13). ．こ. れらの構築アプリケーションの研究では，システムの. も同時に行い，タスク処理性能を落すことなくシステム構築の効率をどれだけ改善できるかを評価した．. 拡張性やある構成要素の移植性に注目しているが，構. 2 章で，今回構築した意味理解部，検索部，出力部. 築アプリケーションを使うことによるシステム構築の. に対する移植性の高いデータベース検索用音声対話シ. 効率とシステム自体の性能の両方の観点から評価して. ステムの概要を示す．3 章では，2 章で示したシステムのどこがドメイン・タスク独立でどこがドメイン・. いるものはない．一方，我々も「音声対話システムにおける移植性」に関する考察を行っている14)∼16) ．既存のシステムで 5). タスク依存かを明確に示す．4 章では実際のドメイン・タスクの適用の流れを示し，5 章，6 章では，システ. ある富士山観光案内を東三河観光案内に実際に適用. ムをそれぞれ富士山観光案内と文献検索に適用し，ド. し，このような似ているドメインへの変更でも 30 日・. メイン・タスク適用の効率とシステムの性能の評価を. 人かかり，まったく違うドメインへの変更にはさらに. 行う．. 大幅な作業時間がかかることを示した14) ．また，音声対話システムの構成要素としては音声認識，言語理解，. 2. データベース検索用音声対話システム. 応答生成が考えられるが，音声認識においては，少量. 2.1 システムの構成. の対話コーパスからよりロバストな言語モデルを構築. システムは大まかに分類して，言語理解部，検索部，. するための手法についてすでに考察を行っている16) ．. 出力部の 3 つに分かれている．それぞれのモジュール. 一方，言語理解や応答生成の部分の移植性に関しても. の動作図を図 1 に示す．. はさらにドメイン・タスク依存部とドメイン・タスク. 2.2 言語理解部言語理解部は，音声入力によるユーザ発話文を理解. 独立部の明確な分割，検索結果表示部，各種データの. し意味表現を生成するモジュールである．言語理解部. GUI ツールによる修正などの改良を加えた．. は，発話文入力，形態素解析，構文解析，意味解析，. 文献 15) にてすでに枠組みを示しているが，本論文で. 本論文では汎用音声対話システム構築用ツールを作. 文タイプ識別を行う．. 成することを目標にしている．しかし世の中に存在す. 2.2.1 発話文入力. るすべての音声対話を取り扱うのは非常に困難である. 音声認識器 SPOJUS-Z 3)と接続して音声入力結果. ので，本論文では特にデータベース検索用音声対話シ. を受け取る．簡単な切替でキーボードからの入力を受. ステム構築用ツール作成に焦点を当てている．具体的. け取ることもできる．. には音声対話システムの意味理解部，検索部，出力部ク依存な部分を明確に分離し，さらに，ドメイン・タス. 2.2.2 形態素解析形態素解析は，入力された日本語テキスト文を形態素に分解することである．本システムでは，形態素解. ク依存な部分をより少ない作業量（時・人）で半自動構. 析器として茶筌 2.02 18)を用いている．辞書は形態品. においてドメイン・タスク独立な部分とドメイン・タス. 築できる手法. 17). を提案する．本論文の評価基準は，シ. 詞分類，活用関係，連結規則，形態素に分かれている．. ステム構築の効率（時・人）とシステムの意味理解率，. 茶筌に付属の文法は書き言葉用であるが，音声対話シ. 応答生成率である．文献検索と観光案内の 2 つのドメ. ステムにおいて使用するために，茶筌の文法を話し言.

(4) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. 717. マルチメディアマルチメディアマルチメディア名詞-一般 2 * 0 * 0 に関するニカンスルに関する助詞-格助詞-連語 61 * 0 * 0 論文ロンブン論文名詞-一般 2 * 0 * 0 はハは助詞-係助詞 63 * 0 * 0 ありアリある動詞-自立 45 五段・ラ行 17 連用形 5 ますマスます助動詞 71 特殊・マス 59 基本形 1 かカか助詞-副助詞／並立助詞／終助詞 67 * 0 * 0 図 2 発話文「マルチメディアに関する論文はありますか」の茶筌 2.02 による形態素解析結果 Fig. 2 Morphological analysis result using Chasen 2.02 (The utterance “Are there any papers on multi modal?”).. (<(OBJECT (OF (名詞：マルチメディアに関する) (名詞：論文は )) (動詞：ありますか ))>). しないと判定された文のみが検索部へと入力される．. 図3. 話入力，形態素解析，構文解析，意味解析，文タイプ. 発話文「マルチメディアに関する論文はありますか」の構文解析結果 Fig. 3 Syntactic analysis result (The utterance “Are there any papers on multi modal?”).. 2.2.6 意味理解アルゴリズム言語理解のアルゴリズムを図 5 (a) に示す．まず，発識別を順に行う．次に，文タイプが「検索条件一覧表示」か「検索条件詳細表示」の場合には出力部の対応．最後に意味表現が得られてい箇所に移る（図 5 (c) ）. (ある (FORM YN-Q) (NEGATION NIL) (OBJECT (論文 (OF (マルチメディア ))))) 図4. 発話文「マルチメディアに関する論文はありますか」の意味解析結果 Fig. 4 Semantic analysis result (The utterance “Are there any papers on multi modal?”).. ，得られていない場合は出力れば検索部に（図 5 (b) ）部に移る（図 5 (c) ）．. 2.3 検索部検索部は，意味理解結果から検索スロットテーブルを作成し検索 SQL を生成，検索を行って，必要となるデータを RDBMS（ Relational DataBase Manage-. 素解析の例を図 2 に示す．ここで，縦軸は単語のシー. ment System ）から抽出して出力するモジュールである．検索部は検索スロット作成，ID・データベース検索，検索キー拡張をする処理と RDBMS 部を持って. ケンスを，横軸は各単語の，表記，読み，原形，品詞–. いる．. 葉用に一部修正している．発話文「マルチメディアに関する論文はありますか」の茶筌 2.02 を使った形態. 細分品詞，品詞 id，活用，活用 id，活用形，活用形 id. 2.3.1 検索スロット生成. をそれぞれ示す．. 得られた意味理解結果から検索のキーとなりうる単. 2.2.3 構文解析. 語を抽出し，検索スロット（属性–属性値の対応表）を. 構文解析は，形態素情報（意味素タグつき）から文. 埋める処理を行う．検索スロットの例を図 6 に示す．. 節を探し出す処理である．本システムでは，Lisp で開. 2.3.2 ID・データベース検索. 発した構文解析器を使用している．方針としては，形. 得られた検索スロットを用いて，データベース中の. 態素の品詞情報と意味素を元に文節を求め，チャート. ID を知るための SQL 検索文を生成し，後述の RDMMS 部に入力することで ID 群を取得する．得られ. 法で構文解析をしている1) ．例を図 3 に示す．. 2.2.4 意味解析. た ID の個数が，検索件数を示すことになる．例を図 7. 意味解析は，構文解析の情報を元に，意味表現を作. に示す．この例では 23 個の ID が検索されたので検. る処理である．本システムでは，動詞の格フレーム情報から，文に対して 1 つの意味表現を生成している．. 索件数は 23 件となる．. ID が得られている場合に，そのデータベース ID を. 動詞の格フレームはスロットになっており，助詞と意. 用いて，実際に必要となるデータを検索するための. 味素の条件によって，AGENT や OBJECT，LOC な. 2.2.5 文タイプ識別. SQL 検索文を生成し，RDBMS 部に入力することで最終的な検索結果を得る処理を行う．403 の ID の検索を行うための SQL とその検索結果の例を図 8 に示. 解析された意味表現が対話処理に関連した文である. す．この例ではタイトル，学会名，発表年度，概要，. 1). どのスロットを埋めていく．例を図 4 に示す．. かを識別する処理を行う．たとえば，後述の「検索結. 著者名，著者姓名，論文キーワードの 7 種類の情報が. 果一覧表示」や「検索結果詳細表示」「，ありがとう」な. 1 つの論文ごとに検索されている．. どの挨拶などを識別する．この処理で対話処理に関係.

(5) 718. 情報処理学会論文誌. Fig. 5. Mar. 2002. 図 5 言語理解部，検索部，出力部のアルゴリズム Algorithm of interpreter, retrieval and output modules.. ((キーワード (マルチメディア )) (著者名 NIL)). ある検索キーをその検索キーの下位概念の集合に置き. 図6. 階層の概念を持つ単語に置き換えるものである．前者. 発話文「マルチメディアに関する論文はありますか」に対する検索スロット Fig. 6 Retrieval slot (The utterance “Are there any papers on multi modal?”).. 換えるものである．もう 1 つは，ある検索キーと同じは検索対象のデータベースが階層的データ構造である場合に使用可能である．後者は，検索対象データベースには現れないが対象ドメイン・タスクにおいてよく. ID 検索用 SQL select key1.ref_id from key key1 where key1.keyword=’ マルチメディア ’;. 使われそうな単語をアプリケーション構築者が登録する場合に使用可能である．検索キー拡張処理の使用は付加的なものであり，使用するしないは自由に選択可能である．. 検索結果 (ID) (403 405 466 471 472 475 480 481 516 579 660 679 910 927 1318 1854 1945 1947 1949 1967 1969 2341 2344). 用いている．一般的な SQL 言語を入力するとデータ. 図7. ベースに対する操作が行える．具体的には，「新規デー. 発話文「マルチメディアに関する論文はありますか」に対する ID 取得用 SQL Fig. 7 SQL for obtaining IDs (The utterance “Are there any papers on multi modal?”).. 2.3.4 RDBMS 部 RDBMS には，フリーで入手可能な PostgreSQL を. タベースの構築」「既存データベースの消去」「データの追加」「データの削除」「データの検索」が行える．なお現在は，システム構築時に「データの追加」をし，. 2.3.3 検索キー拡張検索結果が得られなかった場合に，検索キーを拡張し，ID 検索用の SQL 検索文を生成，データベースを再検索する処理を行う．2 種類の方法があり，1 つは. システムの使用時には「データの検索」のみを考えている．これは，「データベース検索用対話システム」に注目しているからである．.

(6) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. 719. ID=403 の検索用 SQL select ref.tit,ref.sci,ref.year,ref.abst from ref where ref.ref_id = 403; select auf.famlas from auf where auf.ref_id = 403; select aul.fam from aul where aul.ref_id = 403; select key.keyword from key where key.ref_id = 403; 検索結果 (タイトル ( 3 − 1 パーソナル移動通信のためのインテリジェントネットワーク（＜小特集＞パーソナル移動通信）)) (学会 ( 電子情報通信学会誌)) (年 ( 1995)) (概要 ( パーソナル化，マルチメディア化，インテリジェント化を目標とするパーソナル移動通信を支えるインフラストラクチャとしてマルチメディアを統合した大規模な高度インテリジェント移動通信ネットワーク（ A − IMN ）の構築が必須である．本論文では A − IMN に必要となるユニバーサルモビリティを保証するためのデータベース構成，マルチメディア通信への展開をねらったインタネットとの接続，ATM 方式の適用などについて述べるとともに，IN の概念に従い移動通信ネットワークのプラットホーム化をねらった A − IMN アーキテクチャについて述べる．)) (著者 ( 中島昭久)) (著者姓 ( 中島)) (キーワード ( 移動通信パーソナル通信ユニバーサルモビリティマルチメディアインタネット ATM IN)) 図 8 発話文「マルチメディアに関する論文はありますか」に対する検索結果取得用 SQL Fig. 8 SQL for obtaining retrieval result (The utterance “Are there any papers on multi modal?”).. 2.3.5 検索アルゴリズム検索のアルゴリズムを図 5 (b) に示す．まず，検索スロット作成を行い，追加条件入力モードが ON だった. し言語理解部に移る．検索件数が 1 件の場合は検索結. ら，前回の発話時の検索スロットと現在の検索スロッ. 上であれば，追加条件入力モードを ON にして言語解. トをマージする．検索スロットが空だったら，出力部. 析部に移る．. に移る．次にデータベース検索を行う．検索結果が 0 個の場合，検索キー拡張処理（下位概念への拡張）を行い，もう一度データベース検索を行う．それでも検索結果が 0 個の場合は，さらに検索キー拡張処理（同. 果詳細表示部を実行する．検索件数が 1 件から n 件までの場合は検索結果一覧表示部を実行する．n+1 件以. 3. システムのドメイン・タスク依存性とドメイン・タスク独立性本章では，本研究における移植性の高さをどうやっ. じ階層概念への拡張）を行ってデータベース検索を実. て実現しているかを示す．ここでいう「移植性の高さ」. ．行し，後述の出力部に移る（図 5 (c) ）. とは，構築の効率の良さである．つまり，構築したシ. 2.4 出力部. ステムの性能をある一定のレベルで保ちつつ，構築に. 出力部は，検索結果一覧出力部，検索結果詳細出力. かかる作業量（人・時）をどれだけ減少させられるかを. 部，応答文出力部に分かれる．. 示す．本研究では，データベース検索用音声対話シス. 2.4.1 検索結果一覧出力部. テムを作成しているが，1 章ですでに述べているとお. 検索された全件の情報を簡略表示する処理を行う．. り，本論文においてドメイン独立とは，データベース. 表示は 1 行が 1 件の検索結果となっている．. 検索の分野内でのすべてのドメインで共通に使用でき. 2.4.2 検索結果詳細出力部. ることを示し，ドメイン依存とは，ドメイン独立でな. 検索されたある 1 件の検索結果の詳細を表示する処. いことを示す．またタスク独立とはあるドメイン下に. 理を行う．. 2.4.3 応答文出力部応答文を画面に出力する．デフォルトでは画面にテキストで出力するが，合成音声器 synthe2（富士通製）を使って合成音声を出力することも可能である．. おいてすべてのタスクで共通に利用可能であることを示し，タスク依存とはタスク独立ではないことを示す．まずは，データベース検索用対話システムにおけるシステムコア部とデータ部の分離を明確にし，どの部分がドメインやタスクに依存し，どの部分がドメイン. 2.4.4 応答生成アルゴリズム. やタスクに独立であるかを調べた．システムコア部は. 図 5 (c) にアルゴリズムを示す．文タイプが一覧表. 完全にドメイン独立・タスク独立であるように設計を. 示あるいは詳細表示であったらそれぞれの対応する出. 行った．データ部は，個々のデータベースには依存し. 力部を実行する．また，意味解析失敗や検索スロット. ない，ある言語共通で使用できる言語知識などのドメ. がなし，検索件数が 0 件の場合にはプロンプトを表示. イン独立・タスク独立なデータ，データベース中の個々.

(7) 720. 情報処理学会論文誌. Mar. 2002. 図 9 システムとデータ群の構成 Fig. 9 Contents of system and data.. のデータを表現する名詞などの語彙知識のうち検索方. はシステムコア部とは別にデータとして保持している．. 法などのタスクの違いに依存しない情報などのドメイ. 次に検索部には，データベースの構造情報などの. ン依存・タスク独立なデータ，検索方法などのタスク. ドメイン・タスクに完全に依存する部分があるが，シ. の違いに応じて，データベース中の各データをどのよ. ステム部とデータ部を明確に分割することでドメイ. うに検索・表示するかといった検索に関する情報など. ン・タスク独立性を保っている．実際の RDBMS に. のドメイン依存・タスク依存なデータに分割した．つ. は PostgreSQL を用いている．. まり，ドメイン独立・タスク独立なデータはあらかじ. 出力部の応答文出力処理は，指定された出力文を. め別途のデータとして保持しておき，ドメイン・タス. ディスプレイ上に出力もしくは音声合成で出力する処. ク適用の際にドメイン依存なデータだけを構築してい. 理であるので，ドメイン・タスク独立である．一方，検. けば，あるドメイン・タスクにおけるデータベース検. 索結果を出力する処理に関しては，『画面上に何をどう. 索用対話システムを構築することができることになる．. いった配置で表示するか』という情報は，データベー. 本研究では，このことを基本として，ドメインに依存. スに依存するため，明確にドメイン・タスク依存であ. するデータをいかにして用意するかという点に焦点を. る．これらの情報はシステムに組み込まずに，データ. おく．. として与えるように構築を行った．. 図 9 にシステムの各構成要素がどのようなデータを使用するかを示す．. 3.1 システムコア部. 3.2 データ部データ群をドメイン独立・タスク独立，ドメイン依存・タスク独立，ドメイン依存・タスク依存なものに. まず，意味理解部であるが，形態素解析器には茶筌. 分類する．分類する目的は，ドメイン・タスクに依存. 2.02 を用い，構文解析，意味解析，キーワード解析な. する部分を明確にすることで，ドメイン・タスク適用. どは Lisp を用いて構築した．これは以前我々が開発し. 時により効率的にシステムを構築するためである．分. た富士山観光案内音声対話システムの意味理解部5)を. 類した結果を表 1 に示す．なお，表 1 のドメイン・タ. 元にタスク独立なように改良して再構築した．既存の. スク独立なデータは図 9 の真中の点線の上部にある. 富士山観光案内システムは名詞連続規則や動詞の格フ. データと，ドメイン依存なデータは図 9 の真中の点線. レーム知識などをプログラム上にハードコーディング. の下部にあるデータと対応する．また，ドメイン依存. していたためドメイン・タスクの変更時にプログラム. なデータの中で，タスク独立なデータは図 9 の真中の. の修正をする必要があったが，名詞連続の規則や動詞. 点線と下の点線の間に，タスク依存なデータは下の点. の格フレーム知識などをデータで記述できるように変. 線の下部にそれぞれ対応する．. 更した．これらの，ドメイン・タスクに特化した情報.

(8) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. Table 1. 721. 表 1 ドメイン・タスク独立・依存なデータ群の分類 Classification of domain/task independent/dependent data sets. データ. ドメイン独立タスク独立. 音節 HMM，名詞と動詞以外の形態素語彙辞書，形態素接続辞書，構文解析文法，対話処理に関する名詞意味素辞書と動詞意味辞書，発音辞書. ドメイン依存タスク独立. 言語モデル bigram，名詞と動詞の形態素語彙辞書，検索対象データ中の単語の名詞意味素辞書と動詞意味辞書，PostgreSQL 用のデータベース. ドメイン独立タスク依存. 意味表現から検索パターンへの変換則，検索キー拡張データ，検索結果表示フォーマット，. 3.2.1 ドメイン独立・タスク独立なデータ本論文ではデータベース検索を対象としているので，. (音声認識 ((sem-features G-KEYWORD))) : (中川聖一 ((sem-features G-AUTHOR))). まず，「道案内」「文献検索」「地図・旅行案内」などのデータベース検索対話文集合の調査を行った．その結. Fig. 10. 図 10 名詞意味素辞書の例 Examples of noun’s semantics feature dictionary.. 果，形態素解析用の文法，名詞・動詞以外の形態素解析辞書，ならびに，検索結果の表示や対話を処理するために必要な名詞の名詞意味素辞書と動詞意味辞書については，データベース検索という範疇での様々なド. (ある ((frame (agent ((が ) G-KEYWORD G-AUTHORFULL G-AUTHORLAST)) (object ((を) G-KEYWORD G-RONBUN))))). メイン・タスク間では独立であると判断できた．実際，後述の「富士山観光案内システム」と「文献検索シス. Fig. 11. 図 11 動詞意味辞書の例 An example of verb’s semantics dictionary.. テム」の 2 つのドメイン・タスクへの適用においても，それらの文法・辞書のドメイン・タスクの独立性を立. 名詞の形態素辞書にはドメイン依存なデータとして. 証することができた．これらのデータはシステム構築. データベース中に登録されている単語を登録する．ま. 時に読み込み専用のデータとしてシステムに組み込ま. た，データベース中のフィールド名によって一意に決. れる．. まる意味素を名詞に割り振る．後述する文献検索ドメ. 形態素解析には茶筌 2.02 を用いている．付属の接続. イン・タスクにおける意味素辞書の例を図 10 に示す．. 辞書を口語用に一部修正している．次に，助詞や助動. ここで，たとえば G-KEYWORD や，G-AUTHOR が意味. 詞のような名詞・動詞以外の形態素解析辞書は，付属. 素である．. の辞書を元に口語用に一部修正を行っている．品詞は. 検索に関する（ドメイン依存の）動詞意味辞書（動. 23 種類で，ドメイン独立な形態素は全部で約 22 万語である．また，検索結果の表示など検索自体に関係し. 詞の格フレーム情報）の例を図 11 に示す．これは動. ない「詳細」や「一覧」といった名詞の意味素と「表示する」「見せる」といった対話処理に関する動詞の意味辞書はドメイン独立とした．. 詞「ある」についての格フレーム情報である．ここで，. G-KEYWORD や G-RONBUN は意味素である． RDBMS でリレーショナルデータベースを構築する際にデータを記述したテーブルが必要となるが，この. 名詞の意味素辞書には，一覧表示用と詳細表示用に. テーブルは，「テーブルの項目には複数の値を入れるこ. 「一覧」「詳細」の 2 単語を登録している．また，デー. とはできない」や「行は重複がなく，各行はテーブル. タベース検索における対話文集合の調査において，検. の中で一意に指定できること」などの制約を持つ．. 索時によく使用されていた，「教えて下さる」「検索する」「表示する」「お願いする」「検索して下さる」「表示して下さる」「言って下さる」の 7 単語を登録した．. 3.2.2 ドメイン依存・タスク独立なデータ. たとえば，後述の文献検索ドメイン・タスクでは，図 12 のようなテーブルを用意することになる．. 3.2.3 ドメイン依存・タスク依存なデータ以上の分類によりドメイン独立・タスク独立，およ. 対話文集合の調査によりドメイン・タスク独立と判. びドメイン依存・タスク独立なデータと判定できなかっ. 定したデータ以外のデータは自動的にドメイン依存な. たデータは，ドメイン依存・タスク依存である．つま. データとなる．そこでさらに，ドメイン依存なデータ. り，意味表現から検索パターンへの変換則，検索キー. について，タスク独立性・依存性を調査した．その結. 拡張データ，検索結果表示フォーマットはドメイン依. 果，名詞・動詞の形態素語彙辞書，検索に関する名詞意. 存・タスク依存である．. 味辞書と動詞意味辞書，PostgreSQL 用のデータベースはドメイン依存・タスク独立であることが分かった．. 意味表現から検索パターンへの変換則の例を図 13 に示す．図 13 において「著者」のところに注目する．.

(9) 722. Mar. 2002. 情報処理学会論文誌. table.1 -----------------------------ref_id title society abst 1 音声認識と…… 情報処理学会論文誌現在音声認識技術は……… 2 語学 CAI の… 人工知能学会誌最近の英会話教材は……… ： -----------------------------table.2 -----------------------------key_id ref_id keyword 1 1 音声認識 2 1 音響モデル 3 2 CAI : -----------------------------table.3 -----------------------------aut_id ref_id author 1 1 中川聖一 2 1 鈴木… 3 2 田中… -----------------------------図 12 Fig. 12. リレーショナルデータベーステーブルの例 Examples of relational database table.. : (著者 (member (ある欲しい調べる調べて下さる探す探して下さる検索する検索して下さる表示して下さる) (OBJECT (sem-feature ’G-RONBUN (OF (_M1_ sem-feature ’G-AUTHORFULL))))) (キーワード : 図 13 意味表現から検索パターンの変換則の例 Fig. 13 An example of rules which transfer semantics representation to retrieval pattern.. (a) 意味表現： (ある (FORM YN-Q) (NEGATION NIL) (OBJECT (論文 (OF (中川聖一))))) (b) 検索パターン： ( (著者 (中川聖一)) (キーワード NIL)) Fig. 14. 図 14 意味表現と検索パターンの例 An example of semantics representation and retrieval pattern.. る．しかし，本研究では音声対話によるデータベース検索を目的としているので，一定レベルの対話制御を実現するには対話に対するユーザの要求を示すメタ対話に対処することが不可欠となる．たとえば，『もう一. この部分の変換則のうち意味表現に対する条件は，意. 度表示して下さい』や『一覧を表示して下さい』など. 味表現の主動詞が，「ある」「欲しい」「調べる」「調べ. のメタ対話，およびそれらと同じ意味を表す他の様々. て下さる」「探す」「探して下さる」「検索する」「検索. な言いまわしに対処する必要があるが，これを，文中. して下さる」「表示して下さる」のいずれかであって，. の名詞，および，名詞に付与してある意味素に対する. 意味素が G-RONBUN となる名詞をとる OBJECT 格を. 単純なパターンマッチングだけで実現するのは難しい．. 持ち，その OF 格として G-AUTHORFULL の意味素を. よって本手法では意味解析をする必要があると考えて. 持つ名詞をとることを表している．さらに変数 _M1_. いる．. によって，G-AUTHORFULL の意味素を持つ単語が，検. 検索結果表示フォーマットは，検索結果の各フィー. 索パターンにおける検索キー「著者」として抽出され. ルドをどのようなフォーマットで表示するかを記述す. る．この変換ルールにより図 14 (a) のような意味表. るものである．. 現が図 14 (b) のような検索パターンに変換される．ここで，図 14 のような検索パターンを求める際に，文中の意味素だけから直接求めるという手法も考えられ. 4. ドメイン・タスク適用前章ではドメイン独立・タスク独立なデータ，ドメ.

(10) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. 723. 図 15 ドメイン・タスク適用 Fig. 15 Domain and task adaptaion.. イン依存，タスク独立なデータ，ドメイン依存，タス. ルドのデータから，形態素辞書や意味素辞書，Post-. ク依存なデータについて示した．本章では，あるドメ. greSQL 用のデータベースを作成する必要があるため. イン・タスクに対する適用を行う際に，ドメインやタ. である．例として，後述の文献検索ドメイン・タスク. スクに依存する各種のデータをどのように用意してい. において使用したデータベースを図 16 に示す．. くかについて示す．一般に，ドメインを適用する，す. 対話例は，実際に予想される対話文のうちユーザ発. なわちドメインを変更するとタスクも変更することに. 話文のみを収集する．テキストのみで音声は必要ない．. なり，自動的にタスクの適用も行う必要があるので，. 対話例は，ドメイン依存・タスク独立な動詞意味辞書. 本論文では「ドメイン・タスク適用」という表記を用. を生成する際に用いられる．. いている．なお，ドメインを変更せずにタスクだけを. ドメイン・タスク情報はドメイン・タスク適用の際. 変更するということも考えられるが，本論文における. に一番重要なものである．また，上 2 つの情報と違い. 適用の説明および評価例ではドメインを変更する場合. アプリケーション適用者が一から用意する必要のある. を取り上げる．. 情報であり，GUI を使った構築が可能である．基本的. 実際のドメイン・タスク適用の大まかな流れを図 15. には以下に示す情報を指定する．また文献検索ドメイ. に示す．アプリケーション開発者はデータベース，ユー. ン・タスクにおけるドメイン・タスク情報の例を表 2. ザ発話の文集合を用意し，ドメイン・タスク情報生成. に示し，その例を用いて説明を行う．. ツールを用いてドメインやタスクに関する様々な情報を与えた後，辞書生成ツールを実行して辞書を生成す. (a) データベースの各フィールドの情報データベース中の各データが「文字列データ」な. ることでシステムへのドメイン・タスク適用を行う．. のか「数値データ」なのかを記述する．また，各. 4.1 アプリケーション開発者が用意するデータ. フィールドのデータのリレーショナルデータベー. 本システムにおいて，システム開発者は以下のものを用意する．. • 一般に使用可能な検索対象データベース • ユーザ発話文コーパス（対話例） • ドメイン・タスク情報. ス中のラベル名や各フィールドのデータの意味素を定義する．図 16 の文献データベースの例では，「計算場における· · ·準最適配置」や「上原」などが各フィールドの情報となる．表 2 の例では，[タイトル ] が「計算場における分散プロセスの準最. 一般に使用可能な検索対象データベースとは，検索. 適配置」などとなる．また，（文字列 50 byte ）や. の対象となるデータベースのことで，何らかの手法で. （整数）は PostgreSQL 用のデータベースに登録. テキスト形式に変換可能である必要がある．テキスト. する際の変数の型を示す．たとえば，フィールド. 形式の必要性としては，元のデータベースの各フィー. [タイトル ] は 800 byte の文字列として，[発行.

(11) 724. 情報処理学会論文誌. Mar. 2002. . ✏. TITL: 計算場における分散プロセスの準最適配置 AUTH: 上原，稔 / 所，真理雄 AUTE: Uehara,Minoru / Tokoro,Mario CTIN: 情報処理学会論文誌 ABST: 「論文を執筆できる」ということは，大学教育における大きな到達目標のひとつであるに違いない．にもかかわらず，大学生にとって論文を書くことがどのような意味を持つのか，また大学人は学生に対して論文執筆をどのように教育したらよいのか，といった基本的な問いに対しては，従来，正面から答えられることが少なかった．本論文では，論文執筆の原点は，他者との交流を通じて自らの主張を節度をもって根拠づけることであるとの認識から出発し，レポートと論文の相違点，論ずるに足る主題とは何か，論拠の示し方などについて述べ，さらに，執筆上のトラブルや悩みの対処の仕方などを論じた． KYWD: 大学教育 / 論文執筆の意義 / 「論文が書けない症候群」 / 「知の技法」 / 「知の論理」 / 論文執筆のトラブル / 主題と論拠 / よい論文と悪い論文 / 論文審査. ✒. 図 16 文献データベース Fig. 16 Literature database.. Table 2. 表 2 文献検索のドメイン・タスク情報 Domain and task information for literature retrieval.. TITL: [タイトル ](文字列 200 byte) AUTH: [著者姓](文字列 50 byte)/[著者名](文字列 50 byte)(複数可) (a) データベースの各フィールドの情報. KYWD: [論文キーワード ](文字列 50 byte)(複数可) CTIN: [発行学会](文字列 200 byte) YEAR: [発行年](整数) ABST: [概要](文字列 800 byte) 複合語の定義： [著者]：[著者姓][著者名]. (b) 形態素解析辞書，名詞意味素辞書の情報. 名詞の品詞と意味素： [著者姓]：固有名詞，G-AUTHORLAST [著者名]：固有名詞，G-AUTHORFIRST [著者]：固有名詞，G-AUTHORFULL [論文キーワード ]：普通名詞，G-KEYWORD 検索条件： [著者]，[著者姓]，[論文キーワード ] 一覧表示時のフォーマット： ([著者])+, 『 [タイトル ] 』,[発行学会], [発行年]. (c) 検索の情報. 詳細表示時のフォーマット：著者名：([著者])+ タイトル：[タイトル ] 学会：[発行学会] 年：[発行年] キーワード：([論文キーワード ])+ 概要：[概要] システムの名前：「文献検索システム」. (d) システム情報. 対話開始時のメッセージ：「文献検索システムです．御用件をどうぞ」検索キー拡張処理：「行わない」. ✑.

(12) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. 725. 表 3 GUI ツール群 Table 3 GUI tool list.. 表 2 に示したドメイン・タスク情報を作成する．アプリケーション構築者は，用意した検索対ドメイン・タスク情報生成ツール象のデータベースを見ながら，データベースのフィールド情報などを入力する．GUI ツールは入力された情報を保持し，これ以降のツールではその情報を使用して各種辞書を生成する．検索対象データの名詞・動詞辞書を登録する．まず，ドメイン・タスク情報からデータ形態素解析辞書生成ツール. ベース中に存在する名詞が自動で形態素解析辞書に登録される．アプリケーション構築者は，新しく構築した辞書を用いて対話文集合を形態素解析し，登録されていない新出単語を登録したり，形態素の修正や削除を行う．名詞の意味素辞書を生成する．まず，ドメイン・タスク情報を参照することにより，デー. 名詞意味素辞書生成ツール. タベース中の名詞にフィールドごとの意味素が自動で割り当てられる．次に，アプリケーション構築者は，対話文集合中の名詞のうちまだ意味素が割り振られていない名詞の意味素を登録する．また，必要に応じてすでに登録されている意味素の修正，削除を行う．対話文集合中に出現する動詞の格フレームを生成する．GUI では，対話文集合に出現す. 動詞格フレーム生成ツール. る動詞と，その動詞の周辺に出現する名詞群を表示し，アプリケーション構築者は，表示された動詞の格フレームを入力する．対話文集合の各文の意味表現から検索キーを抽出するための変換則を生成する．GUI は，. 意味表現から検索パターンへの変対話文集合の各文を意味解析し，各文の意味表現を表示する．アプリケーション構築者換則生成ツールは意味表現に対応する検索パターンを入力する．検索キー拡張の際に使用する名詞のリストを生成する．例を図 17 に示す．例では，「宿泊施設」「宿泊場所」「宿泊所」という検索キーワードが来た場合は「ペンション」「ホテ検索キー拡張情報生成ツール. ル」「旅館」で検索を行い，「観光地」「観光場所」「観光施設」という検索キーワードが来た場合は「ハーブ館」「フラワーガーデン」など 21 件で検索を行うことを示している．ここで，accommodation や sightseeing はツール上でデータを管理する際の一種のラベルであり，対話システム内で使用するデータには関連しない．. 年] は整数として PostgreSQL 用のデータベース. を表示すること，詳細表示では，[著者]，[タイト. に登録されることになる．. ル ]，[発行学会]，[発行年]，[論文キーワード ]，. (b) 形態素解析辞書，名詞意味素辞書の情報データベースのどのフィールドのデータを形態素. [概要] を表示することを示している． (d) システム情報. 解析辞書に登録するかや，登録する場合のそれら. 対話システムの名前などを記述する．表 2 の例で. の品詞と意味素を定義する．表 2 の例では，まず，. は，システムの名前と対話システム開始時のメッ. [著者姓][著者名] の単語の連結を [著者] とする. セージを定義している．また，検索キー拡張処理. こと，[著者姓]，[著者名] およびそれらを連結し. を行わないことを示している．. た[著者] を固有名詞辞書に，[論文キーワード ]. 表 1 のドメイン依存なデータ群に対して Web を使. を普通名詞辞書に登録することを示している．ま. 用した GUI 環境でのデータの新規登録・編集・削除. た，[著者姓] には G-AUTHORLAST という意味素. が可能である．具体的には表 3 に示すようなツール群. を，[著者名] には G-AUTHORFIRST という意味素. がある．. を，[著者] には G-AUTHORFULL という意味素を，. 4.2 辞. [論文キーワード ] には G-KEYWORD という意味素. ユーザ発話文を解析する際に必要な辞書は，形態素. を付与することを示している． (c) 検索の情報. 書. 解析辞書，形態素解析文法，名詞意味素辞書，動詞意味辞書（動詞の格フレーム情報）である．前述のとお. データベースのどの部分が実際の検索で検索キー. り，タスク依存な，名詞・動詞の形態素解析辞書，名. として使えるかなどを記述する．また，一覧表示. 詞意味素辞書，動詞意味辞書について構築する．. 時に表示するデータの指示と表示のフォーマット. まず，データベースとドメイン・タスク情報から，. や詳細表示時の表示フォーマットを定義する．表 2. データベース中の単語を，ドメイン・タスク情報に書. の例では，検索キーとして使えるのが [著者]，[著. かれている品詞で形態素辞書に登録する．一方発話文. 者姓]，[論文キーワード ] であること，一覧表示. 集合に出現している動詞も形態素解析辞書に登録する．. では [著者]，[タイトル ]，[発行学会]，[発行年]. 登録は半自動で行われる．データベース中の単語を登.

(13) 726. 情報処理学会論文誌. Fig. 17. Mar. 2002. 図 17 検索キー拡張情報を登録する GUI ツール GUI tools of retrieval key extension information.. 録した後，ユーザ発話文中に存在する名詞のうちデフォルトの形態素解析で解析できなかった単語を GUI を使って登録する．次に，名詞意味素辞書を作成する．これは，データベース中にある単語に，ドメイン・タスク情報に記述された意味素を登録する．文献検索ドメイン・タスクにおいては，図 16 の AUTH フィールドに書かれた情報は. 4.4 検索キー拡張情報検索キー拡張処理を使用するときに必要となる．この情報は図 17 のような GUI を用いて登録と修正を行う．例では，「宿泊施設」「宿泊場所」「宿泊所」という検索キーワードが来た場合は「ペンション」「ホテル」「旅館」で検索を行い，「観光地」「観光場所」「観光施設」という検索キーワードが来た場合は「ハーブ館」. 表 2 の (a) と (b) に記述された情報により，[著者] つ. 「フラワーガーデン」など 21 件で検索を行うことを示. まりは，著者姓と著者名の連結単語に G-AUTHORFULL. している．ここで，accommodation や sightseeing は. という意味素がふられることになる．動詞意味辞書は. ツール上でデータを管理する際の一種のラベルであり，. 発話文集合から半自動で求める．具体的には，発話文. 対話システム内で使用するデータには関連しない．. 集合を簡単に構文解析し，名詞句と動詞のペアを自動. 4.5 リレーショナルデータベーステーブル. で求めた後，GUI による訂正作業を行う．. データベースとドメイン・タスク情報を用いて，デー. 4.3 意味表現から検索パターンへの変換則これは，発話文集合から求めた動詞意味辞書（動詞の格フレーム情報）と，文中に存在する意味素から変換ルールを自動で生成する．ユーザ発話文を意味解析しそれらの意味表現からパターンを抽出した後，GUI による訂正作業を行う．. タベースからリレーショナルデータベーステーブルを作成し，RDBMS に登録する．このテーブルは自動で生成している．. 5. 富士山観光案内システムへの適用評価用のドメインとしては，「富士山観光案内」と.

(14) Vol. 43. No. 3. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. 727. . ✏. <data> <name>富士国際花園</name> <kind>フラワーガーデン </kind> <loc>精進湖</loc> <action>観賞</action> <cost>1050</cost> <abst>当園オリジナルの極大輪球根ベゴニアをはじめ，ヨーロッパ随一と定評のある英国 B．ラングドン作出の全品種，アメリカを代表するアントネリー，ドイツのべナリー，ベルギーのモアマン系を加えた世界の球根ベゴニア 1 万株と，頭上一面のハンギングベゴニアが，画期的なシステムとスケールで，一年中夢のような満開を続けます． </abst> </data>. ✒. Fig. 18. ✑. 図 18 富士山観光案内データベース Database of Mt. Fuji sightseeing guidance.. 「文献検索」を選択した．またそれぞれのタスクは「施. のテーブルである．次は，場所のテーブルで 102 行の. 設の種類，施設の場所，施設名，行動などから施設名. テーブルである．最後に施設種類のテーブルが 102 行. の情報を検索する」「著者名と論文キー和度で論文を. 抽出された．このリレーショナルデータベーステーブ. 検索する」タスクである．ドメイン・タスクを実際に. ルを PostgreSQL に登録した．この部分は自動で実行. 適用し，構築の効率とシステムの性能を調査した．な. される．. お，ドメイン独立部の構築とその規模についてはすで. 5.1.5 出力部. に 3.2.1 項で述べている．. 検索結果一覧表示フォーマットと検索結果詳細表示. 5.1 ドメイン依存部の構築 5.1.1 データベースの準備. フォーマットを生成した．システムの動作例を図 19 に示している．この例で. Web などで情報を収集して 102 件の富士山周辺の観光案内情報を収集し，検索用のデータベースとした．. は，「河口湖にはどんな宿泊施設がありますか」とい. 例を図 18 に示す．また表 4 のようなドメイン・タス. この SQL で検索をした結果検索件数が 0 件であった. ク情報を構築した．. ため，検索キー拡張の処理を行う．この処理で，検索. う入力に対して図右の上の SQL がまず生成される．. 5.1.2 形態素解析用辞書の生成. 条件が「宿泊施設」から「ホテル」or「ペンション」. 形態素解析用の辞書を生成した．ここではデータベースから施設種類 40 単語，アクション 19 単語を普. or「旅館」に拡張される．これでもう一度図右の下の SQL が生成され，検索を行った結果，7 件の検索 ID. 通名詞辞書に，場所名 13 単語，施設名 101 単語を固. を取得する．その 7 件について実際に必要な情報を検. 有名詞辞書に登録した．. 索する．検索件数は 7 件のため，一覧表示モードに移. 5.1.3 意味解析用辞書の生成. 行し，指定された検索結果表示のフォーマットに基づ. 名詞の意味辞書は，形態素解析辞書に登録した名詞. いて画面に検索結果一覧を表示している．. について，ドメイン・タスク情報に書かれた意味素を. 5.2 効率の評価. 割り振る．意味素は「キャンプ」「サイクリング」「宿. ドメイン・タスク情報（フィールド情報 6 規則，シ. 「富士山」「河泊」などの 19 単語に G-ACT（行動）を，. ステム情報）の準備に 3 時間・人，形態素解析用辞書. 「キャンプ口湖」などの 13 単語に G-LOC（場所）を，. （施設種類 40 単語，アクション 19 単語を普通名詞辞. 場」「ホテル」などの 40 単語に G-KIND（観光場所の. 書に，場所名 13 単語，施設名 101 単語，合計 173 単. 種類）を，「ペンションクレヨン」「富士急ハイランド」. 語を固有名詞辞書に登録）の生成に 1 時間・人，意味. などの 101 単語に G-NAME（施設名）をそれぞれ割り. 解析用辞書（名詞 173 単語の意味素付与と，動詞 61. 振った．過去の評価実験5)で収集した発話文集合（ 908. 単語の格フレーム情報）の生成に 10 時間・人（名詞. 文）から，動詞を 38 単語抽出し，対話文集合を構文. 1 時間・人，動詞 9 時間・人），検索部のデータ構築（意味表現から検索パターンの変換則 52 規則）に 1 時間・人，タスク依存部の構築には合計 15 時間・人か. 解析し動詞と名詞の関係を抽出して動詞の意味辞書を生成した．この作業では，自動生成される意味辞書の手作業での修正が必要である．. 5.1.4 検索部. かった．移植性を考慮していない既存の富士山観光案内シス. ここでは 3 つのリレーショナルデータベーステーブ. テムを，東三河観光案内というドメインに変更した場. ルを作成した．1 つは，施設の情報で，これは 102 行. 合，比較的似たドメインでもドメイン・タスク適応に.

(15) 728. 情報処理学会論文誌. Table 4. Mar. 2002. 表 4 富士山観光案内のドメイン・タスク情報 Domain and task information of Mt. Fuji sightseeing guidance.. <name>[施設名](文字列 200 byte)</name> <kind>[施設種類](文字列 100 byte)(複数可)</kind> (a) データベースの各フィールドの情報. <loc>[場所](文字列 100 byte)(複数可)</loc> <action>[ 行動](文字列 100 byte)</action> <cost>[値段](整数)</cost> <abst>[施設の説明](文字列 4000 byte)</abst> 複合語の定義：なし. (b) 形態素解析辞書，名詞意味素辞書の情報. 名詞の品詞と意味素： [施設名]：固有名詞，G-NAME [施設種類]：普通名詞，G-KIND [場所]：固有名詞，G-LOC [行動]：普通名詞，ACT 検索条件： [施設名]，[施設種類]，[場所]，[行動]. 一覧表示時のフォーマット：. [施設名]([施設種類]+), ([場所]+) [値段] 円 . (c) 検索の情報. 詳細表示時のフォーマット：施設名：[施設名] 種類：[施設種類]+ 場所：[場所]+ 行動：[行動] 値段：[値段] 説明：[施設の概要] システムの名前：「富士山観光案内システム」. (d) システム情報. 対話開始時のメッセージ：「富士山観光案内システムです．御用件をどうぞ」検索キー拡張処理：「行う」. 30 日・人かかっている14) ．富士山観光案内のデータベースの規模が 102 項目であるのに対して東三河観光案内の場合は 98 項目であり，両者はほぼ同程度の規. あった．1 日 4 時間作業したとして，計 84 時間・人かかっていた．これと比較して，今回開発したシステムでは，ドメ. 模のドメインである．既存の富士山観光案内を東三河. イン依存部の構築では 15 時間・人の作業でシステム. 観光案内に適用する際には新出名詞への意味素の登録. を構築でき，大幅な効率化が達成できた．なお，評価. 以外の，動詞の格フレームの変更などはまったく行っ. 実験において，「既存の富士山観光案内システム」「東. ていない．主に行った変更とその作業量は，形態素辞. 三河観光案内システムの適用」「提案しているシステ. 書と名詞の意味辞書の変更に 2 日・人，データベース. ムによる富士山観光案内システム」のそれぞれについ. の変更に 10 日・人，応答生成部の変更に 9 日・人で. て，構築者は「それぞれのシステムの開発に携わった，.

(16) Vol. 43. No. 3. 729. 音声対話システムにおける移植性の高い意味理解部・検索部の構築と評価. . . . . . 図 19 システムの動作例（『河口湖にはどんな宿泊施設がありますか』と発話） Fig. 19 An example of running system (The utterance “What accommodations are at Lake Kawaguchi?”).. 音声対話システムの知識を持つ大学院生」であり，シ. 価を行っている．O はユーザの意図した情報を正しく. ステム構築のスキルに差はほとんどない．. 表示できた文，N は，検索条件の抽出と SQL の生成. 5.3 性能の評価本論文の主張は『音声対話システムの移植性』である．しかし，1 章「はじめに」で述べたように，本論. には成功したが，SQL による検索をした結果，検索. 文では，音声対話システムの移植性をそれぞれの構成. 行えた文，Q は意味解析では正しく検索パターンを抽. 件数が 0 件であった文，D は一覧表示や詳細表示などの対話処理に関した発話文に対して正しく対話処理を. 要素の移植性に分解して考え，特に，『音声対話システ. 出できたが，検索部，出力部の不備により応答できな. ムの意味理解部，出力部の移植性』に焦点を当ててい. かった文，E はそれ以外で失敗した文を示している．. る．そのため，評価用入力としては，音声ではなくテ. 全体の意味理解率は 79.4%，応答生成率は 79.4%で. キストを用いた．なお，本論文の移植の手続きにおいて，音声入力に対する意味理解部のロバスト性は損な. あった．意味解析の失敗についてまず評価を行う．まず，. われないようにした．したがって以前のシステムと移. 形態素情報の不足による意味理解の失敗（表中. 植性を考慮したシステムでテキスト入力において同程. の W ）は 515 文中 2 文である．これは，「形. 度の性能（意味理解率と応答生成率）が得られれば，. 態素辞書」の「文法情報」の不備による形態素解. 音声入力においてもほぼ同程度の性能が得られると考. 析失敗であり，評価文中に出現する名詞はすべて. えられる．. 形態素解析用辞書に登録している．. すでに収集済み2) のユーザ発話文 515 文をシステム. 応答生成の失敗はなく，SQL を生成した段階で応. に入力した．文の種類とそれぞれの意味理解率と応答. 答生成は成功しているということになる．一方意味理. 生成率を表 5 に示す．O は正しく検索パターンを抽出. 解失敗のうち『意味辞書，意味解析の不備 S 』は，65. できた文，D は意味理解はできたが一覧表示や詳細表. 個存在した．. 示などの対話処理に失敗した文，W は形態素辞書の. 最後に，リジェクトについての評価であるが，ここ. 不備で失敗した文，S は名詞意味素辞書，動詞意味辞. では，意味理解に失敗した文（ユーザの意図どおりの. 書，意味解析部の不備で失敗した文，U は対機械では. 検索条件が抽出できなかった場合）のうち，正しくプ. 理解が困難で解析に失敗した文を示す（「テニスコー. ロンプトを表示できた文をリジェクト成功，間違った. トは有料ですか，それとも無料ですか」など）．また，. 解析によりユーザの意図とは異なった情報が検索され. 意味理解に成功した O についてのみ，応答生成の評. たときにリジェクト失敗とした．たとえば，「テニス.

(17) 730. 情報処理学会論文誌. Table 5. Mar. 2002. 表 5 富士山観光案内システムの意味理解率と応答生成率 Interpretation and response generation rate of Mt. Fuji sightseeing system.. 意味理解応答リジェクト成功失敗成功失敗成功失敗 (O+D) (W+S+U) (O+N+D) (Q+E) ∼ありますか 191 174+0 1+13+3 125+22+27 0+0 14 3 ∼できますか 91 84+0 0+5+2 58+21+5 0+0 6 1 ∼いくらですか 66 54+0 0+11+1 48+6+0 0+0 10 2 ∼したい 49 33+0 1+13+2 26+5+2 0+0 15 1 ∼教えてください 35 28+0 0+6+1 25+2+1 0+0 3 4 ∼何ですか 22 16+0 0+6+0 12+4+0 0+0 6 0 ∼どこですか 13 5+0 0+2+6 5+0+0 0+0 8 0 ∼乗れますか 6 2+0 0+4+0 1+1+0 0+0 4 0 ∼どんな所ですか 15 12+0 0+1+2 10+2+0 0+0 3 0 複文，発話途中 27 1+0 0+4+22 0+1+0 0+0 23 3 全体 515 409+0 2+65+39 310+64+35 0+0 92 14 正解率 79.4% (409/515) 79.4% (409/515) 86.8% (92/106) 意味理解応答 O 意味理解成功 O 応答成功（検索データを表示） D 意味理解はできたが対話処理に失敗 N 応答成功（検索件数は 0 件） D 応答成功（対話処理を実行） W 単語辞書の不備（形態素解析） Q SQL 生成に失敗 S 意味辞書および意味解析の不備 E その他のエラー U （対マシンでは）複雑で意味解析不能文の種類. 文数. 力文の意味理解に失敗し，「検索条件を入力して下さ. 6.1.2 形態素解析用辞書の生成形態素解析用の辞書を生成した．ここではデータ. い」というプロンプトが出力された場合に，これをリ. ベースから論文キーワード 6,657 単語を普通名詞辞書. ジェクト成功と呼ぶ．一方，「山中湖に泊まりたいんで. ，組織名（ 4 単語）に，名前（姓＋名，姓，6,755 単語）. コートは有料ですか，それとも無料ですか」という入. すが」という入力文で山中湖自体の情報が出力された. を固有名詞辞書にそれぞれ登録した．この作業は自動. 場合に，『山中湖の宿泊施設に泊まりたい』というユー. で行われる．. ザの意図とは異なる応答をしてしまっているので，こ. 6.1.3 意味解析用辞書の生成. れをリジェクト失敗とした．意味理解に失敗した 106. 次に，意味辞書を生成する．まず名詞の意味辞書で. 文についてのリジェクト率は 86.8%であった．. あるが，形態素解析辞書に登録した名詞について，ド. なお，移植性を考慮していない以前の富士山観光案. メイン・タスク情報に書かれた意味素を割り振る．情. 内システム5)におけるテキスト入力での意味理解率は. 19) に報検索のユーザ発話文集合（ユーザ発話 395 文）. 79.4%であり，本汎用構築システムで生成したシステ. 含まれる動詞 33 単語について，対話文集合を簡単に. ムでも同程度の性能が得られることが分かった．また，. 構文解析し動詞と名詞の関係を抽出して動詞の意味辞. 既存の富士山観光案内において音声入力時の意味理解. 書を生成した．この作業では，自動で生成される意味. 5). 率は 47.8% であり，本システムにおいても音声入力時の意味理解率が同程度であることが予想される．システムの効率と性能を，後出の表 7 にまとめた．. 6. 文献データベース検索システムへの適用. 辞書の手作業での修正が必要である．. 6.1.4 検索部まずリレーショナルデータベーステーブルを生成する．ここでは 3 つのリレーショナルデータベーステーブルを作成した．1 つは，論文自体の情報で，これは. 6.1 ドメイン依存部の構築 6.1.1 データベースの準備学術情報センターの文献検索システムの対話デー. 3,161 行のテーブルである．次は，著者用のテーブルで 7,529 行のテーブルである．最後に論文キーワード用のテーブルが 8,744 行抽出された．このリレーショ. タ19) と，電子情報通信学会論文誌，情報処理学会論文. ナルデータベーステーブルを PostgreSQL に登録し. 誌，日本音響学会誌，人工知能学会誌の日本語の論文. た．この部分は自動で実行される．. 情報（ 3,161 件）を実際に使用した（図 16 参照）．次に，ドメイン・タスク情報（表 2 ）を用意した．. 6.1.5 出力部検索結果一覧表示のフォーマットと検索結果詳細表.