ビデオ装置を例とした家電品の音声対話機能について

全文

(1)Vol. 44. No. 11. Nov. 2003. 情報処理学会論文誌. ビデオ装置を例とした家電品の音声対話機能について渡. 辺. 裕. 太†. 関. 口. 廣†. 芳. 鈴. 木. 良. 弥†. 最近の家電品は機能が増え，リモコンのボタン数が多くなり，操作が複雑になってきている．そこで，操作に不慣れな人には使用が難しい面もあり，音声対話の利用が期待されているが，本当に便利な音声対話機能を備えた装置はほとんど存在しない．そこで，本研究ではビデオ制御装置を例に，音声対話機能を備えた家電品を開発する方法を検討した．まず基本的なビデオ制御装置を作成し，実際に多くの人に使用してもらい，その使用感をアンケート調査した．そこで，あげられた問題点を検討した結果，(1) 音声対話を効率的に進行するための主導権切替え，(2) 音声による割込み制御，(3) 指示代名詞「それ」を使用できることが必要であることが分かり，それらの処理機能を構築した．これにより対話成功率は 95%となり，ユーザもほぼ満足できる装置を作成することができた．本研究の手法と同じ方法で，他の家電品を音声で制御する機能も開発できると考えられる．. On the Speech Dialogue Function of Household Electric Appliances Goods as an Example of Video Tape Recorder Yuta Watanabe,† Yoshihiro Sekiguchi† and Yoshimi Suzuki† Recently, the operation of household electric appliances goods has been getting complicated. So, the use of the speech dialogue has been expected. The method of developing the household electric appliances goods that had a speech dialogue function was examined in this research as an example of video tape recorder. First, a fundamental video tape recorder control system was made, and we had some people use it, and we investigated the feeling of the use with questionnaire. As results, it was understood that the followings were necessary. (1) The dialogue initiative switching function, (2) The interruption by user’s speech, (3) The use of demonstrative pronoun “SORE”. In our system, those functions were built. The dialogue success rate was 95%. It can be considered that the speech dialogue functions which can control other household electric appliances goods can be developed by using our method, too.. ての人には，「システムにユーザが合わせる」いわゆる. 1. はじめに. システム主導の感じが強く，新しい家電などに慣れに. 最近の家電品は機能が多くなり，リモコンのボタン. くい人たちには，必ずしも使いやすいものではない．. 数も増え，操作に不慣れな人には，家電をリモコンで. そこで新しい家電などに慣れにくい人たちにも気軽. 操作することが大変になっている．そこで，音声対話. に使用してもらえる音声対話機能を備えた家電品の開. により家電を制御できるシステムが期待されている．. 発方法を，実際の例を使いながら検討する．. この分野のシステムの例としては，音声認識機能を. 本研究で対象にしている音声対話や音声インタフェー. 備えたハイビジョンテレビ ☆があり，このシステムで. スに関する研究1),2)はすでに多く，本研究で特に取り. は「サッカー」「 3 チャンネル」などの単語をユーザ. 上げている対話の主導権の切替え 3) ，音声による割込. が発話することでテレビなどの操作ができる．また，. み処理1) ，指示代名詞の処理4),5) の研究も以前から活. インターネットや携帯電話のテレビ番組情報のウェブ. 発に行われており，それぞれ成果をあげている．一般. サイトにアクセスして，番組名をボタンクリックで選. に，これらの研究は自然言語処理，音声情報処理技術. 択することで，録画予約ができるシステム☆☆ などがあ. の立場から学問的に，検討されているものが多い．本. る．これらのシステムは，実用的ではあるが，はじめ ☆☆. † 山梨大学大学院医学工学総合教育部 Interdisciplinary Graduate School of Medicine and Engineering, Univercity of Yamanashi. ☆☆. 2690. 松下電器「 TH-36DH200 」(2001.12): http://www.matsushi ta.co.jp/corp/news/official.data/data.dir/jn011213-3/ jn011213-3.html NEC SmartVision: http://121ware.com/smartvision/.

(2) Vol. 44. No. 11. ビデオ装置を例とした家電品の音声対話機能について. 研究では，作成されたシステムを使用するユーザの立場から，どのような機能が必要かなどを検討して，実際のシステムを構築する場合の問題点を探って，その問題点の解決を図ろうとしている．ここではビデオ制御装置を例に検討を進めるが，本研究で検討した手法は他の家電品にも応用できる手法であると考えている．. 2. 基本システムの概要. U: S: U: S: U: S:. 2691. 「テレビ東京の音楽番組をとってください」「たくさん番組があります．およその時間をどうぞ」「午前 3 時ころかな」「テレビ東京の “音楽旅行” がありますが録画予約しますか」「はい，お願いします．」「録画予約します」. U:ユーザ，S:システム Fig. 1. 図 1 ユーザとシステムの対話例 Examples of dialogue between user and video control system.. まず，ビデオ装置を音声対話で制御できる簡単なシステムを作成した．これを「基本システム」と呼ぶ．著者らの経験からこのような簡単なシステムは容易に作成できる．. 2.1 対話の例図 1 にビデオ制御システムで操作を行うときのユーザとシステムとの対話例を示す．. 2.2 基本システムの構成基本システムは，図 2 に示すように，「候補単語生成部」，「辞書生成部」，「音声認識部」，「意味解析部」，「ビデオ制御部」と，それらを統合管理しユーザへの応答を行う「対話管理部」で構成されている．. 3. 基本システムの問題点の調査 Fig. 2. 図 2 基本システムのブロック図 Block diagram of the basic system.. 成人 18 名（男：14 名，女：4 名，22∼25 歳）に実際に基本システムを使用してもらい，アンケートでシステムの問題点を調査した．まず著者らが被験者に対して基本システムの使用方法をレクチャーした後，各被験者にテレビ番組表を見. D.「話すタイミングが分からない」（ 6/18 人） 3.1.2 音声対話に関する問題の解決策 A.「音声認識率が低い」に対する解決策 (1) 被験者のビデオ録画予約時の対話からコーパス. ながら，ビデオの録画予約をしてもらった．その際，. を作成し，専用の言語モデルを作成する．(2) 使用頻. (1) 番組名を含んだ命令で予約 (2) テレビ局名，時刻，ジャンル名などで予約の 2 種類の発話で対話を開始してもらうように指示. 度が高い指示代名詞「それ」へ対応できるようにする．. した．その後，記述式アンケートで被験者が基本システムの問題点と感じたことを調査した．その調査結果を下. (3) 対象単語を限定できるような対話の主導権切替え機能をつける．. B.「対話が遅い，システムの発話が長い」に対する解決策. (1) ユーザの音声による割込み機能をつけ，システ. 記の 2 項目に分け整理した．. ムの発話をユーザの発話で中断できる機能を追加する．. (1) 音声対話に関すること. (2) システム主導で対話を促進できるような主導権切. (2) テレビ局名，時刻，ジャンル名などのキーワード. 替え機能をつける．. に関すること. 3.1 音声対話に関する問題点と解決策 3.1.1 音声対話に関する問題点音声対話についての主な問題点は，以下の 4 つであった．. A.「音声認識率が低い」（ 13/18 人） B.「対話が遅い，システムの発話が長い」（ 12/18 人） C.「合成音が聞きとりにくい」（ 6/18 人）. C.「合成音が聞きとりにくい」に対する解決策システムの音声応答に使用する合成音声の設定の調整機能を追加する．男声か女声か，話速などをシステム起動時に選択できる機能を追加する．. D.「話すタイミングが分からない」に対する解決策音声認識処理中と番組検索中はユーザの音声入力を受け付けないので，ユーザの発話可能時に電子音を鳴らして，発話のタイミングを知らせるようにする．.

(3) 2692. Nov. 2003. 情報処理学会論文誌. 3.2 キーワードに関する問題点と解決策 3.2.1 キーワードに関する問題点. Table 1. キーワードに関する主な問題点は，下記の (1)，(2) である．. 表 1 番組情報の例 An example of TV program information.. 番組名. 伊東家の食卓. 情報. 10/22(火) 後 07:00∼後 07:58 日本テレビバラエティーキズでくすんだ指輪がピカピカになる裏技▽ホットサンドの作り方出演者/三宅健. (1)「番組名を省略して呼びたい」（ 13/18 人） (2)「使える単語の種類が少ない」（ 15/18 人） (2) の具体的な要求としては，「ジャンルの種類を多くしてほしい」「テレビ局名の別名を追加してほしい」. Table 2. 「時刻を 24 時間制でも使えるようにしてほしい」「番組名を愛称で呼びたい」. 表 2 候補単語の例 Examples of candidate words.. 候補単語の分類. 候補単語の例. 基本単語. 番組，が，を，とれドラマ，バラエティー，ニュース NHK 総合，日本テレビ，テレビ東京午前 8 時，午後 7 時，13 時. 一時単語. 伊東家の食卓，三宅健. 省略単語. 伊東，伊東家，食卓. 「出演者名を愛称で呼びたい」などである．. 3.2.2 キーワードに関する問題の解決策 (1)「番組名を省略して呼びたい」という問題は，候補単語生成部で番組情報から抽出された番組名を分割し，省略番組名とする．また，(2)「使える単語の種類が少ない」に関しては，新たな基本単語（時刻によらずつねに出現する可能性のある単語）を認識辞書中に登録することで対応する．. 4. システムの各処理の説明基本システムの処理と，それに必要に応じてユーザの要求を加えた処理の詳細をまとめて以下に記す．. 「 ON TV JAPAN 」☆ から，番組情報をダウンロードして，認識用辞書を生成する．実験で取り扱うテレビ局は関東地方の地上波放送局の「 NHK 総合」，「 NHK 教育」，「日本テレビ」，「 TBS テレビ」，「フジテレビ」，「テレビ朝日」，「テレビ東京」の 7 局で，ダウンロードした番組情報の 1 日分の時間区分は午前 5 時から翌日午前 5 時までである．ダウンロードするウェブ上の番組情報ファイルは番. 4.1 音声認識部. 組名，放送日時，テレビ局名，ジャンル，内容で構成. ユーザの音声を入力し，辞書生成部から得られる認. されている．これらの情報を番組名ごとに保存し，こ. 識辞書の内容とのマッチングを行い，音声認識処理をしている．. 4.1.1 音声入力と特徴量. れを「番組情報」と呼ぶ（表 1 参照）．番組情報から番組名，放送日時，テレビ局名，ジャンル名，出演者名を抽出して候補単語とする．候補単. 音声は，サンプリング周波数 16 [kHz]，量子化ビッ. 語は，(1) 一般的に使用される基本単語，(2) 時刻とと. ト数 16 [bit] で入力される．特徴量は MFCC を使用. もに変化する一時単語，(3) 番組名の省略形の省略単. している．. 語に分類される．その例を表 2 に示す．. 4.1.2 音声認識手法 6) を大語彙音声認識デコーダ（ Julius3.1 standard ）. 4.2.2 番組名の省略処理番組を番組名の一部を使って省略して呼ぶ場合があ. 用いている．音響モデルは Julius 付属の不特定話者. る．まず．番組名の省略規則を作成するため，アンケー. 用トライフォンを使用する．. ト調査を行った．. 4.1.3 言語モデル言語モデルは，統計的言語モデルを作成するための. 2002 年 12 月 1 日∼7 日の 1 週間分の約 1,700 番組を対象に，成人 6 名（男性：5 名，女性：1 名，23∼. ツール（ Palmkit version 1.0.7 ）を用いて，ビデオの. 25 歳）に対して番組名の省略や，愛称を調査した．表 3. 録画予約でよく使われる対話文，198 文を基に作成し. に番組名省略調査結果の一部を特徴ごとにまとめて示. ている．そのパープレキシティは 16.3 である．また，. す．また，表 3 の結果をもとに番組名省略規則を作成. この学習セットの単語認識率は，被験者成人 3 名で実. した．作成した規則を表 4 に示す．. 験したところ 99.0%であった．. 4.2 候補単語生成部 4.2.1 番組情報の生成ウェブ上で 1 週間分のテレビ番組表を提供している. 4.2.3 省略番組名の生成手順表 4 の番組名の省略規則を使用して，省略番組名の ☆. ON TV JAPAN:http://www.ontvjapan.com/.

(4) Vol. 44. No. 11. Table 3. 表 3 番組名の省略例 Examples of TV program title abridgment.. 番組名アリー・my ラブ 5 倶楽部 6 ママまっしぐら！3 2002NHK 杯国際フィギュアスケート 2002 カシオワールドオープンゴルフテレメンタリー 2002 優香＆ビビアンのムチャ修行笑う犬の情熱暮らしの健康ファイルアニメ・ギャラクシーエンジェルこころの時代−宗教・人生みんなの広場だ！わんパーク NHK ニュース 9 NHK ニュース 10 NHK 手話ニュース NHK ニュースおはよう日本いつみても波瀾万丈生活ほっとモーニング. 実際の発話アリー my ラブ倶楽部ママまっしぐら NHK 杯国際フィギュアスケートカシオワールドオープンゴルフテレメンタリームチャ修行笑う犬健康ファイルギャラクシーエンジェルこころの時代わんパークニュース 9 ニュース 10 手話ニュースおはよう日本波瀾万丈ほっとモーニング. 中居正広の金曜日のスマたちへめちゃ× 2 イケてる. キンスマメチャイケ. Table 4 番号 1 2 3 4 5 6 7. 特徴最後尾につく数字は省略される年号は省略される. 「の」の前または後は省略される「！」「∼」「・」などの記号の前または後は省略されるテレビ局名は省略されるカタカナ文字列，漢字文字列，英語文字列など文字種類が違う文字列は分割される愛称が使われる. 表 4 省略番組名の生成規則 Generation rule of abridged TV program title.. ダークダークダーク名詞-形容動詞語幹エンジェルエンジェルエンジェル名詞-固有名詞-一般 2 ニ 2 名詞-数 ETV ETV ETV 未知語 2 ニ 2 名詞-数 0 ゼロ 0 名詞-数 0 ゼロ 0 名詞-数 3 サン 3 名詞-数上沼カミヌマ上沼名詞-固有名詞-人名-姓恵美子エミコ恵美子名詞-固有名詞-人名-名のノの助詞-連体化おしゃべりオシャベリおしゃべり名詞-サ変接続クッキングクッキングクッキング名詞-一般ザザザ未知語・・・記号-一般ホワイトハウスホワイトハウスホワイトハウス名詞-固有名詞-一般 NHK エヌエイチケイ NHK 名詞-固有名詞-組織プレプレプレ名詞-固有名詞-組織マップマップマップ名詞-一般こどもコドモこども名詞-一般手話シュワ手話名詞-一般ウイークリーウイークリーウイークリー名詞-一般. Fig. 4. 内容最後尾につく数字は省略する年号は省略する「の」の前または後は省略する「！」「∼」「・」などの記号の前または後は省略するテレビ局名は省略するカタカナ文字列，漢字文字列，英語文字列など文字種類が違う文字列を分割する必要な場合愛称を使う. ダークエンジェル 2 ETV2003 上沼恵美子のおしゃべりクッキングザ・ホワイトハウス NHK プレマップこども手話ウイークリー. Fig. 3. 図 3 番組情報から抽出した番組名の例 Examples of TV program title extracted from TV progarm imformation.. 図 4 図 3 の番組名を形態素解析した結果 Results of morpheme analysis for TV program titles in Fig. 3.. ダークエンジェル ETV おしゃべりクッキング，上沼恵美子，おしゃべり，クッキングホワイトハウスプレマップこども手話，手話ウイークリー，ウイークリー，こども，手話. Fig. 5. Table 5 全番組数. 生成を以下の手順で行う．. (1) (2). 2693. ビデオ装置を例とした家電品の音声対話機能について. 1691. 図 5 図 3 の番組名の省略例 Examples of TV program title abridgment for Fig. 3.. 表 5 省略番組名生成実験の結果 Result of abridged TV program title generation experiment. (A) アンケートによる省略番組名の単語数 313. (B) 規則で得られた省略番組名の単語数 1371. (A) と (B) の一致数. 再現率. 適合率. 269. 86%. 20%. 番組情報から番組名を抽出する．番組名を形態素解析で単語単位に区切る．. 部で使う音声認識用辞書を下記の手順で生成する．. ( 3 ) 番組名から省略番組名を生成する．形態素解析ソフトは「茶筌7) 」を用いる．たとえば，. (1). 図 3 の番組名を形態素解析すると図 4 のようになる．. (2) (3). 表 4 の省略番組名の生成規則を使って図 4 のデータ. 漢字仮名変換ソフト ☆ を使用し「候補単語」を全角カナ文字の「読み」に変換する．. から図 5 の省略番組名を生成する．. 上記の「読み」を「音素表記」へ変換する．音素表記のモーラ数が 3 以上で，20 以下の単語を認識辞書に登録する．. 4.3 省略番組名の評価前述のアンケート結果（一部を表 3 に示す）と，表 4. す．なお，認識辞書の変更にともない，言語モデルを. 図 6 に辞書生成部で生成された認識辞書の例を示. の省略番組名の生成規則で生成された単語を比較した. 更新する必要があるが，本システムではリアルタイム. 結果を表 5 に示す．. 性が要求され，高速化のためにできるだけ処理を少な. 省略番組名の生成規則により自動的に生成された単. くしていること，予備実験の結果，最初に構築した言. 語辞書は，やや多めではあるがアンケート結果で省略. 語モデルで対話可能な音声認識率が得られていること. された単語の 86%をカバーしている．. 4.4 辞書生成部候補単語生成部で生成された候補単語から音声認識. ☆. Linux 版日本語音声合成ライブラリー： http://www.createsystem.co.jp/linux.html.

(5) 2694. 食卓+ショクタク+4 [食卓] sh o k u t a k u 作り方+ツクリカタ+4 [作り方] ts u k u r i k a t a 指輪がピカピカになる裏技+ユビワガピカピカニナルウラワザ+4 [指輪がピカピカになる裏技] y u b i w a g a p i k a p i k a n i n a r u u r a w a z a ピカピカ+ピカピカ+4 [ピカピカ] p i k a p i k a ホットサンドの作り方+ホットサンドノツクリカタ+4 [ホットサンドの作り方] h o q t o s a N d o n o ts u k u r i k a t a 三宅健+ミヤケケン +4 [三宅健] m i y a k e k e N. Fig. 6. Nov. 2003. 情報処理学会論文誌. 図 6 音声認識用辞書の例 Examples of the dictionary for speech recognition.. Table 7. 表 7 意味分類表 Semantic classified table.. ユーザの発話例笑っていいとも！をとりたいフジテレビのバラエティをとりたい午後 12 時のフジテレビのバラエティをとりたい和田アキ子が出ている番組をとりたいそれをとりたい笑っていいとも！はどのテレビ局でするか教えてフジテレビでする番組名を教えて午後 9 時にする番組名を教えてドラマの番組名を教えて. 表 6 キーワード分類表 Table 6 Key word classified table. キーワードの種類＜検索ワード＞. ＜番組：名詞＞＜出演：名詞＞＜テレビ局：名詞＞＜名前：名詞＞＜種類：名詞＞＜内容：名詞＞＜時刻：名詞＞＜録画：動詞＞＜問合せ：動詞＞＜システム終了：動詞＞＜わかりません＞＜否定：助動詞＞＜それ：代名詞＞＜あいさつ＞＜肯定＞＜否定＞＜ What ＞＜ Who ＞＜ Where ＞＜ How ＞＜疑問：助詞＞. 単語の例笑っていいとも！，まんてん等の番組名（＊）ドラマ，バラエティー，スポーツ等のジャンル名フジテレビ，日本テレビ等のテレビ局名午後 12 時，午前 1 時等の時刻和田アキコ，みのもんたなどの出演者名（＊）番組出演，出演者テレビ局，放送局，チャンネル名，名前ジャンル，種類内容時とる，みる教える，知るおわるわかりませんぬそれおはようはい，そういいえ，ちがう何誰どこどんなか. （＊）候補単語生成時に生成される．. 笑っていいとも！のジャンルは何ですか午後 7 時にはどんなジャンルがありますかフジテレビではどんなジャンルがありますか笑っていいとも！は何時からですか「はい，そうです．」「お願いします」「いいえ」「ちがいます」. Table 8. キーワードの組合せ例＜検索ワード＞＜録画：動詞＞＜検索ワード＞＜録画：動詞＞. ユーザの要求＜録画命令＞. ＜検索ワード＞＜録画：動詞＞＜検索ワード＞＜録画：動詞＞＜それ：代名詞＞＜録画：動詞＞＜検索ワード＞＜テレビ局：名詞＞＜問合せ：動詞＞＜検索ワード＞＜番組：名詞＞＜問合せ：動詞＞＜検索ワード＞＜番組：名詞＞＜問合せ：動詞＞＜検索ワード＞＜番組：名詞＞＜問合せ：動詞＞＜検索ワード＞＜種類：名詞＞＜問合せ：動詞＞＜ What ＞＜疑問：助詞＞＜検索ワード＞＜ How ＞＜種類：名詞＞＜疑問：助詞＞＜検索ワード＞＜ How ＞＜種類：名詞＞＜疑問：助詞＞＜検索ワード＞＜ What ＞＜時刻：名詞＞＜疑問：助詞＞＜肯定＞＜否定＞. ＜テレビ局名の問合せ＞＜番組名の問合せ＞. ＜ジャンルの問合せ＞. ＜開始時刻の問合せ＞＜肯定＞＜否定＞. 表 8 意味解析の例 1 An example of a semantic analysis (1).. 「形態素解析結果」笑っていいとも！ワラッテイイトモ笑っていいとも！名詞-固有名詞-一般をヲを助詞-格助詞-一般とりトリとる動詞-自立五段・ラ行連用形たいタイたい助動詞特殊・タイ基本形「キーワードの解析結果」笑っていいとも！＜検索ワード＞とる＜録画：動詞＞「ユーザの要求の解析結果」録画命令（笑っていいとも！）. から，認識辞書の更新ごとに言語モデルを更新する処理は行っていない．. 4.5 意味解析部音声の認識結果を意味解析し，「録画命令」，「問合せ命令」などのユーザの要求を抽出する．意味解析は，以下の手順で行う． ( 1 ) 音声認識結果を形態素解析する．. (2). 形態素解析結果からキーワード分類表（表 6 ）によりキーワードを解析する．. (3). 意味分類表（表 7 ）とそのキーワードの種類を比較し，ユーザの要求を抽出する．. Table 9. 表 9 意味解析の例 2 An example of a semantic analysis (2).. 「態素解析結果」フジテレビフジテレビフジテレビ名詞-固有名詞-組織でデで助詞-格助詞-一般はハは助詞-係助詞どんなドンナどんな連体詞ジャンルジャンルジャンル名詞-一般がガが助詞-格助詞-一般ありアリある動詞-自立五段・ラ行連用形ますマスます助動詞特殊・マス基本形かカか助詞-副助詞／並立助詞／終助詞「キーワードの解析結果」フジテレビ＜検索ワード＞どんな＜ How ＞ジャンル＜種類：名詞＞か＜疑問：助詞＞「ユーザの要求の解析結果」ジャンルの問合せ（フジテレビ）. 音声認識結果「笑っていいとも！をとりたい」と「フジテレビではどんなジャンルがありますか」の意味解析の手順をそれぞれ表 8，表 9 に示す．. 4.6 指示代名詞「それ」への対応 4.6.1 指示代名詞を使用した対話例ユーザの発話中に含まれる指示代名詞は「それ」が. の 3 種類の場面である．. (1) 図 7 のようにシステムが応答中に，ユーザが指示代名詞を使って割り込む場合がある．. (2) 図 8 のようにシステムの応答が終了した後，指示代名詞「それ」を使用する場合がある．. 発話が短く，簡単になり，ユーザの負担が軽減される．. (3) 図 9 のように「はい」「いいえ」などで答える代わりに，指示代名詞を使って答える場合がある．た. また，システムにとっては，簡潔な発話のため音声認. とえば，「それをとって」は肯定と見なす．. 多い．指示代名詞「それ」を使用することでユーザの. 識率が向上するという利点がある．対応するのは以下.

(6) Vol. 44. No. 11. U:「日本テレビに出る出演者を教えて」 S:「ビートたけし，所ジョージ，みのもんた，」 U:「それをとって．」 S:「みのもんたの出演する番組ですか？」 U:「はい」 Fig. 7. 図 7 指示代名詞「それ」の使用例 1 An example of the use of demonstrative pronoun “SORE” (1).. U:「笑っていいとも！のジャンルは何ですか？」 S:「笑っていいとものジャンルはバラエティです．」 U:「それをとって．」 S:「笑っていいとも！を録画予約しますか？」 U:「はい」 Fig. 8. 図 8 指示代名詞「それ」の使用例 2 An example of the use of demonstrative pronoun “SORE” (2).. S:「笑っていいとも！を録画予約しますか」 U:「それをとって．」 Fig. 9. 2695. ビデオ装置を例とした家電品の音声対話機能について. 図 9 指示代名詞「それ」の使用例 3 An example of the use of demonstrative pronoun “SORE” (3).. Table 10. 表 10 システムの応答発話の例 Examples of reply utterance from the system.. 応答の種類確認最終確認複数番組検索結果システム主導型定型文. 応答の例 [テレビ局名] は [フジテレビ ] ですか [” 笑っていいとも！”] は [フジテレビ ] で [午後 12 時] からする [バラエティ] の番組です．録画しますか [” まんてん ”] は [今日 2 番組] あります．[午前 8 時 15 分] と [午後 0 時 45 分] のどちらにしますか [”NHK ニュース 7，” クローズアップ現代”] があります番組が多すぎます [およその開始時刻] をどうぞ録画予約します．御利用ありがとうございました．. 表 11 対話の主導権切替え条件とその閾値 Table 11 Conditions and their threshold value for the change of dialogue initiative. 切替え条件. 閾値等. ユーザの問合せ発話 1 対話中にユーザの否定語ユーザの入力なし時間検索結果の該当番組数. あり 5 回以上 30 秒以上 6 個以上. ユーザ主導型であり，ユーザは自由な発話ができる．対話の進行状況がスムーズでないときなどに，ユーザ主導型からシステム主導型へ切り替える．システム主導型への切替え条件は下記のようになる．. 4.6.2 指示代名詞の照応処理の方法. (1) ユーザがシステムに対して問合せの発話をしたとき，(2) ユーザの否定語が一定回数を超えたとき，(3). たとえば「それをとって」という発話を意味解析す. ユーザの発話が一定時間なかったとき，(4) 検索され. ると動詞の「とって」より「録画命令」であると理解. た該当番組数が多いとき．実際のシステムでは，実験. できるが，録画対象は不明である．一方，システムは，. 的に閾値を表 11 のように設定している．システム主. 対話履歴より，「それをとって」が前述の 3 種類の場面. 導型に切り替わると，システムは，「ジャンル名をどう. のどれかを判別できる．また，直前のシステムの発話. ぞ」などの質問をする．この場合，結果としてユーザ. などを記録する「対話履歴」と番組などが検索された. の使用単語は限定されることになる．. 結果を記録する「検索履歴」を参照し，「それ」に対応. なお，表 11 の「ユーザの問合せ発話」以外の閾値. する「不明」な部分に検索ワード (番組名など ) を埋. の決定は，成人 10 名の下記のようなアンケートの結. め込む．. 果を基にしている．. 4.7 対話管理部. (1) 相手が発話を理解してくれないとき，何回くらい. 4.7.1 対話管理部の概要対話管理部は，ビデオ制御システムの全体の流れを. まで同じ発話をしますか．. 制御し，必要に応じてユーザとの対話を行う．主な機能として，番組情報の検索，対話の履歴をとる，主導権の切替え，ユーザの音声割込み，応答音声の生成，認識辞書の更新がある．. (2) 対話中に沈黙が何秒くらい続いたらあなたから発話しますか． (3) テレビ番組名の羅列を聞いたとき，何個くらいまで許容できますか．上記の各アンケート結果の分布範囲は平均値と標準. 4.7.2 応答文生成. 偏差から，およそ 3.2∼7.0 回，20.5∼31.9 秒，4.7∼. 表 10 のようなユーザへの応答文生成を行う．音声. 7.9 個と推定できるので，筆者のこれまでの経験も加味して，閾値を表 11 のような値に決定している． 4.8 ユーザの音声割込み. 合成を行うために「 Linux 版日本語音声合成ライブラリー」（ 4.4 節脚注参照）を使用している．ユーザごとに起動時に男声，女声，話速などを調整できる．. たとえば，ユーザの録画命令を受けて番組情報を検. 4.7.3 対話の主導権の切替え. 索し，「 “NHK ニュース 7”，“クローズアップ現代”，. このシステムでは，ユーザ主導型対話とシステム主. “コメディーお江戸でござる” 」のようにシステムが番組名一覧をユーザに音声応答しているとき，ユーザは. 導型対話を切り替えられる．システム起動時の設定は.

(7) 2696. Nov. 2003. 情報処理学会論文誌. Table 12. 表 12 音声割込みが始まる時刻 Start time of interruption by user’s utterance.. 被験者 A B C D E F G 平均. 対象単語終了時からの時間 [秒] +0.65 +0.20 +0.14 -0.19 +0.21 +0.19 +0.21 +0.20. 図 11 キーワードの数と辞書中の単語の数との関係 Fig. 11 Relation between the number of key words and the number of words in the dictionary.. えば，ジャンルが「ドラマ」に決定したとき，番組名を「ドラマ」番組のみに絞りこみ認識辞書の更新を行う．たとえば，図 11 は，キーワードが「ドラマ」「，フジテレビ」，「午後 9 時」と決まると認識辞書中の単語数が減少していく様子である．このように対話が進行するにつれ，認識辞書中の単語数が減少していくので，対話進行により音声認識率の向上が期待できる．. 5. システムの評価と考察改良したシステムの有効性を示すために，成人 10 名にシステムを使用してもらい，使用状況などをまと. Fig. 10. 図 10 ユーザ発話による割込みの処理過程 The process of interruption by user’s utterance.. め，考察を行った．. 5.1 評価実験の方法学生 10 名（男性：10 名，22∼25 歳）に実際にシス. 「それをとって」などの音声入力で，割込み時点の番組を選択することができる．. テムを使用してもらった．使用方法のレクチャー後，被験者にビデオの録画予約操作（番組表を見て，被験. 4.8.1 割込みの予備実験システムが番組名をユーザに 1 秒間隔で音声で提示. 者の任意発話）を行ってもらった．実験中の被験者の. しているときに，成人男性 7 名（ 22∼24 歳学生）に. 功率，発話回数，発話時間などを調べた．システム使. 音声による割込みを行ってもらった．. 用後に被験者の満足度をアンケート調査した．. 番組名の各単語の終端を基準の 0 [秒] とし，音声割込みが始まる時間を表 12 に示す．この結果より，割込みが入るのは対象単語の発話終. 音声データ，および認識辞書はすべて保存し，対話成. 5.2 評価に用いる用語の定義評価にあたって，以下のように用語の定義を行う．対話：ユーザが意図どおりの結果を得るまで，もし. 了後，平均＋ 0.20 [秒] であり，全被験者が対象単語の. くはあきらめて別の意図を持つまでの区切りを 1. 終端より 0.65 [秒] 以内に音声割込みを行っている．そ. つの対話とする．. こで，「ユーザの音声割込みは単語の終端を基準に±. 対話成功率：ユーザが意図したビデオ録画予約操作. 0.75[秒] に行われる．」としている． 4.8.2 音声割込みの方法. 対話時間：システムを使いはじめてから，意図した. 音声割込みの処理の流れを図 10 に示す．音声応答中でもユーザの音声応答を受け付けられ，ユーザの音声は，音声認識され，意味解析部に渡される．指示代名詞があれば処理され，割込みなら，応答音声は停止される．そのときの状況が対話履歴に記録される．ただし，現在対応しているのは，「指示代名詞「それ」を使用した割込み」のみである．. 4.9 認識辞書中の単語数について対話状況によって認識辞書の内容は変化する．たと. などを行える割合．ビデオの録画予約操作などを完了するまでの総時間．発話回数：ユーザが発話し，システムがそれに応答する組合せを発話回数 1 回とする．満足度：. 1：不満，2：やや不満，3：どちらともい. えない，4：ほぼ満足，5：満足の 5 段階評価をしている．. 5.3 実験結果とその考察「笑っていいとも！をとりたい」のように発話の始.

(8) Vol. 44. No. 11. Fig. 12. Fig. 13. ビデオ装置を例とした家電品の音声対話機能について. 図 12 対話成功率 Success rates of dialogue.. 2697. 図 15 対話時間に対する被験者ごとの満足度 Fig. 15 Satisfaction degree of dialogue time for individual subjects.. 図 13 1 対話に対する発話回数の平均 Average of utterance numbers for a dialogue.. Fig. 16. 図 16 システム全体に対する満足度の平均値 Averages of satisfaction degree for whole system.. 5.4 ユーザの満足度とその考察被験者ごとの対話時間に関する満足度を図 15，全被験者の発話の種類ごとのシステム全体に対する平均満足度を図 16 に示す．. Fig. 14. 図 14 1 対話にかかる平均時間 Average processing time for a dialogue.. 図 15 から，番組名から発話した場合の対話時間に対する満足度の平均は 3.5 で番組名以外から発話した場合の 2.7 を上回り，どの被験者も番組名から発話し. めに番組名を発話したときは，1 回の発話で番組を特. た場合の方が満足度が高いか同値である．. 定できる場合が多い．それに対して，「 NHK のドラマ. 「番組名から発話する場合の録画」に関図 16 より，. をとりたい．」のように，番組名以外から発話した場合. しては，満足度の平均は 4.0 で被験者はほぼ満足して. は番組名を特定するために数回の発話が必要となる．. いる．「番組名以外から発話する場合の録画」では平均. そこで，被験者の最初の発話で「番組名を発話した場合」と「番組名以外を発話した場合」の 2 つに分けて対話成功率と対話回数を算出した．. 3.6 であった． 5.5 基本システムとの比較評価本研究で導入した様々な改善策の有効性を確かめる. 5.3.1 対話成功率，発話回数，対話時間評価実験によって得られたユーザごとの対話成功率. ために，前述と同様な方法で，成人 10 名のユーザに改善する前の基本システムでビデオの録画予約操作を. を図 12，1 回の対話における発話回数の平均を図 13. 行ってもらい，満足度を測定した．本来は，個々の改. に示す．. 善策について調査するべきであるが，たとえば，音声. 対話成功率は，「番組名から発話した場合」が平均 94%で，「番組名以外から発話した場合」が平均 95%であった．平均発話回数はそれぞれ 2.6 回，5.7 回である．. の割込み処理には指示代名詞が関連しているように各. 対話回数が多くなっても，主導権切替えによる認識. とは容易でないことなどから，ここでは改善策の総合. 辞書更新や番組名省略機能が有効に働き，対話成功率は低くなっていない．. 1 対話にかかる時間は図 14 のように「番組名から「番組名以外から発話し発話した場合」が平均 29 秒，. 改善策はそれぞれ完全に独立ではないこと，個々の改善策の有効性を測定できる状況を意識的に作り出すこ的な有効性の調査を行う．調査の結果「番組名からの発話」に対する平均満足度は 3.8 で「番組名以外からの発話」の平均満足度は. 2.6 であった．この結果を図 16 の結果と比較すると，. た場合」が平均 78 秒で，後者の方が対話時間が約 2.7. 「番組名以外からの発話」で満足度が（ 2.6 → 3.6 ）と. 倍長くなっている．これは，ジャンルとテレビ局名な. 大きく向上している．対話対象に曖昧性が含まれ，対. どだけでは，番組を 1 つに絞り込むことができないた. 話回数が多く，対話時間が長い場合に提案した改善策. め，検索に時間がかかることが原因である．. が有効になっていることが分かった．.

(9) 2698. Nov. 2003. 情報処理学会論文誌. 6. おわりにビデオ制御装置を例として音声対話機能を備えた家電品の開発を行った．比較的手軽に作成できる基本システムをアンケート結果に基づいて改善し，ビデオ制御用の言語モデルの作成や対話の主導権の切替え，指示代名詞「それ」への対応，番組名の省略，音声割込. pp.651–660 (Aug. 1997). 5) 杉本基治，三角淳，関口芳廣，鈴木良弥，重永実：音声対話システムにおける代名詞処理の試み，音講論，1-P-2, pp.165–166 (Mar. 1996). 6) 鹿野清宏ほか：音声認識システム，オーム社 (2001). 7) 松本裕治：形態素解析システム「茶筌」，情報処理，Vol.41, No.11, pp.1208–1214 (2000). (平成 15 年 4 月 10 日受付) (平成 15 年 9 月 5 日採録). み機能などを実装した．評価実験では，対話成功率が平均 95%，システム全体の満足度は 5 段階評価の平均. 3.8 であり，被験者がほぼ満足できるシステムになっている．. 渡辺裕太. 今後，レクチャーなしで，幅広い年代の人に使用し. 平成 13 年山梨大学工学部電子情. てもらい，評価実験をすることや，音声合成システム. 報工学科卒業．平成 15 年同大学大. の検討，連想情報の活用や否定処理の工夫などをし，. 学院工学研究科博士前期課程・電子. より自由度の高いユーザの発話を理解できるようにす. 情報工学専攻修了．現在，同大学院. ること，携帯電話への適応なども考える必要がある．また，高齢者向けなどには本研究で扱ったこととは別. 医学工学総合教育部博士課程在学中．家電の情報化の研究に従事．. の問題も予想される．最近の技術の進歩で，基本的なシステムの構築は容. 関口芳廣（正会員）. 易であるが，実用システムとのギャップは大きい．その. 昭和 46 年山梨大学工学部電子工. ギャップを縮める試みのいくつかは成功しており，本. 学科卒業．昭和 48 年同大学大学院. 論文の手法がこの分野のシステム開発の参考になれば. 修了．同年同大学工学部計算機科学. 幸いである．. 科助手，現在同大学大学院医学工学. 謝辞論文のとりまとめには山梨大学大学院医学工学総合研究部の西崎博光博士にお世話になった．. 参考文献 1) 速水悟，菅村昇：音声対話システムの研究と実用化の動向，音響誌，Vol.50, No.7, pp.574–580 (1994). 2) 中川聖一：音声認識研究の動向，信学論（ D-II ）， Vol.J83-D-II, No.2, pp.433–457 (2000). 3) 安田宜仁，堂坂浩二，相川清明：2 つの認識文法を用いた主導権混合型対話制御，信学技報， SLP97-22 (2002). 4) Nakagawa, S.: A Robust Spoken Dialogue System for Multi Modal Interface, Proc. ICSP97,. 総合研究部教授．音声情報処理等の研究に従事．工学博士．信学会，音響学会，電気学会等会員．鈴木良弥（正会員）昭和 62 年山梨大学大学院修了．同年木更津工業高等専門学校助手．平成 5 年東京工業大学大学院修了．工学博士．同年山梨大学工学部電子情報工学科助手．現在同大学大学院医学工学総合研究部助教授．言語情報処理の研究に従事．信学会，音響学会，ACL 各会員．.

(10)