• 検索結果がありません。

ビデオ装置を例とした家電品の音声対話機能について

N/A
N/A
Protected

Academic year: 2021

シェア "ビデオ装置を例とした家電品の音声対話機能について"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)Vol. 44. No. 11. Nov. 2003. 情報処理学会論文誌. ビデオ装置を例とした家電品の音声対話機能について 渡. 辺. 裕. 太†. 関. 口. 廣†. 芳. 鈴. 木. 良. 弥†. 最近の家電品は機能が増え,リモコンのボタン数が多くなり,操作が複雑になってきている.そこ で,操作に不慣れな人には使用が難しい面もあり,音声対話の利用が期待されているが,本当に便利 な音声対話機能を備えた装置はほとんど 存在しない.そこで,本研究ではビデオ制御装置を例に,音 声対話機能を備えた家電品を開発する方法を検討した.まず基本的なビデオ制御装置を作成し,実際 に多くの人に使用してもらい,その使用感をアンケート調査した.そこで,あげられた問題点を検討 した結果,(1) 音声対話を効率的に進行するための主導権切替え,(2) 音声による割込み制御,(3) 指 示代名詞「それ」を使用できることが必要であることが分かり,それらの処理機能を構築した.これ により対話成功率は 95%となり,ユーザもほぼ満足できる装置を作成することができた.本研究の手 法と同じ方法で,他の家電品を音声で制御する機能も開発できると考えられる.. On the Speech Dialogue Function of Household Electric Appliances Goods as an Example of Video Tape Recorder Yuta Watanabe,† Yoshihiro Sekiguchi† and Yoshimi Suzuki† Recently, the operation of household electric appliances goods has been getting complicated. So, the use of the speech dialogue has been expected. The method of developing the household electric appliances goods that had a speech dialogue function was examined in this research as an example of video tape recorder. First, a fundamental video tape recorder control system was made, and we had some people use it, and we investigated the feeling of the use with questionnaire. As results, it was understood that the followings were necessary. (1) The dialogue initiative switching function, (2) The interruption by user’s speech, (3) The use of demonstrative pronoun “SORE”. In our system, those functions were built. The dialogue success rate was 95%. It can be considered that the speech dialogue functions which can control other household electric appliances goods can be developed by using our method, too.. ての人には, 「システムにユーザが合わせる」いわゆる. 1. は じ め に. システム主導の感じが強く,新しい家電などに慣れに. 最近の家電品は機能が多くなり,リモコンのボタン. くい人たちには,必ずしも使いやすいものではない.. 数も増え,操作に不慣れな人には,家電をリモコンで. そこで新しい家電などに慣れにくい人たちにも気軽. 操作することが大変になっている.そこで,音声対話. に使用してもらえる音声対話機能を備えた家電品の開. により家電を制御できるシステムが期待されている.. 発方法を,実際の例を使いながら検討する.. この分野のシステムの例としては,音声認識機能を. 本研究で対象にしている音声対話や音声インタフェー. 備えたハイビジョンテレビ ☆があり,このシステムで. スに関する研究1),2)はすでに多く,本研究で特に取り. は「サッカー」 「 3 チャンネル 」など の単語をユーザ. 上げている対話の主導権の切替え 3) ,音声による割込. が発話することでテレビなどの操作ができる.また,. み処理1) ,指示代名詞の処理4),5) の研究も以前から活. インターネットや携帯電話のテレビ番組情報のウェブ. 発に行われており,それぞれ成果をあげている.一般. サイトにアクセスして,番組名をボタンクリックで選. に,これらの研究は自然言語処理,音声情報処理技術. 択することで,録画予約ができるシステム☆☆ などがあ. の立場から学問的に,検討されているものが多い.本. る.これらのシステムは,実用的ではあるが,はじめ ☆☆. † 山梨大学大学院医学工学総合教育部 Interdisciplinary Graduate School of Medicine and Engineering, Univercity of Yamanashi. ☆☆. 2690. 松下電器「 TH-36DH200 」(2001.12): http://www.matsushi ta.co.jp/corp/news/official.data/data.dir/jn011213-3/ jn011213-3.html NEC SmartVision: http://121ware.com/smartvision/.

(2) Vol. 44. No. 11. ビデオ装置を例とした家電品の音声対話機能について. 研究では,作成されたシステムを使用するユーザの立 場から,どのような機能が必要かなどを検討して,実 際のシステムを構築する場合の問題点を探って,その 問題点の解決を図ろうとしている. ここではビデオ制御装置を例に検討を進めるが,本 研究で検討した手法は他の家電品にも応用できる手法 であると考えている.. 2. 基本システムの概要. U: S: U: S: U: S:. 2691. 「テレビ東京の音楽番組をとってください」 「たくさん番組があります.およその時間をど うぞ 」 「午前 3 時ころかな」 「テレビ東京の “音楽旅行” がありますが録画予約します か」 「はい,お願いします. 」 「録画予約します」. U:ユーザ,S:システム Fig. 1. 図 1 ユーザとシステムの対話例 Examples of dialogue between user and video control system.. まず,ビデオ装置を音声対話で制御できる簡単なシ ステムを作成した.これを「 基本システム」と呼ぶ. 著者らの経験からこのような簡単なシステムは容易に 作成できる.. 2.1 対 話 の 例 図 1 にビデオ制御システムで操作を行うときのユー ザとシステムとの対話例を示す.. 2.2 基本システムの構成 基本システムは,図 2 に示すように, 「 候補単語生成 部」 , 「 辞書生成部」 , 「 音声認識部」 , 「 意味解析部」 , 「ビ デオ制御部」と,それらを統合管理しユーザへの応答 を行う「対話管理部」で構成されている.. 3. 基本システムの問題点の調査 Fig. 2. 図 2 基本システムのブロック図 Block diagram of the basic system.. 成人 18 名(男:14 名,女:4 名,22∼25 歳)に実 際に基本システムを使用してもらい,アンケートでシ ステムの問題点を調査した. まず著者らが被験者に対して基本システムの使用方 法をレクチャーした後,各被験者にテレビ番組表を見. D.「話すタイミングが分からない」 ( 6/18 人) 3.1.2 音声対話に関する問題の解決策 A.「音声認識率が低い」に対する解決策 (1) 被験者のビデオ録画予約時の対話からコーパス. ながら,ビデオの録画予約をしてもらった.その際,. を作成し,専用の言語モデルを作成する.(2) 使用頻. (1) 番組名を含んだ命令で予約 (2) テレビ局名,時刻,ジャンル名などで予約 の 2 種類の発話で対話を開始してもらうように指示. 度が高い指示代名詞「それ」へ対応できるようにする.. した. その後,記述式アンケートで被験者が基本システム の問題点と感じたことを調査した.その調査結果を下. (3) 対象単語を限定できるような対話の主導権切替え 機能をつける.. B.「対話が遅い,システムの発話が長い」に対する 解決策. (1) ユーザの音声による割込み機能をつけ,システ. 記の 2 項目に分け整理した.. ムの発話をユーザの発話で中断できる機能を追加する.. (1) 音声対話に関すること. (2) システム主導で対話を促進できるような主導権切. (2) テレビ局名,時刻,ジャンル名などのキーワード. 替え機能をつける.. に関すること. 3.1 音声対話に関する問題点と解決策 3.1.1 音声対話に関する問題点 音声対話についての主な問題点は,以下の 4 つで あった.. A.「音声認識率が低い」 ( 13/18 人) B.「対話が遅い,システムの発話が長い」 ( 12/18 人) C.「合成音が聞きとりにくい」 ( 6/18 人). C.「合成音が聞きとりにくい」に対する解決策 システムの音声応答に使用する合成音声の設定の調 整機能を追加する.男声か女声か,話速などをシステ ム起動時に選択できる機能を追加する.. D.「話すタイミングが分からない」に対する解決策 音声認識処理中と番組検索中はユーザの音声入力を 受け付けないので,ユーザの発話可能時に電子音を鳴 らして,発話のタイミングを知らせるようにする..

(3) 2692. Nov. 2003. 情報処理学会論文誌. 3.2 キーワード に関する問題点と解決策 3.2.1 キーワード に関する問題点. Table 1. キーワードに関する主な問題点は,下記の (1),(2) である.. 表 1 番組情報の例 An example of TV program information.. 番組名. 伊東家の食卓. 情報. 10/22(火)  後 07:00∼後 07:58  日本テレビ バラエティー キズでくすんだ指輪がピカピカになる裏技▽ホット サンド の作り方   出演者/三宅健. (1)「番組名を省略して呼びたい」 ( 13/18 人) (2)「使える単語の種類が少ない」 ( 15/18 人) (2) の具体的な要求としては, 「ジャンルの種類を多くしてほしい」 「テレビ局名の別名を追加してほしい」. Table 2. 「時刻を 24 時間制でも使えるようにしてほしい」 「番組名を愛称で呼びたい」. 表 2 候補単語の例 Examples of candidate words.. 候補単語の分類. 候補単語の例. 基本単語. 番組,が,を,とれ ド ラマ,バラエティー,ニュース NHK 総合,日本テレビ,テレビ東京 午前 8 時,午後 7 時,13 時. 一時単語. 伊東家の食卓,三宅健. 省略単語. 伊東,伊東家,食卓. 「出演者名を愛称で呼びたい」 などである.. 3.2.2 キーワード に関する問題の解決策 (1)「番組名を省略して呼びたい」という問題は,候 補単語生成部で番組情報から抽出された番組名を分割 し,省略番組名とする.また,(2)「使える単語の種類 が少ない」に関しては,新たな基本単語(時刻によら ずつねに出現する可能性のある単語)を認識辞書中に 登録することで対応する.. 4. システムの各処理の説明 基本システムの処理と,それに必要に応じてユーザ の要求を加えた処理の詳細をまとめて以下に記す.. 「 ON TV JAPAN 」☆ から,番組情報をダウンロード して,認識用辞書を生成する. 実験で取り扱うテレビ局は関東地方の地上波放送局 の「 NHK 総合」 , 「 NHK 教育」 , 「 日本テレビ 」 , 「 TBS テレビ 」 , 「 フジテレビ 」 , 「 テレビ朝日」 , 「 テレビ東京」 の 7 局で,ダウンロードした番組情報の 1 日分の時間 区分は午前 5 時から翌日午前 5 時までである. ダウンロード するウェブ上の番組情報ファイルは番. 4.1 音声認識部. 組名,放送日時,テレビ局名,ジャンル,内容で構成. ユーザの音声を入力し,辞書生成部から得られる認. されている.これらの情報を番組名ごとに保存し,こ. 識辞書の内容とのマッチングを行い,音声認識処理を している.. 4.1.1 音声入力と特徴量. れを「番組情報」と呼ぶ( 表 1 参照) . 番組情報から番組名,放送日時,テレビ局名,ジャ ンル名,出演者名を抽出して候補単語とする.候補単. 音声は,サンプリング周波数 16 [kHz],量子化ビッ. 語は,(1) 一般的に使用される基本単語,(2) 時刻とと. ト数 16 [bit] で入力される.特徴量は MFCC を使用. もに変化する一時単語,(3) 番組名の省略形の省略単. している.. 語に分類される.その例を表 2 に示す.. 4.1.2 音声認識手法 6) を 大語彙音声認識デコーダ( Julius3.1 standard ). 4.2.2 番組名の省略処理 番組を番組名の一部を使って省略して呼ぶ場合があ. 用いている.音響モデルは Julius 付属の不特定話者. る.まず.番組名の省略規則を作成するため,アンケー. 用トライフォンを使用する.. ト調査を行った.. 4.1.3 言語モデル 言語モデルは,統計的言語モデルを作成するための. 2002 年 12 月 1 日∼7 日の 1 週間分の約 1,700 番組 を対象に,成人 6 名( 男性:5 名,女性:1 名,23∼. ツール( Palmkit version 1.0.7 )を用いて,ビデオの. 25 歳)に対して番組名の省略や,愛称を調査した.表 3. 録画予約でよく使われる対話文,198 文を基に作成し. に番組名省略調査結果の一部を特徴ごとにまとめて示. ている.そのパープレキシティは 16.3 である.また,. す.また,表 3 の結果をもとに番組名省略規則を作成. この学習セットの単語認識率は,被験者成人 3 名で実. した.作成した規則を表 4 に示す.. 験したところ 99.0%であった.. 4.2 候補単語生成部 4.2.1 番組情報の生成 ウェブ上で 1 週間分のテレビ番組表を提供している. 4.2.3 省略番組名の生成手順 表 4 の番組名の省略規則を使用して,省略番組名の ☆. ON TV JAPAN:http://www.ontvjapan.com/.

(4) Vol. 44. No. 11. Table 3. 表 3 番組名の省略例 Examples of TV program title abridgment.. 番組名 アリー・my ラブ 5 倶楽部 6 ママまっしぐら!3 2002NHK 杯国際フィギュアス ケート 2002 カシオワールドオープンゴ ルフ テレ メンタリー 2002 優香&ビビアンのムチャ修行 笑う犬の情熱 暮らしの健康ファイル アニメ・ギャラクシーエンジェル こころの時代−宗教・人生 みんなの広場だ!わんパーク NHK ニュース 9 NHK ニュース 10 NHK 手話ニュース NHK ニュースおはよう日本 いつみても波瀾万丈 生活ほっとモーニング. 実際の発話 アリー my ラブ 倶楽部 ママまっしぐら NHK 杯国際フィギュアス ケート カシオワールド オープンゴ ルフ テレ メンタリー ムチャ修行 笑う犬 健康ファイル ギャラクシーエンジェル こころの時代 わんパーク ニュース 9 ニュース 10 手話ニュース おはよう日本 波瀾万丈 ほっとモーニング. 中居正広の金曜日のスマたちへ めちゃ× 2 イケてる. キンスマ メチャイケ. Table 4 番号 1 2 3 4 5 6 7. 特徴 最後尾につく数字は 省略される 年号は省略される. 「の」の前または後 は省略される 「!」 「∼」 「・」 などの記号の前また は後は省略される テレビ局名は省略さ れる カタカナ文字列,漢 字文字列,英語文字 列など 文字種類が違 う文字列は分割され る 愛称が使われる. 表 4 省略番組名の生成規則 Generation rule of abridged TV program title.. ダーク ダーク ダーク 名詞-形容動詞語幹 エンジェル エンジェル エンジェル 名詞-固有名詞-一般 2 ニ 2 名詞-数 ETV ETV ETV 未知語 2 ニ 2 名詞-数 0 ゼロ 0 名詞-数 0 ゼロ 0 名詞-数 3 サン 3 名詞-数 上沼 カミヌマ 上沼 名詞-固有名詞-人名-姓 恵美子 エミコ 恵美子 名詞-固有名詞-人名-名 の ノ の 助詞-連体化 おしゃべり オシャベリ おしゃべり 名詞-サ変接続 クッキング クッキング クッキング 名詞-一般 ザ ザ ザ 未知語 ・ ・ ・ 記号-一般 ホワイトハウス ホワイトハウス ホワイトハウス 名詞-固有名詞-一般 NHK エヌエイチケイ NHK 名詞-固有名詞-組織 プレ プレ プレ 名詞-固有名詞-組織 マップ マップ マップ 名詞-一般 こども コド モ こども 名詞-一般 手話 シュワ 手話 名詞-一般 ウイークリー ウイークリー ウイークリー 名詞-一般. Fig. 4. 内容 最後尾につく数字は省略する 年号は省略する 「の」の前または後は省略する 「!」 「∼」 「・」などの記号の前または後は省略する テレビ局名は省略する カタカナ文字列,漢字文字列,英語文字列など 文字種類が違う文字列を分割する 必要な場合愛称を使う. ダークエンジェル 2 ETV2003 上沼恵美子のおしゃべりクッキング ザ・ホワイトハウス NHK プレマップ こども手話ウイークリー. Fig. 3. 図 3 番組情報から抽出した番組名の例 Examples of TV program title extracted from TV progarm imformation.. 図 4 図 3 の番組名を形態素解析した結果 Results of morpheme analysis for TV program titles in Fig. 3.. ダークエンジェル ETV おしゃべりクッキング,上沼恵美子,おしゃべり,クッキング ホワイトハウス プレマップ こども手話,手話ウイークリー,ウイークリー,こども,手話. Fig. 5. Table 5 全番組数. 生成を以下の手順で行う.. (1) (2). 2693. ビデオ装置を例とした家電品の音声対話機能について. 1691. 図 5 図 3 の番組名の省略例 Examples of TV program title abridgment for Fig. 3.. 表 5 省略番組名生成実験の結果 Result of abridged TV program title generation experiment. (A) アン ケートによ る省略番組 名の単語数 313. (B) 規 則 で得られた 省略番組名 の単語数 1371. (A) と (B) の一致数. 再現率. 適合率. 269. 86%. 20%. 番組情報から番組名を抽出する. 番組名を形態素解析で単語単位に区切る.. 部で使う音声認識用辞書を下記の手順で生成する.. ( 3 ) 番組名から省略番組名を生成する. 形態素解析ソフトは「茶筌7) 」を用いる.たとえば,. (1). 図 3 の番組名を形態素解析すると図 4 のようになる.. (2) (3). 表 4 の省略番組名の生成規則を使って図 4 のデータ. 漢字仮名変換ソフト ☆ を使用し「候補単語」を 全角カナ文字の「読み」に変換する.. から図 5 の省略番組名を生成する.. 上記の「読み」を「音素表記」へ変換する. 音素表記のモーラ数が 3 以上で,20 以下の単 語を認識辞書に登録する.. 4.3 省略番組名の評価 前述のアンケート結果(一部を表 3 に示す)と,表 4. す.なお,認識辞書の変更にともない,言語モデルを. 図 6 に辞書生成部で生成された認識辞書の例を示. の省略番組名の生成規則で生成された単語を比較した. 更新する必要があるが,本システムではリアルタイム. 結果を表 5 に示す.. 性が要求され,高速化のためにできるだけ処理を少な. 省略番組名の生成規則により自動的に生成された単. くしていること,予備実験の結果,最初に構築した言. 語辞書は,やや多めではあるがアンケート結果で省略. 語モデルで対話可能な音声認識率が得られていること. された単語の 86%をカバーしている.. 4.4 辞書生成部 候補単語生成部で生成された候補単語から音声認識. ☆. Linux 版日本語音声合成ライブラリー: http://www.createsystem.co.jp/linux.html.

(5) 2694. 食卓+ショクタク+4 [食卓] sh o k u t a k u 作り方+ツクリカタ+4 [作り方] ts u k u r i k a t a 指輪がピカピカになる裏技+ユビワガピカピカニナルウラワザ+4 [指輪がピカピカになる裏技] y u b i w a g a p i k a p i k a n i n a r u u r a w a z a ピカピカ+ピカピカ+4 [ピカピカ] p i k a p i k a ホットサンド の作り方+ホットサンド ノツクリカタ+4 [ホットサ ンド の作り方] h o q t o s a N d o n o ts u k u r i k a t a 三宅健+ミヤケケン +4 [三宅健] m i y a k e k e N. Fig. 6. Nov. 2003. 情報処理学会論文誌. 図 6 音声認識用辞書の例 Examples of the dictionary for speech recognition.. Table 7. 表 7 意味分類表 Semantic classified table.. ユーザの発話例 笑っていいとも!をとりたい フジテレビのバラエティをとりた い 午後 12 時のフジテレビのバラエ ティをとりたい 和田アキ子が出ている番組をとり たい それをとりたい 笑っていいとも!はどのテレビ局 でするか教えて フジテレビでする番組名を教えて 午後 9 時にする番組名を教えて ド ラマの番組名を教えて. 表 6 キーワード 分類表 Table 6 Key word classified table. キーワード の種類 <検索ワード >. <番組:名詞> <出演:名詞> <テレビ局:名詞> <名前:名詞> <種類:名詞> <内容:名詞> <時刻:名詞> <録画:動詞> <問合せ:動詞> <システム終了:動詞> <わかりません> <否定:助動詞> <それ:代名詞> <あいさつ> <肯定> <否定> < What > < Who > < Where > < How > <疑問:助詞>. 単語の例 笑っていいとも!,まんてん等の番組名( *) ド ラマ,バラエティー,スポーツ等のジャンル名 フジテレビ ,日本テレビ等のテレビ局名 午後 12 時,午前 1 時等の時刻 和田アキコ,みのもんたなどの出演者名(*) 番組 出演,出演者 テレビ局,放送局,チャンネル 名,名前 ジャンル,種類 内容 時 とる,みる 教える,知る おわる わかりません ぬ それ おはよう はい,そう いいえ,ちがう 何 誰 どこ どんな か. (*)候補単語生成時に生成される.. 笑っていいとも!のジャンルは何 ですか 午後 7 時にはどんなジャンルがあ りますか フジテレビではどんなジャンルが ありますか 笑っていいとも!は何時からです か 「はい,そうです. 」 「お願いしま す」 「いいえ」 「ちがいます」. Table 8. キーワード の組合せ例 <検索ワード><録画:動詞> <検索ワード><録画:動詞>. ユーザの要求 <録画命令>. <検索ワード><録画:動詞> <検索ワード><録画:動詞> <それ:代名詞><録画:動詞> <検索ワード><テレビ局:名詞 ><問合せ:動詞> <検索ワード><番組:名詞>< 問合せ:動詞> <検索ワード><番組:名詞>< 問合せ:動詞> <検索ワード><番組:名詞>< 問合せ:動詞> <検索ワード><種類:名詞>< 問合せ:動詞> < What ><疑問:助詞> <検索ワード>< How ><種類 :名詞> <疑問:助詞> <検索ワード>< How ><種類 :名詞> <疑問:助詞> <検索ワード>< What ><時 刻:名詞> <疑問:助詞> <肯定> <否定>. <テレビ局名 の問合せ> <番組名の問 合せ>. <ジャンルの 問合せ>. <開始時刻の 問合せ> <肯定> <否定>. 表 8 意味解析の例 1 An example of a semantic analysis (1).. 「形態素解析結果」 笑っていいとも! ワラッテイイトモ 笑っていいとも! 名詞-固有名詞-一般 を ヲ を 助詞-格助詞-一般 とり トリ とる 動詞-自立 五段・ラ行 連用形 たい タイ たい 助動詞 特殊・タイ 基本形 「キーワード の解析結果」 笑っていいとも! <検索ワード > とる <録画:動詞> 「ユーザの要求の解析結果」 録画命令( 笑っていいとも!). から,認識辞書の更新ごとに言語モデルを更新する処 理は行っていない.. 4.5 意味解析部 音声の認識結果を意味解析し, 「 録画命令」 , 「 問合せ 命令」などのユーザの要求を抽出する.意味解析は, 以下の手順で行う. ( 1 ) 音声認識結果を形態素解析する.. (2). 形態素解析結果からキーワード 分類表( 表 6 ) によりキーワード を解析する.. (3). 意味分類表(表 7 )とそのキーワード の種類を 比較し,ユーザの要求を抽出する.. Table 9. 表 9 意味解析の例 2 An example of a semantic analysis (2).. 「態素解析結果」 フジテレビ フジテレビ フジテレビ 名詞-固有名詞-組織 で デ で 助詞-格助詞-一般 は ハ は 助詞-係助詞 どんな ドンナ どんな 連体詞 ジャンル ジャンル ジャンル 名詞-一般 が ガ が 助詞-格助詞-一般 あり アリ ある 動詞-自立 五段・ラ行 連用形 ます マス ます 助動詞 特殊・マス 基本形 か カ か 助詞-副助詞/並立助詞/終助詞 「キーワード の解析結果」 フジテレビ <検索ワード> どんな< How > ジャンル <種類:名詞> か <疑問:助詞> 「ユーザの要求の解析結果」 ジャンルの問合せ(フジテレビ ). 音声認識結果「笑っていいとも!をとりたい」と「フ ジテレビではどんなジャンルがありますか」の意味解 析の手順をそれぞれ表 8,表 9 に示す.. 4.6 指示代名詞「それ」への対応 4.6.1 指示代名詞を使用した対話例 ユーザの発話中に含まれる指示代名詞は「それ」が. の 3 種類の場面である.. (1) 図 7 のようにシステムが応答中に,ユーザが指 示代名詞を使って割り込む場合がある.. (2) 図 8 のようにシステムの応答が終了した後,指 示代名詞「それ 」を使用する場合がある.. 発話が短く,簡単になり,ユーザの負担が軽減される.. (3) 図 9 のように「はい」 「いいえ」などで答える 代わりに,指示代名詞を使って答える場合がある.た. また,システムにとっては,簡潔な発話のため音声認. とえば, 「 それをとって」は肯定と見なす.. 多い.指示代名詞「それ」を使用することでユーザの. 識率が向上するという利点がある.対応するのは以下.

(6) Vol. 44. No. 11. U:「日本テレビに出る出演者を教えて」 S:「ビートたけし,所ジョージ,みのもんた, 」 U:「それをとって. 」 S:「みのもんたの出演する番組ですか?」 U:「はい」 Fig. 7. 図 7 指示代名詞「それ」の使用例 1 An example of the use of demonstrative pronoun “SORE” (1).. U:「笑っていいとも!のジャンルは何ですか?」 S:「笑っていいとものジャンルはバラエティです. 」 U:「それをとって. 」 S:「笑っていいとも!を録画予約しますか?」 U:「はい」 Fig. 8. 図 8 指示代名詞「それ」の使用例 2 An example of the use of demonstrative pronoun “SORE” (2).. S:「笑っていいとも!を録画予約しますか 」 U:「それをとって. 」 Fig. 9. 2695. ビデオ装置を例とした家電品の音声対話機能について. 図 9 指示代名詞「それ」の使用例 3 An example of the use of demonstrative pronoun “SORE” (3).. Table 10. 表 10 システムの応答発話の例 Examples of reply utterance from the system.. 応答の種類 確認 最終確認 複数番組 検索結果 システム主導型 定型文. 応答の例 [テレビ局名] は [フジテレビ ] ですか [” 笑っていいとも!”] は [フジテレビ ] で [午後 12 時] からする [バラエティ] の番組です.録画しますか [” まんてん ”] は [今日 2 番組] あります.[午前 8 時 15 分] と [午後 0 時 45 分] のど ちらにしますか [”NHK ニュース 7,” クローズアップ現代”] があります 番組が多すぎ ます [およその開始時刻] をど うぞ 録画予約します.御利用ありがとうござ いました.. 表 11 対話の主導権切替え条件とその閾値 Table 11 Conditions and their threshold value for the change of dialogue initiative. 切替え条件. 閾値等. ユーザの問合せ発話 1 対話中にユーザの否定語 ユーザの入力なし時間 検索結果の該当番組数. あり 5 回以上 30 秒以上 6 個以上. ユーザ主導型であり,ユーザは自由な発話ができる. 対話の進行状況がスムーズでないときなどに,ユーザ 主導型からシステム主導型へ切り替える. システム主導型への切替え条件は下記のようになる.. 4.6.2 指示代名詞の照応処理の方法. (1) ユーザがシステムに対して問合せの発話をしたと き,(2) ユーザの否定語が一定回数を超えたとき,(3). たとえば「それをとって」という発話を意味解析す. ユーザの発話が一定時間なかったとき,(4) 検索され. ると動詞の「とって」より「録画命令」であると理解. た該当番組数が多いとき.実際のシステムでは,実験. できるが,録画対象は不明である.一方,システムは,. 的に閾値を表 11 のように設定している.システム主. 対話履歴より, 「 それをとって」が前述の 3 種類の場面. 導型に切り替わると,システムは, 「ジャンル名をど う. のどれかを判別できる.また,直前のシステムの発話. ぞ 」などの質問をする.この場合,結果としてユーザ. などを記録する「対話履歴」と番組などが検索された. の使用単語は限定されることになる.. 結果を記録する「検索履歴」を参照し, 「 それ」に対応. なお,表 11 の「ユーザの問合せ発話」以外の閾値. する「不明」な部分に検索ワード (番組名など ) を埋. の決定は,成人 10 名の下記のようなアンケートの結. め込む.. 果を基にしている.. 4.7 対話管理部. (1) 相手が発話を理解してくれないとき,何回くらい. 4.7.1 対話管理部の概要 対話管理部は,ビデオ制御システムの全体の流れを. まで同じ発話をしますか.. 制御し,必要に応じてユーザとの対話を行う.主な機 能として,番組情報の検索,対話の履歴をとる,主導 権の切替え,ユーザの音声割込み,応答音声の生成, 認識辞書の更新がある.. (2) 対話中に沈黙が何秒くらい続いたらあなたから発 話しますか. (3) テレビ番組名の羅列を聞いたとき,何個くらいま で許容できますか. 上記の各アンケート結果の分布範囲は平均値と標準. 4.7.2 応答文生成. 偏差から,およそ 3.2∼7.0 回,20.5∼31.9 秒,4.7∼. 表 10 のようなユーザへの応答文生成を行う.音声. 7.9 個と推定できるので,筆者のこれまでの経験も加 味して,閾値を表 11 のような値に決定している. 4.8 ユーザの音声割込み. 合成を行うために「 Linux 版日本語音声合成ライブラ リー」 ( 4.4 節脚注参照)を使用している.ユーザごと に起動時に男声,女声,話速などを調整できる.. たとえば,ユーザの録画命令を受けて番組情報を検. 4.7.3 対話の主導権の切替え. 索し , 「 “NHK ニュース 7”,“クローズアップ 現代”,. このシステムでは,ユーザ主導型対話とシステム主. “コメディーお江戸でござる” 」のようにシステムが番 組名一覧をユーザに音声応答しているとき,ユーザは. 導型対話を切り替えられる.システム起動時の設定は.

(7) 2696. Nov. 2003. 情報処理学会論文誌. Table 12. 表 12 音声割込みが始まる時刻 Start time of interruption by user’s utterance.. 被験者 A B C D E F G 平均. 対象単語終了時からの時間 [秒] +0.65 +0.20 +0.14 -0.19 +0.21 +0.19 +0.21 +0.20. 図 11 キーワード の数と辞書中の単語の数との関係 Fig. 11 Relation between the number of key words and the number of words in the dictionary.. えば,ジャンルが「ドラマ」に決定したとき,番組名を 「ド ラマ」番組のみに絞りこみ認識辞書の更新を行う. たとえば,図 11 は,キーワードが「ドラマ」 「 ,フジ テレビ 」 , 「 午後 9 時」と決まると認識辞書中の単語数 が減少していく様子である.このように対話が進行す るにつれ,認識辞書中の単語数が減少していくので, 対話進行により音声認識率の向上が期待できる.. 5. システムの評価と考察 改良したシステムの有効性を示すために,成人 10 名にシステムを使用してもらい,使用状況などをまと. Fig. 10. 図 10 ユーザ発話による割込みの処理過程 The process of interruption by user’s utterance.. め,考察を行った.. 5.1 評価実験の方法 学生 10 名(男性:10 名,22∼25 歳)に実際にシス. 「それをとって」などの音声入力で,割込み時点の番 組を選択することができる.. テムを使用してもらった.使用方法のレクチャー後, 被験者にビデオの録画予約操作(番組表を見て,被験. 4.8.1 割込みの予備実験 システムが番組名をユーザに 1 秒間隔で音声で提示. 者の任意発話)を行ってもらった.実験中の被験者の. しているときに,成人男性 7 名( 22∼24 歳学生)に. 功率,発話回数,発話時間などを調べた.システム使. 音声による割込みを行ってもらった.. 用後に被験者の満足度をアンケート調査した.. 番組名の各単語の終端を基準の 0 [秒] とし,音声割 込みが始まる時間を表 12 に示す. この結果より,割込みが入るのは対象単語の発話終. 音声データ,および認識辞書はすべて保存し,対話成. 5.2 評価に用いる用語の定義 評価にあたって,以下のように用語の定義を行う. 対話: ユーザが意図どおりの結果を得るまで,もし. 了後,平均+ 0.20 [秒] であり,全被験者が対象単語の. くはあきらめて別の意図を持つまでの区切りを 1. 終端より 0.65 [秒] 以内に音声割込みを行っている.そ. つの対話とする.. こで, 「ユーザの音声割込みは単語の終端を基準に±. 対話成功率: ユーザが意図したビデオ録画予約操作. 0.75[秒] に行われる. 」としている. 4.8.2 音声割込みの方法. 対話時間: システムを使いはじめてから,意図した. 音声割込みの処理の流れを図 10 に示す.音声応答 中でもユーザの音声応答を受け付けられ,ユーザの音 声は,音声認識され,意味解析部に渡される.指示代 名詞があれば処理され,割込みなら,応答音声は停止 される.そのときの状況が対話履歴に記録される. ただし ,現在対応しているのは, 「 指示代名詞「そ れ」を使用した割込み」のみである.. 4.9 認識辞書中の単語数について 対話状況によって認識辞書の内容は変化する.たと. などを行える割合. ビデオの録画予約操作など を完了するまでの総 時間. 発話回数: ユーザが発話し,システムがそれに応答 する組合せを発話回数 1 回とする. 満足度:. 1:不満,2:やや不満,3:ど ちらともい. えない,4:ほぼ満足,5:満足の 5 段階評価をし ている.. 5.3 実験結果とその考察 「笑っていいとも!をとりたい」のように発話の始.

(8) Vol. 44. No. 11. Fig. 12. Fig. 13. ビデオ装置を例とした家電品の音声対話機能について. 図 12 対話成功率 Success rates of dialogue.. 2697. 図 15 対話時間に対する被験者ごとの満足度 Fig. 15 Satisfaction degree of dialogue time for individual subjects.. 図 13 1 対話に対する発話回数の平均 Average of utterance numbers for a dialogue.. Fig. 16. 図 16 システム全体に対する満足度の平均値 Averages of satisfaction degree for whole system.. 5.4 ユーザの満足度とその考察 被験者ごとの対話時間に関する満足度を図 15,全 被験者の発話の種類ごとのシステム全体に対する平均 満足度を図 16 に示す.. Fig. 14. 図 14 1 対話にかかる平均時間 Average processing time for a dialogue.. 図 15 から,番組名から発話した場合の対話時間に 対する満足度の平均は 3.5 で番組名以外から発話した 場合の 2.7 を上回り,どの被験者も番組名から発話し. めに番組名を発話したときは,1 回の発話で番組を特. た場合の方が満足度が高いか同値である.. 定できる場合が多い.それに対して, 「 NHK のド ラマ. 「 番組名から発話する場合の録画」に関 図 16 より,. をとりたい. 」のように,番組名以外から発話した場合. しては,満足度の平均は 4.0 で被験者はほぼ満足して. は番組名を特定するために数回の発話が必要となる.. いる. 「 番組名以外から発話する場合の録画」では平均. そこで,被験者の最初の発話で「番組名を発話した 場合」と「番組名以外を発話した場合」の 2 つに分け て対話成功率と対話回数を算出した.. 3.6 であった. 5.5 基本システムとの比較評価 本研究で導入した様々な改善策の有効性を確かめる. 5.3.1 対話成功率,発話回数,対話時間 評価実験によって得られたユーザごとの対話成功率. ために,前述と同様な方法で,成人 10 名のユーザに 改善する前の基本システムでビデオの録画予約操作を. を図 12,1 回の対話における発話回数の平均を図 13. 行ってもらい,満足度を測定した.本来は,個々の改. に示す.. 善策について調査するべきであるが,たとえば,音声. 対話成功率は, 「 番組名から発話した場合」が平均 94%で, 「 番組名以外から発話した場合」が平均 95%で あった.平均発話回数はそれぞれ 2.6 回,5.7 回である.. の割込み処理には指示代名詞が関連しているように各. 対話回数が多くなっても,主導権切替えによる認識. とは容易でないことなどから,ここでは改善策の総合. 辞書更新や番組名省略機能が有効に働き,対話成功率 は低くなっていない.. 1 対話にかかる時間は図 14 のように「番組名から 「 番組名以外から発話し 発話した場合」が平均 29 秒,. 改善策はそれぞれ完全に独立ではないこと,個々の改 善策の有効性を測定できる状況を意識的に作り出すこ 的な有効性の調査を行う. 調査の結果「番組名からの発話」に対する平均満足 度は 3.8 で「番組名以外からの発話」の平均満足度は. 2.6 であった.この結果を図 16 の結果と比較すると,. た場合」が平均 78 秒で,後者の方が対話時間が約 2.7. 「番組名以外からの発話」で満足度が( 2.6 → 3.6 )と. 倍長くなっている.これは,ジャンルとテレビ局名な. 大きく向上している.対話対象に曖昧性が含まれ,対. どだけでは,番組を 1 つに絞り込むことができないた. 話回数が多く,対話時間が長い場合に提案した改善策. め,検索に時間がかかることが原因である.. が有効になっていることが分かった..

(9) 2698. Nov. 2003. 情報処理学会論文誌. 6. お わ り に ビデオ制御装置を例として音声対話機能を備えた家 電品の開発を行った.比較的手軽に作成できる基本シ ステムをアンケート結果に基づいて改善し,ビデオ制 御用の言語モデルの作成や対話の主導権の切替え,指 示代名詞「それ」への対応,番組名の省略,音声割込. pp.651–660 (Aug. 1997). 5) 杉本基治,三角 淳,関口芳廣,鈴木良弥,重 永 実:音声対話システムにおける代名詞処理の 試み,音講論,1-P-2, pp.165–166 (Mar. 1996). 6) 鹿野清宏ほか:音声認識シ ステム,オーム社 (2001). 7) 松本裕治:形態素解析システム「茶筌」 ,情報処 理,Vol.41, No.11, pp.1208–1214 (2000). (平成 15 年 4 月 10 日受付) (平成 15 年 9 月 5 日採録). み機能などを実装した.評価実験では,対話成功率が 平均 95%,システム全体の満足度は 5 段階評価の平均. 3.8 であり,被験者がほぼ満足できるシステムになっ ている.. 渡辺 裕太. 今後,レクチャーなしで,幅広い年代の人に使用し. 平成 13 年山梨大学工学部電子情. てもらい,評価実験をすることや,音声合成システム. 報工学科卒業.平成 15 年同大学大. の検討,連想情報の活用や否定処理の工夫などをし ,. 学院工学研究科博士前期課程・電子. より自由度の高いユーザの発話を理解できるようにす. 情報工学専攻修了.現在,同大学院. ること,携帯電話への適応なども考える必要がある. また,高齢者向けなどには本研究で扱ったこととは別. 医学工学総合教育部博士課程在学中. 家電の情報化の研究に従事.. の問題も予想される. 最近の技術の進歩で,基本的なシステムの構築は容. 関口 芳廣( 正会員). 易であるが,実用システムとのギャップは大きい.その. 昭和 46 年山梨大学工学部電子工. ギャップを縮める試みのいくつかは成功しており,本. 学科卒業.昭和 48 年同大学大学院. 論文の手法がこの分野のシステム開発の参考になれば. 修了.同年同大学工学部計算機科学. 幸いである.. 科助手,現在同大学大学院医学工学. 謝辞 論文のとりまとめには山梨大学大学院医学工 学総合研究部の西崎博光博士にお世話になった.. 参 考 文 献 1) 速水 悟,菅村 昇:音声対話システムの研究と 実用化の動向,音響誌,Vol.50, No.7, pp.574–580 (1994). 2) 中川聖一:音声認識研究の動向,信学論( D-II ) , Vol.J83-D-II, No.2, pp.433–457 (2000). 3) 安田宜仁,堂坂浩二,相川清明:2 つの認識文 法を 用いた主導権混合型対話制御,信学技報, SLP97-22 (2002). 4) Nakagawa, S.: A Robust Spoken Dialogue System for Multi Modal Interface, Proc. ICSP97,. 総合研究部教授.音声情報処理等の 研究に従事.工学博士.信学会,音響学会,電気学会 等会員. 鈴木 良弥( 正会員) 昭和 62 年山梨大学大学院修了.同 年木更津工業高等専門学校助手.平 成 5 年東京工業大学大学院修了.工 学博士.同年山梨大学工学部電子情 報工学科助手.現在同大学大学院医 学工学総合研究部助教授.言語情報処理の研究に従事. 信学会,音響学会,ACL 各会員..

(10)

Fig. 1 Examples of dialogue between user and video control system.
Fig. 6 Examples of the dictionary for speech recognition.
Fig. 7 An example of the use of demonstrative pronoun
Table 12 Start time of interruption by user’s utterance.
+2

参照

関連したドキュメント

Two grid diagrams of the same link can be obtained from each other by a finite sequence of the following elementary moves.. • stabilization

Habiro con- siders an abelian group A k (H) dened by unitrivalent graphs with k trivalent vertices and with univalent vertices labelled by elements of H , subject to anti- symmetry,

Finally, we give an example to show how the generalized zeta function can be applied to graphs to distinguish non-isomorphic graphs with the same Ihara-Selberg zeta

An easy-to-use procedure is presented for improving the ε-constraint method for computing the efficient frontier of the portfolio selection problem endowed with additional cardinality

Making use, from the preceding paper, of the affirmative solution of the Spectral Conjecture, it is shown here that the general boundaries, of the minimal Gerschgorin sets for

We show that a discrete fixed point theorem of Eilenberg is equivalent to the restriction of the contraction principle to the class of non-Archimedean bounded metric spaces.. We

Applications of msets in Logic Programming languages is found to over- come “computational inefficiency” inherent in otherwise situation, especially in solving a sweep of

Shi, “The essential norm of a composition operator on the Bloch space in polydiscs,” Chinese Journal of Contemporary Mathematics, vol. Chen, “Weighted composition operators from Fp,