受付案内ロボットASKA

(1)

人と機械の音声対話

受付案内ロボットASKAの構築

鹿野清宏

（奈良先端科学技術大学院大学）

(2)

音声認識システム

• タスク

– 文法

– 統計的言語モデル

– 対話戦略

• 発声

– 読み上げ

– 自由発話

• 人と人との対話 • 人と機械との対話

(3)

大語彙連続音声認識の実験結果

83.5

86.3

1.1

10.1

丁寧な自由発話話し言葉

ASKA

42.3

52.8

1.6

51.2

自由発話話し言葉

カーディ

ラー

88.0

89.9

0.3

26.5

読み上げ話し言葉

健康相

談

93.7

94.7

4.0

50.5

読み上げ書き言葉

新聞読

み上げ

単語認識 精度 % 単語正 解率 % 未知語 率 % 単語パープレキシティ発声の型文の型

タスク

(4)

音声データの例

予備収録データ人とロボットの対話 _{単語認識率} ８５％？ｆ−０３ｍ−０５ _ｍ−１４ 自由対話の例（RWCP) （カーディラーとお客の自由対話）対話文読み上げ （NEDOシニア支援） 単語認識率４０％∼６０％単語認識率９０％

(5)

人と機械の自由な対話

• 自由発話の音声認識

音韻、言語とも現在の技術では困難

（単語認識率４０％∼７０％）

• 人と機械の自由な対話の音声認識

機械に対しては、比較的やさしいわかり易い

言葉で話しかける！

（丁寧な話し言葉の認識、単語認識率９０％）

(6)

システムの構築

• 自由な対話システムの構築とデータ収集

単語パープレキシティ 30程度

語彙数２万語程度、実環境

• 人とロボットの対話

大学の受付案内ロボット

• 人とエージェントの対話

生駒市コミュニティセンター案内

（実データの収集）

• インターネット検索

マルチエージェントシステム

（グルメ・レシピ、健康相談）

(7)

受付ロボット

_ASKA

の外観

開発の目的（１）人と機械の対話（丁寧な話言葉？）（２）技術の融合（３）音声認識技術の評価 ○ 丁寧な自由発話 ○ 音声データの収集 ○ 雑音環境下での認識 ○ 広いタスク（大語彙）（４）ヒューマンファクターの把握テムザック４ 名前：ASKA、女の子、３歳

(8)

システム構成

受付案内ロボット

音声認識音声合成意味理解処理対話制御人の認識顔の認識ジェスチャー生成自立移動知識データの収集データベース検索ロボティクス講座、音情報処理学講座、自然言語処理講座、データベース講座？

(9)

現在の機能

• 受付の前に立っている人を見つけると

そちらを向く。

• 近づくと音声入力がオンになる。

• 音声による質問を認識する。

• 質問の答えを、ジェスチャーを交えて

発話する。

(10)

現在の

_ASKA

にできること

• 先生の名前を聞くと、場所や内線番号を教

えてくれます。

• 施設の名前を聞くと、場所を教えてくれます。

発声例

こんにちは、さようならあなたの名前はなんですか？何歳ですか？あなたはなにができますか？ ○○講座はどこですか？ ○○先生の内線番号（部屋）を教えてください。公衆電話（内線電話）はどこですか？事務室（トイレ、食堂、テニスコート）はどこにありますか？近くにバス停はありますか？

(11)

ロボフェスタ生駒より（１）

2001.7

(12)

(13)

ロボフェスタ生駒より（３）

(14)

ロボフェスタ生駒より（４）

(15)

ロボフェスタ生駒より（４）

ビデオ

(16)

大学１０周年記念デモ

(17)

(18)

音声認識の構成

JNAS(306人) Web＋例文 音韻モデル言語モデル 40k words _不特定PTM 認識結果 （N-ベスト） JULIUS 音声入力距離センサーによる音声スイッチ キーワード/ フレーズ抽出応答文作成ジェスチャー指定音声応答ジェスチャー

(19)

音声認識の例

発声：あのー、松本先生の部屋はどこでしょうか？ JULIUS ４万語 N-Best 認識結果：この松本先生の部屋はどうですか キーワード/ フレーズリスト キーワード/フレーズ抽出 松本先生、部屋約２５０ 応答文：松本先生の部屋は、A棟７階のA７０１です。 応答文の型約６０

(20)

現在の状況

• 雑音の収録

実環境音韻モデルの作成

• 模擬対話の収録

JULIUS ｖｓ JULIAN

• データ収集の予定

タスクの範囲の設定

コーパスの収集

（2001.１１、2002.５）

音声データの収集

（2001.１２、2002.１２）

(21)

タスクの決定方法

タスク → アンケートにより決定

受付案内ロボットにどのような内容を答えて欲しいかこんなことを答えてくれるロボットがあれば便利

決定までの手順

まず鹿野研の学生（計１９人）で集計検討後、項目を追加小笠原研、松本研の学生に協力してもらい、再度鹿野研の学生も含め計４０人で集計内容を吟味の上、上位８項目を採用。

(22)

アンケート結果

得票数（４０人中） 37 バスの時刻 25 近くの駅の電車の発車時刻 24 研究内容での質問に対する講座の案内 23 教授・助教授・助手の居室と内線番号 23 情報棟内の施設・設備の場所 23 学内および周辺の施設の場所 20 最新ニュース、今日の出来事 20 天気予報 20 その日の講義、休講情報 17 今月の学内イベント情報 17 近くのタクシー会社の電話番号 17 NAISTの近辺の店の情報 17 情報科学研究科の学生の所属研究室名 12 テニスコート、グランド、講義室の使用予約状況

(23)

コーパス収集

• 学生に、メールによる呼びかけ

– 鹿野研、小笠原研、松本研の学生

• 内容

– ロボットに対する質問文を一人１０文章返信してもらう – ５文は、タスク内の５項目それぞれに関する質問「学内および周辺の施設の場所」「情報棟内の設備の場所」「教授・助教授・助手の居室と内線番号」「電車やバス等の交通機関の発車時刻」「天気予報」 – ５項目は、来訪者の立場で選択 – もう５文は、本人の自由な発想による質問 • 現時点での収集成果 – 約３３０文章 • メールの返信３４人 • 数人が７、８文章で返信

(24)

データ収録

• 評価用データ収録

– 一人１０発話 – 環境：クリーン（無音室）（多少ノートPCの雑音あり） – DAT – ヘッドセット＆デモ用指向性マイク – 収録時の説明 • 次のページのポスターを使用

• 現時点(2002.2)での成果

– ２１人×１０文章

(25)

受付案内ロボット

ASKA

• 学内および周辺の施設（図書館など） • 情報棟内の設備（自販機など） • 先生方の居室と内線番号 • 研究内容に関わる講座名（音声関係の研究はどこで？） • 今日の講義、休講情報 • 電車やバスの発車時刻 • 天気予報 • 今日のニュース

こんな事が案内できます。↓

(26)

コーパスと言語モデル

• 擬似コーパス（e-mailで収集）

Q-A

７０人 × １０文（1.1ｋ、 9.8ｋ）

• 学生連絡用メール

Mail

（9.5ｋ、 0.25M)

• 奈良先端大関連WEB

Web

（26.8ｋ、 0.59M)

異なり語彙数総語彙数

(27)

言語モデルと認識実験

98.93

97.91

95.19 単語カバ

レッジ%

83.06 (85.72)

10.07 20,143

Q-A, Mail、 Web

68.67

49.82 20,000

Mail ＋

Web

79.23

6.91 1,107

Q-A

単語正解

精度%

単語パープレキシティ

異なり

語彙数

言語

モデル

（単語正解率）

(28)

タスク内発声とタスク外発声の認識実験

78.6

69.0

74.7 タスク外発声

_(219文)

Corr(%) Acc(%)

74.7

88.6

90.9

Q-A, Mail、 Web

64.3

71.1

75.1 Mail ＋

Web

68.7

86.1

89.8 Q-A

タスク内発声

_(361文)

Corr(%) Acc(%)

言語

モデル

Corr: 単語正解率（％） , Acc: 単語正解精度（％）

(29)

話速と単語正解精度

50

60

70

80

90

100

6

7

8

9

10

11

Acc(QA+Mail+Web) Word accuracy (%) ゆっくり Mora/second（発声速度）速い

(30)

単語パープレキシティと単語正解精度

（ＱＡ+Mail+Web）

20

40

60

80

100

0

30

60

90

120

150

Word accuracy (%) Word Perplexity

(31)

単語パープレキシティと

単語正解精度（ＱＡ+Mail+Web）

0

20

40

60

80

100

1

20

40

60

80 100 120 140

0

20

40

60

80

100

120

140

160

180

200

平均単語正解精度文数 Word accuracy (%) Word Perplexity

(32)

未知語率と単語正解精度（ＱＡ+Mail+Web）

20

40

60

80

100

0

5

10

15

20

Acc (QA+Mail+Web) Word accuracy (%) Out-Of-Vocabulary(%)

(33)

未知語率 0%の文のヒストグラム

0 50 100 150 200 250 0 10 20 30 40 50 60 70 80 90 単語正解精度％文数 Q-A Mail+Web QA+Mail+Web

(34)

タスク内発声とタスク外発声

のヒストグラム（ＱＡ+Mail+Web）

0 50 100 150 200 0 10 20 30 40 50 60 70 80 90 100 単語正解精度(%) 文数 in task (361) out of task (219)

(35)

応答結果の評価（N-best=10)

11 (4)

0 (0)

29 (36)

g)

今日のニュース

11 (6)

0 (0)

29 (34)

f)

天気予報

2 (0)

47 (49)

0 (0)

12 (12)

e)

電車バスの時刻

1 (0)

1 (1)

3 (4)

14 (14)

d)

研究分野と講座

1 (0)

11 (7)

40 (45)

2 (2)

c)

教官の居室電話

8 (3)

4 (2)

52 (59)

12 (12)

b)情報の設備

3 (0)

7 (7)

32 (33)

29 (31)

a)学内周辺施設

誤り

不十分

正解

受理

不受理

サブタスク

43 (26)

19 (20)

11 (14)

146 (159)

z)

タスク外 ( )内は書き起こし文入力

(36)

• 文法とN-gramモデルの融合

• 話者・環境適応

• ハンズフリー音声認識

(37)

JULIUS + JULIAN

(統計的言語モデルと文法の融合）

Grammar Assisted：単語対の接続が文法で可能ならば、単語バイグラム、 単語トライグラムの確率を大きくする（例えば、対数尤度に０．５をかける）。

89.7 /87.9

81.6 / 78.2

93.7 / 92.6

GA方式

85.9 / 84.0

78.5 / 75.0

89.5 / 88.3

N-Best

83.3 / 81.8

56.5 / 52.5

96.3 / 96.0

文法のみ

84.5 / 82.3

78.0 / 74.5

87.6 /86.1

N-ｇram

平均

（384文）

受理不可能

（103文）

受理可能

（281文）

(38)

環境・話者同時適応

話者適応技術評価（単語正解率、２万語ディクテーション）教師あり話者適応環境雑音適応教師なし話者・環境雑音適応少なくとも５０文程度の正しい発声が必要（話者登録発声が必要）任意の１文発声１０秒程度の環境雑音 (話者事前登録発声不要) 認識性能の向上適応時間の高速化９０．７％９０．１％８２．１％高齢者９３．７％９３．２％９１．１％成人教師なし適応（１文）教師あり適応（50文）不特定話者モデル環境雑音適応評価単語正解率、２万語ディクテーション）９０％６９％車 (15dB) ９２％８０％オフィス (25dB) 教師なし話者・雑音適応不特定話者モデル

(39)

80 82 84 86 88 90 92 94 96 98 0.1 0.3 1 2 3 ハンズフリー音声認識発声者からの距離（ｍ）マイク（１ｃｈ）マイクアレー（１４ｃｈ）単語認識率％マイクを意識させない自然なインターフェース２１６単語認識実験ハンズフリーハンズフリー音声対話システム音声対話システムマイクアレービームフォーム９０％９３％９５％連続発声９５％９７％９８％ 500単語認識 ８ｃｈ４ｃｈ２ｃｈマイク数家電制御カーナビ、 PC PDA 携帯応用 1 m 60 cm 30 cm 発声距離認識性能目標値

ハンズフリー音声認識

マイクアレー技術遅延和、適応制御ブラインド音源分離マイクアレーチップユーザユーザ

受付案内ロボットASKA

人と機械の音声対話

受付案内ロボットASKAの構築

鹿野清宏

（奈良先端科学技術大学院大学）

音声認識システム

• タスク

– 文法

– 統計的言語モデル

– 対話戦略

• 発声

– 読み上げ

– 自由発話

大語彙連続音声認識の実験結果

83.5

86.3

1.1

10.1

ASKA

42.3

52.8

1.6

51.2

カーディ

ラー

88.0

89.9

0.3

26.5

健康相

談

93.7

94.7

4.0

50.5

新聞読

み上げ

タスク

音声データの例

人と機械の自由な対話

• 自由発話の音声認識

音韻、言語とも現在の技術では困難

（単語認識率 ４０％∼７０％）

• 人と機械の自由な対話の音声認識

機械に対しては、比較的やさしいわかり易い

言葉で話しかける！

（丁寧な話し言葉の認識、単語認識率９０％）

システムの構築

• 自由な対話システムの構築とデータ収集

単語パープレキシティ 30程度

語彙数 ２万語程度、実環境

• 人とロボットの対話

大学の受付案内ロボット

• 人とエージェントの対話

生駒市コミュニティセンター案内

• インターネット検索

マルチエージェントシステム

受付ロボット

ASKA

の外観

システム構成

受付案内ロボット

現在の機能

• 受付の前に立っている人を見つけると

そちらを向く。

• 近づくと音声入力がオンになる。

• 音声による質問を認識する。

• 質問の答えを、ジェスチャーを交えて

発話する。

現在の

ASKA

にできること

• 先生の名前を聞くと、場所や内線番号を教

えてくれます。

• 施設の名前を聞くと、場所を教えてくれます。

発声例

ロボフェスタ生駒より（１）

2001.7

ロボフェスタ生駒より（３）

ロボフェスタ生駒より（４）

（単語認識率４０％∼７０％）

語彙数２万語程度、実環境

_ASKA

_ASKA

７０人 × １０文（1.1ｋ、 9.8ｋ）