• 検索結果がありません。

受付案内ロボットASKA

N/A
N/A
Protected

Academic year: 2021

シェア "受付案内ロボットASKA"

Copied!
39
0
0

読み込み中.... (全文を見る)

全文

(1)

人と機械の音声対話

受付案内ロボットASKAの構築

鹿野清宏

(奈良先端科学技術大学院大学)

(2)

音声認識システム

• タスク

– 文法

– 統計的言語モデル

– 対話戦略

• 発声

– 読み上げ

– 自由発話

• 人と人との対話 • 人と機械との対話

(3)

大語彙連続音声認識の実験結果

83.5

86.3

1.1

10.1

丁寧な自 由発話 話し言葉

ASKA

42.3

52.8

1.6

51.2

自由発 話 話し言葉

カーディ

ラー

88.0

89.9

0.3

26.5

読み上 げ 話し言葉

健康相

93.7

94.7

4.0

50.5

読み上 げ 書き言葉

新聞読

み上げ

単語認識 精度 % 単語正 解率 % 未知語 率 % 単語パー プレキシ ティ 発声の 型 文の型

タスク

(4)

音声データの例

予備収録データ 人とロボットの対話 単語認識率  85%? f−03 m−05 m−14 自由対話の例(RWCP) (カーディラーとお客の自由対話) 対話文読み上げ  (NEDOシニア支援) 単語認識率  40%∼60% 単語認識率  90%

(5)

人と機械の自由な対話

• 自由発話の音声認識

  音韻、言語とも現在の技術では困難

   (単語認識率 40%∼70%)

• 人と機械の自由な対話の音声認識

機械に対しては、比較的やさしいわかり易い

言葉で話しかける!

(丁寧な話し言葉の認識、単語認識率90%)

(6)

システムの構築

• 自由な対話システムの構築とデータ収集

 単語パープレキシティ 30程度

 語彙数 2万語程度、実環境

• 人とロボットの対話

大学の受付案内ロボット

• 人とエージェントの対話

生駒市コミュニティセンター案内

(実データの収集)

• インターネット検索

マルチエージェントシステム

(グルメ・レシピ、健康相談)

(7)

受付ロボット

ASKA

の外観

開発の目的 (1) 人と機械の対話    (丁寧な話言葉?) (2) 技術の融合 (3) 音声認識技術の評価   ○ 丁寧な自由発話   ○ 音声データの収集   ○ 雑音環境下での認識   ○ 広いタスク(大語彙) (4) ヒューマンファクター    の把握  テムザック4 名前:ASKA、女の子、3歳

(8)

システム構成

受付案内ロボット

音声認識 音声合成 意味理解処理 対話制御 人の認識 顔の認識 ジェスチャー生成 自立移動 知識データの収集 データベース検索 ロボティクス講座、音情報処理学講座、自然言語処理講座、データベース講座?

(9)

現在の機能

• 受付の前に立っている人を見つけると

そちらを向く。

• 近づくと音声入力がオンになる。

• 音声による質問を認識する。

• 質問の答えを、ジェスチャーを交えて

発話する。

(10)

現在の

ASKA

にできること

• 先生の名前を聞くと、場所や内線番号を教

えてくれます。

• 施設の名前を聞くと、場所を教えてくれます。

発声例

こんにちは、さようなら あなたの名前はなんですか? 何歳ですか? あなたはなにができますか? ○○講座はどこですか? ○○先生の内線番号(部屋)を教えてください。 公衆電話(内線電話)はどこですか? 事務室(トイレ、食堂、テニスコート)はどこにありますか? 近くにバス停はありますか?

(11)

ロボフェスタ生駒より(1)

 2001.7

(12)
(13)

ロボフェスタ生駒より(3)

(14)

ロボフェスタ生駒より(4)

(15)

ロボフェスタ生駒より(4)

ビデオ

(16)

大学10周年記念デモ

(17)
(18)

音声認識の構成

JNAS(306人) Web+例文 音韻モデル 言語モデル 40k words 不特定PTM 認識結果 (N-ベスト)        JULIUS 音声入力 距離センサーに よる音声スイッチ キーワード/ フレーズ抽出 応答文作成 ジェスチャー指定 音声応答 ジェスチャー

(19)

音声認識の例

発声: あのー、松本先生の部屋はどこでしょうか? JULIUS 4万語 N-Best 認識結果: この松本先生の部屋はどうですか キーワード/ フレーズリスト キーワード/フレーズ抽出 松本先生、部屋 約250 応答文: 松本先生の部屋は、A棟7階のA701です。 応答文の型 約60

(20)

現在の状況

• 雑音の収録

 実環境音韻モデルの作成

• 模擬対話の収録

 JULIUS vs JULIAN

• データ収集の予定

タスクの範囲の設定

コーパスの収集

(2001.11、2002.5)

音声データの収集

(2001.12、2002.12)

(21)

タスクの決定方法

„

タスク → アンケートにより決定

„受付案内ロボットにどのような内容を答えて欲しいか „こんなことを答えてくれるロボットがあれば便利 „ 

決定までの手順

„まず鹿野研の学生(計19人)で集計 „検討後、項目を追加 „小笠原研、松本研の学生に協力してもらい、  再度鹿野研の学生も含め計40人で集計 „内容を吟味の上、上位8項目を採用。

(22)

アンケート結果

得票数(40人中) 37 バスの時刻 25 近くの駅の電車の発車時刻 24 研究内容での質問に対する講座の案内 23 教授・助教授・助手の居室と内線番号 23 情報棟内の施設・設備の場所 23 学内および周辺の施設の場所 20 最新ニュース、今日の出来事 20 天気予報 20 その日の講義、休講情報 17 今月の学内イベント情報 17 近くのタクシー会社の電話番号 17 NAISTの近辺の店の情報 17 情報科学研究科の学生の所属研究室名 12 テニスコート、グランド、講義室の使用予約状況

(23)

コーパス収集

• 学生に、メールによる呼びかけ

– 鹿野研、小笠原研、松本研の学生

• 内容

– ロボットに対する質問文を一人10  文章返信してもらう – 5文は、タスク内の5項目それぞれ  に関する質問  「学内および周辺の施設の場所」  「情報棟内の設備の場所」  「教授・助教授・助手の居室と内線番号」  「電車やバス等の交通機関の発車時刻」  「天気予報」 – 5項目は、来訪者の立場で選択 – もう5文は、本人の自由な発想による質問 • 現時点での収集成果 – 約330文章 • メールの返信3 4人 • 数人が7、8文 章で返信

(24)

データ収録

• 評価用データ収録

– 一人10発話 – 環境:クリーン(無音室)(多少ノートPCの雑音あり) – DAT – ヘッドセット&デモ用指向性マイク – 収録時の説明 • 次のページのポスターを使用

• 現時点(2002.2)での成果

– 21人×10文章

(25)

受付案内ロボット

ASKA

• 学内および周辺の施設 (図書館など) • 情報棟内の設備 (自販機など) • 先生方の居室と内線番号 • 研究内容に関わる講座名 (音声関係の研究はどこで?) • 今日の講義、休講情報 • 電車やバスの発車時刻 • 天気予報 • 今日のニュース

こんな事が案内できます。↓

(26)

コーパスと言語モデル

• 擬似コーパス(e-mailで収集) 

Q-A

   70人 × 10文   (1.1k、 9.8k)

• 学生連絡用メール  

Mail

       (9.5k、 0.25M)

• 奈良先端大関連WEB  

Web

       (26.8k、 0.59M)

異なり語彙数 総語彙数

(27)

言語モデルと認識実験

98.93

97.91

95.19

単語カバ

レッジ%

83.06

(85.72)

10.07

20,143

Q-A, Mail、 Web

68.67

49.82

20,000

Mail +

Web

79.23

6.91

1,107

Q-A

単語正解

精度%

単語パープ レキシティ

異なり

語彙数

言語

モデル

(単語正解率)

(28)

タスク内発声とタスク外発声の認識実験

78.6

69.0

74.7

タスク外発声

(219文)

Corr(%) Acc(%)

74.7

88.6

90.9

Q-A, Mail、 Web

64.3

71.1

75.1

Mail +

Web

68.7

86.1

89.8

Q-A

タスク内発声

(361文)

Corr(%) Acc(%)

言語

モデル

Corr: 単語正解率 (%) , Acc: 単語正解精度(%)

(29)

話速と単語正解精度

50

60

70

80

90

100

6

7

8

9

10

11

Acc(QA+Mail+Web) Word accuracy (%) ゆっくり  Mora/second(発声速度)  速い

(30)

単語パープレキシティと単語正解精度

(QA+Mail+Web)

20

40

60

80

100

0

30

60

90

120

150

Word accuracy (%) Word Perplexity

(31)

単語パープレキシティと

単語正解精度(QA+Mail+Web)

0

20

40

60

80

100

1

20

40

60

80

100 120 140

0

20

40

60

80

100

120

140

160

180

200

平均単語正解精度 文数 Word accuracy (%) Word Perplexity

(32)

未知語率と単語正解精度(QA+Mail+Web)

20

40

60

80

100

0

5

10

15

20

Acc (QA+Mail+Web) Word accuracy (%) Out-Of-Vocabulary(%)

(33)

未知語率 0%の文のヒストグラム

0 50 100 150 200 250 0 10 20 30 40 50 60 70 80 90 単語正解精度 % 文数 Q-A Mail+Web QA+Mail+Web

(34)

タスク内発声とタスク外発声

のヒストグラム (QA+Mail+Web)

0 50 100 150 200 0 10 20 30 40 50 60 70 80 90 100 単語正解精度(%) 文数 in task (361) out of task (219)

(35)

応答結果の評価(N-best=10)

11 (4)

0 (0)

0 (0)

29 (36)

g)

今日のニュース

11 (6)

0 (0)

0 (0)

29 (34)

f)

天気予報

2 (0)

47 (49)

0 (0)

12 (12)

e)

電車バスの時刻

1 (0)

1 (1)

3 (4)

14 (14)

d)

研究分野と講座

1 (0)

11 (7)

40 (45)

2 (2)

c)

教官の居室電話

8 (3)

4 (2)

52 (59)

12 (12)

b)情報の設備

3 (0)

7 (7)

32 (33)

29 (31)

a)学内周辺施設

誤り

不十分

正解

受理

不受理

サブタスク

43 (26)

19 (20)

11 (14)

146 (159)

z)

タスク外 ( )内は書き起こし文入力

(36)

最近の研究など

• 文法とN-gramモデルの融合

• 話者・環境適応

• ハンズフリー音声認識

(37)

JULIUS + JULIAN

(統計的言語モデルと文法の融合)

Grammar Assisted: 単語対の接続が文法で可能ならば、単語バイグラム、     単語トライグラムの確率を大きくする(例えば、対数尤度に0.5をかける)。

89.7 /87.9

81.6 / 78.2

93.7 / 92.6

GA方式

85.9 / 84.0

78.5 / 75.0

89.5 / 88.3

N-Best

83.3 / 81.8

56.5 / 52.5

96.3 / 96.0

文法のみ

84.5 / 82.3

78.0 / 74.5

87.6 /86.1

N-gram

平均

(384文)

受理不可能

(103文)

受理可能

(281文)

(38)

環境・話者同時適応

話者適応技術評価 (単語正解率、2万語ディクテーション) 教師あ り話者 適応 環境雑音 適応 教師なし話者・ 環境雑音適応 少なくとも50 文程度の正 しい発声が 必要 (話者登録発 声が必要) 任意の1文発声 10秒程度の環境雑音 (話者事前登録発声不要) 認識性能の向上 適応時間の高速化 90.7% 90.1% 82.1% 高齢者 93.7% 93.2% 91.1% 成人 教師なし適 応(1文) 教師あり 適応(50文) 不特定 話者モ デル 環境雑音適応評価 単語正解率、2万語ディクテーション) 90% 69% 車 (15dB) 92% 80% オフィス (25dB) 教師なし 話者・雑音 適応 不特定 話者モ デル

(39)

80 82 84 86 88 90 92 94 96 98 0.1 0.3 1 2 3 ハンズフリー音声認識 発声者からの距離(m) マイク(1ch) マイクアレー(14ch) 単 語 認 識 率  % マイクを意識させない 自然なインターフェース 216単語認識実験 ハンズフリー ハンズフリー 音声対話システム 音声対話システム マイクアレー ビームフォーム 90% 93% 95% 連続発声 95% 97% 98% 500単語認識 8ch 4ch 2ch マイク数 家電制御 カーナビ、 PC PDA 携帯 応用 1 m 60 cm 30 cm 発声距離 認識性能目標値

ハンズフリー音声認識

マイクアレー技術  遅延和、適応制御  ブラインド音源分離 マイクアレーチップ ユーザ ユーザ

参照

関連したドキュメント

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

本稿 は昭和56年度文部省科学研究費 ・奨励

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

音節の外側に解放されることがない】)。ところがこ

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

5 On-axis sound pressure distribution compared by two different element diameters where the number of elements is fixed at 19... 4・2 素子間隔に関する検討 径の異なる

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと