• 検索結果がありません。

ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

N/A
N/A
Protected

Academic year: 2021

シェア "ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術"

Copied!
34
0
0

読み込み中.... (全文を見る)

全文

(1)

ユーザ負担のない話者・環境適応性

を実現する自然な音声対話処理技術

H19 e-Society 最終報告会

ユーザ負担のない話者・環境適応性

ユーザ負担のない話者・環境適応性

を実現する自然な音声対話処理技術

を実現する自然な音声対話処理技術

H19

H19

e

e

-

-

Society

Society

最終報告会

最終報告会

鹿野清宏(

奈良先端科学技術大学院大学)

河原達也、猿渡洋、武田一哉、

河原英紀、徳田恵一、西浦敬信

H20.3.27

(2)

研究開発の目標

雑音がある中,マイク距離が1m離れた場所からでも,1文程度 の発声だけでコンピュータが人間の正確な言葉を認識 雑音がある中,マイク距離が1m離れた場所からでも,1文程度 の発声だけでコンピュータが人間の正確な言葉を認識 ●街中等,雑音がある現実的な状況で,人間の言葉だけをコン ピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ● ITの普及,ディジタルディバイド問題の軽減 ●街中等,雑音がある現実的な状況で,人間の言葉だけをコン ピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ● ITの普及,ディジタルディバイド問題の軽減 ○教師なし話者・環境適応技術 (高精度・頑健な認識) ○大語彙連続音声認識技術 (フリーソフトウェア) ○マイクロフォンアレーによるハンズフリー音声認識技術(マイク を意識しない使い易い音声インタフェース) ○多様な音声合成(声質の変換,感情表現が可能な合成) ○教師なし話者・環境適応技術 (高精度・頑健な認識) ○大語彙連続音声認識技術 (フリーソフトウェア) ○マイクロフォンアレーによるハンズフリー音声認識技術(マイク を意識しない使い易い音声インタフェース) ○多様な音声合成(声質の変換,感情表現が可能な合成)

(3)

社会基盤としての

音声認識・合成

プログラム

ハンズフリー

音声認識

マイクなしで、 DSPチップで廉価。

ユーザ負担のない

話者・環境適応

誰もが使える 子どもからお年寄りまで

多様な声質の

音声合成

多様な自然な 応答音声。 音声認識・合成により、誰もが気軽に情報機器の利用できる社会へ!

実環境の

音声対話システム

実証開発、

評価

ヒューマンインタフェース、 構築ガイドライン 奈良先端大、京都大学、和歌山大学、名古屋大学、名古屋工業大学、立命館大学 日立製作所、旭化成、松下電器、松下電工、オムロン、ASTEM

大語彙連続音声認識

フリーソフトウェア

どのような環境でも、 高精度に認識。 マイコン上でも。

(4)

開発成果(中間目標(H18.3)、最終目標(H20.3)) 実環境の 音声対話システム ユーザ負担のない 話者・環境適応 大語彙連続音声認識 フリーソフトウェア ハンズフリー 音声認識 多様な声質の 音声合成 中間目標 最終目標 丁寧な話し言葉認識、 マイコン上に実装 話し言葉認識ソフトの 完成と普及 雑音環境下での教師なし オンライン話者適応 ハンズフリー環境・話者 適応プログラムパッケージ ハンズフリー音声 収録プログラム ハンズフリー 音声収録DSP 各種実環境音声 対話システムの構築 実環境音声対話システム の運用と評価 多様な音声合成 プログラム 多様で高品質な音声合成 プログラムの完成と普及 マイコンで実時間動作 つぶやき認識(静かな音声メディア) ブラインド音源分離 無音声電話(つぶやき声で電話)

(5)

成果の概要

„

音声対話システム:

実環境で使われる音声対話システム „ Julius v4.0、マイコンへの実装 „ たけまるくん、キタちゃん、キタロボ、メイちゃんなど

„

非可聴つぶやき(NAM):

静かな音声メディアの発見 „ 無音声認識/電話 „ 発話障害者補助

„

ブラインド音源分離(BSS):

やかましい中でのハンズフリー „ 歪なし分離原理(SIMO-ICA) „ ハンズフリー音声対話システム(ロボット対話の実現)

„

音声規則合成:

世界をリードする音声合成技術 „ 高品質音声分析合成 STRAIGHT „ HMMベース音声規則合成 HTS

(6)

音声対話システム

„

奈良先端大

„ たけまるくん(5年以上運用) 生駒市北コミュニティセンター „ キタちゃん と キタロボ (2年間運用) 近鉄学研北生駒駅

„

京都大学

„ バス運行案内システム(5年以上運用) „ 京都観光案内システム 京都大学総合博物館

„

名古屋工業大学

„ 学内案内システム めいちゃん

„

名古屋大学

„ 楽曲検索システム Webベース

„

和歌山大学

„ Webベース対話システム構築ツール W3voice 大語彙連続音声認識ソフト Julius を利用 H18 情報処理学会 山下記念研究賞 H16 情報処理学会 山下記念研究賞 H19 情報処理学会 山下記念研究賞

(7)

たけまるくん

生駒市

北コミュニティセンター

(8)

0 5000 10000 15000 20000 25000 30000 35000 2002 年11月 2003 年2月 2003 年5月 2003 年8月 2003年11 月 2004年2月2004年5月2004年8月2004年11月2005 年2月 2005年5月2005 年8月 2005年 11月 2006年2月2006 年5月 2006年8月 音声 笑い声、咳払い 雑音 子供/大人の識別 雑音の識別 (2003.3) フィールドミュージ アム Julian(2005.08) 長期にわたる音声データ収集 高精度モデルの作成 構築コストの削減 構築のノウハウ たけまるくんの月別の入力数の推移 書き起こし 終了(2004.10) 月あた り の 入 力数

(9)

収集データによる音韻モデルの改善

88.5% 84.9% 単語認識率 14,800 14,809 音声データ量 たけまるくん (対話音声) JNAS(新聞記事 読み上げ音声) データ ベース 2年間の書き起こし収集データを利用

大人

子ども

60.8% 84.2% 41.3% 78.8% 幼児 子ども 幼児 子ども 単語 認識率 78,626 40,000 音声デ ータ量 たけまるくん (対話音声) CSRC (単語発声) データ ベース

(10)

「たけまるくん」の利用状況

大人

子ども

笑い声

雑音

2006.8.1 から 8.20 までの1日あたりの平均入力数 総入力数: 1166 605 56 451 54 子ども 笑い声 雑音 大人 雑音の 1/2 は,800msec以下の短い入力(short reject) たけまるパッケージ 10個所以上の機関に配布

(11)

近鉄「北生駒駅」の音声情報案内システム

「キタちゃん」(左)と「キタロボ」 (右)

○ 厳しい環境(60dBA)での実証実験とデータ収録 ○ システムのポータビリティ ○ ロボット型の人気 2006.3.27設置

(12)

設置風景

近鉄学研北生駒駅

(2006.3.27開業)

(13)

Julius v3.5 から v4.0

Julius #Downloads per month 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 2003 年04 月 2003 年06 月 200 3年 08月 200 3年 10月 2003 年12 月 2004 年02 月 2004 年04 月 200 4年 06月 200 4年 08月 2004 年10 月 2004 年12 月 2005 年02 月 2005 年04 月 200 5年 06月 2005 年08 月 2005 年10 月 2005 年12 月 2006 年02 月 200 6年 04月 2006 年06 月 2006 年08 月 2006 年10 月 2006 年12 月 200 7年 02月 200 7年 04月 2007 年06 月 2007 年08 月 2007 年10 月 200 7年 12月 4. 3.5 3.5 3.5 3.5 3.4 Julius ダウンロード数(月毎)

(14)

マイコンSH-4 マイコンSH-4A

SH-4Aマイコン上へのJuliusの高精度版の実装

大語彙連続音声認識ソフトJuliusのマイコンへの移植

„ 開発プラットフォーム 日立「T-engine」 SH−4、SH-4A „ TRONアーキテクチャに対応した共通開発ボード 日立との共同研究

アルゴリズムの高速化

Î実時間動作の達成

(15)

音環境 どのような環境でも 静かな場所でも通話 (会議、授業、電車内) 騒音下でも明瞭に通話 ハンズフリーでも 誰でもが 幼児 子ども 成人 高齢者 音声によるユニバーサル コミュニケーション ネットワークとも 音声対話システム ハンズフリー 音声認識 BSSA ネットワーク ロボット ロボット 幼児音声の認識

新しい音声メディアによる

ユニバーサルコミュニケーション

SIMO-ICA 音源分離 NAM 非可聴つぶやき NAM・音声モーフィング 発話障害者補助 BSS 補聴器 障害者

(16)

非可聴つぶやき(NAM)の

無音声認識と無音声電話の研究

(17)

無音声認識・無音声電話

Non-Audible Murmur (NAM)

つぶやき声 つぶやき声(NAM)(NAM)は、話し手の近くでも聞こえない声。は、話し手の近くでも聞こえない声。 この声を認識 この声を認識(無音声認識(無音声認識)したり、電話で送る(無音声電話))したり、電話で送る(無音声電話)ことができる。ことができる。 NAM マイクロフォン NAM NAM 無音声認識 私は名義を貸しただけで株購入をしていない。たとえ逮捕されても裁判で徹底的に闘う 無音声電話

(18)

変換音声 NAMマイクロフォン 音源ユニット 音源信号 増幅器 声質変換

発話障害者補助のための変換代用音声技術

(微弱な信号) (微弱な音声を集音) (ささやき声に変換) 声帯を手術で除去

(19)

固有声に基づく声質変換

male female deep thin dark cheerful

(20)

有線型/無線型NAM収録装置の開発

肉伝導センサ付き Bluetooth無線送信機 (増幅器内臓) Bluetooth無線受信機 従来の有線型収録装置 試作した無線型収録装置 増幅器 有線型NAMマイク (ネックバンド固定式) 裏側: 肉伝導センサ ウレタンシ ート 2 5cm

(21)

Earphone

Microphone

Single-Input Multiple-Outputモデルに基づく独立成分分析

を用いたバイノーラル混合信号のブラインド音源分離

信号処理 信号処理 両耳介入り口付近の音を収音

目的音のバイノーラル信号のみを再現

目的音 干渉音 日本音響学会、独創研究奨励賞板倉記念 SIMO−ICA

(22)

0 5 10 15 20 25 0 15 30 45 60 75 90 Direction of source 2 θ 2 [deg]

SI M O -M o d e l Ac c u ra c y [ d B] FDICA-PB MS-SIMO-ICA Proposed SG Proposed SIMO-ICA-SG

SIMO−ICAでの音源分離の結果

従来法 1 FDICA-PB 提案法 従来法 2 MS-SIMO-ICA Output 1 Output 2 Output 1 Output 2 Output 1 Output 2 Input 音源1の方位:-15度 音源2の方位: 45度 60°

(23)

ブラインド音源分離(BSS)の実時間処理

アルゴリズムのDSP実装

DSP実装と商用 (協力:神戸製鋼所) ロボット対話 SIMO-ICA 歪みなしでの音源分離の原理 IEEE/RSJ (IROS2005)

Best Application Paper Award

IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation

(24)

Reference Path Primary Path Phase Compensation U θ Mel-ScaleFilter Bank Spectral Subtract Log Transform and DCT + - FD-ICA Mel-Scale Filter Bank ( ,τ) DS f Y ( ),τ ICA f Z ( )lm ( )Lm ) , (n τ MFCC (f ,τ ) Ej (f ,τ ) EJ User’s Speech Noise XJ (f ,τ ) F F T (f ,τ) X j U θ PB Noise ∑ ∑ User 0

BSSA

(Blind Spectral Subtraction Array)

SSA(空間減算アレー)とBSSの融合

音声強調

雑音の減算

(25)

各種モジュールを統合した実環境動作可能な音声対話システム 8チャネル マイクアレー キタロボ ディスプレー リアルタイム リアルタイム ブラインド空間 ブラインド空間 サブトラクションアレー サブトラクションアレー BSSA BSSA 音声発話検出& 音声発話検出& 音声認識デコーダ 音声認識デコーダ 対話管理処理 対話管理処理 応答音声生成 応答音声生成 各種情報提示 各種情報提示 典型的な駅騒音の中で 典型的な駅騒音の中で 遠隔発話した場合でも 遠隔発話した場合でも

9

9

%

%

以上

以上

の単語認識率を達成! の単語認識率を達成! (今後) (今後) ロボット動作との連携 ロボット動作との連携

ハンズフリー

ハンズフリー

ロボット対話

ロボット対話

駅環境雑音 の再現 指向性マイク

(26)

ハンズフリー音声対話システムの要素技術

ハンズフリー音声収録技術 10数dB程度の効果 指向性マイクロフォン 4∼5 dBの効果 遅延和アレー(8チャンネル) 4 dB程度の効果 BSSAによる雑音減算 4∼5 dBの効果 音声認識技術 デコーダーVAD: 雑音環境下での音声切り出し 音韻モデル: 雑音重畳25dB + 残響マッチド モデル 言語モデル、質問応答データベース

(27)

音声合成: 目標感情間のモーフィング

怒り 喜び 平静 悲しみ 驚き 恐れ 平静と各感情 モーフィング率 -0.2 から 1.2 心理的距離の離れた感情間 心理的距離の近い感情間 音声:「こんにちは」

母音によるモーフィング

原音声:平静 怒り 朗らか 原音声:怒り

STRAIGHT

約350の機関で利用

(28)

音声規則合成:Blizzard Challenge 2005, 06, 07, 08

„ 合成音声の品質は音声デ ータベースに依存

„ 音声合成技術自体の比 較・評価は困難

Blizzard Challenge”

Blizzard Challenge

Evaluating corpus-based speech synthesis

on

common data sets

common data sets

組織委員長:

Alan Black(CMU)、徳田(名工大)

(29)

名工大 名工大 名工大 自然音声

自然音声 自然音声

The Blizzard Challenge - 2005

HTS (名工大)

STRAIGHT(和歌山大) Global Variance(奈良先端大)

Speech

(30)

Blizzard Challenge 2005用システムの評価結果

(31)

研究成果の普及

フリーソフトウェアサイト(H19) ダウンロード数 25,000 (4,000) HMM音声規則合成 V2.0 Google PageRank:☆☆☆☆☆☆ http://hts.ics.nitech.ac.jp HTS -世界標準音声合成フレームワーク HTS, 音声モーフィングが採用 Google PageRank:☆☆☆☆☆☆ http://www.cstr.ed.ac.uk/ projects/festival/ Festival 30,000 (14,000) 大語彙連続音声認識プログラムv4.0 Google PageRank:☆☆☆☆☆ http://julius.sourceforge.jp Julius マイコン/DSP実装によるコストダウン ハンズフリー音声収録(SSA)の実装(H19.3) DSP (旭化成) SSA Juliusのマイコンへの実装(H19.3) SH-4A (日立) Julius ()は、H17のダウンロード数

(32)

学術活動(研究論文、受賞)

43

620

352

108

合計 12 166 77 18 H19 12 125 82 19 H18 6 116 47 23 H17 7 118 65 18 H15 81 国際会議 6 95 30 H16 受賞 研究会など 学術論文

(33)

学術活動(おもな受賞リスト

音声合成(HTS) 日本音響学会 独創研究奨励賞板倉記念 08.3 対話(京都観光案内) 情報処理学会 山下記念研究賞 08.3 音声合成(HTS) 電気通信普及財団賞(テレコムシステム技術賞) 08.3 BSS

IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation 07.8 対話(たけまるくん) 情報処理学会 山下記念研究賞 07.3 NAM個人認証 暗号と情報セキュリティシンポジュームSCIS2006論文賞 07.1 全般(鹿野) IEEE Fellow 07.1 BSS IEEE/RSJ Best Application Paper Award

06.10 残響回復 電子情報通信学会論文賞 06.5 HMM音韻モデル 日本音響学会 粟屋潔学術奨励賞 06.3 BSS 日本音響学会 独創研究奨励賞板倉記念 06.3 NAM 電子情報通信学会論文賞、 猪瀬賞 05.5 全般(鹿野) 電子情報通信学会フェロー 04.9 対話(バス運行システム) 情報処理学会 山下記念研究賞 04.3 全般(鹿野) 情報処理学会フェロー 04.3 分野 受賞 日付

(34)

まとめ

(1) 当初計画以上の成果 音声認識 実環境音声対話システムを5年間運用。 Julius v4.0、たけまるパッケージ、高精度音韻/言語モデル。 マイコンSH-4AにJuliusの実時間認識を実装。 ハンズフリー音声対話システムを実現。 音声合成 高品質音声モーフィング(STRAIGHT)。 高品質音声規則合成(HTS)。 (2) 新しい手法の発見 非可聴つぶやき声による静かな音声メディア(NAM)。 ハンズフリーにおける歪なし音源分離原理(SIMO-ICA)。 (3)多くの論文、国際会議発表。表彰(論文賞、猪瀬賞など)。 世界でトップの音声合成技術を実証(STRAIGHT、HTS)。 EUのプロジェクトEMIMEに招聘参加。 (4)フリーソフトウェアサイトの運用 Julius, HTS 講習会、展示会などで普及活動。 共同研究などによる産業界への技術移転も活発化。 (1) 当初計画以上の成果 音声認識 実環境音声対話システムを5年間運用。 Julius v4.0、たけまるパッケージ、高精度音韻/言語モデル。 マイコンSH-4AにJuliusの実時間認識を実装。 ハンズフリー音声対話システムを実現。 音声合成 高品質音声モーフィング(STRAIGHT)。 高品質音声規則合成(HTS)。 (2) 新しい手法の発見 非可聴つぶやき声による静かな音声メディア(NAM)。 ハンズフリーにおける歪なし音源分離原理(SIMO-ICA)。 (3)多くの論文、国際会議発表。表彰(論文賞、猪瀬賞など)。 世界でトップの音声合成技術を実証(STRAIGHT、HTS)。 EUのプロジェクトEMIMEに招聘参加。 (4)フリーソフトウェアサイトの運用 Julius, HTS 講習会、展示会などで普及活動。 共同研究などによる産業界への技術移転も活発化。

参照

関連したドキュメント

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

音節の外側に解放されることがない】)。ところがこ

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

また適切な音量で音が聞 こえる音響設備を常設設 備として備えている なお、常設設備の効果が適 切に得られない場合、クラ

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

高出力、高トルク、クリーン排気を追求した排ガ ス対応エンジンは、オフロード法 2014 年基準に 適合する低エミッション性能を実現。また超低騒