ユーザ負担のない話者・環境適応性
を実現する自然な音声対話処理技術
H19 e-Society 最終報告会
ユーザ負担のない話者・環境適応性
ユーザ負担のない話者・環境適応性
を実現する自然な音声対話処理技術
を実現する自然な音声対話処理技術
H19
H19
e
e
-
-
Society
Society
最終報告会
最終報告会
鹿野清宏(
奈良先端科学技術大学院大学)河原達也、猿渡洋、武田一哉、
河原英紀、徳田恵一、西浦敬信
H20.3.27研究開発の目標
雑音がある中,マイク距離が1m離れた場所からでも,1文程度 の発声だけでコンピュータが人間の正確な言葉を認識 雑音がある中,マイク距離が1m離れた場所からでも,1文程度 の発声だけでコンピュータが人間の正確な言葉を認識 ●街中等,雑音がある現実的な状況で,人間の言葉だけをコン ピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ● ITの普及,ディジタルディバイド問題の軽減 ●街中等,雑音がある現実的な状況で,人間の言葉だけをコン ピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ● ITの普及,ディジタルディバイド問題の軽減 ○教師なし話者・環境適応技術 (高精度・頑健な認識) ○大語彙連続音声認識技術 (フリーソフトウェア) ○マイクロフォンアレーによるハンズフリー音声認識技術(マイク を意識しない使い易い音声インタフェース) ○多様な音声合成(声質の変換,感情表現が可能な合成) ○教師なし話者・環境適応技術 (高精度・頑健な認識) ○大語彙連続音声認識技術 (フリーソフトウェア) ○マイクロフォンアレーによるハンズフリー音声認識技術(マイク を意識しない使い易い音声インタフェース) ○多様な音声合成(声質の変換,感情表現が可能な合成)社会基盤としての
音声認識・合成
プログラムハンズフリー
音声認識
マイクなしで、 DSPチップで廉価。ユーザ負担のない
話者・環境適応
誰もが使える 子どもからお年寄りまで多様な声質の
音声合成
多様な自然な 応答音声。 音声認識・合成により、誰もが気軽に情報機器の利用できる社会へ!実環境の
音声対話システム
実証開発、
評価
ヒューマンインタフェース、 構築ガイドライン 奈良先端大、京都大学、和歌山大学、名古屋大学、名古屋工業大学、立命館大学 日立製作所、旭化成、松下電器、松下電工、オムロン、ASTEM大語彙連続音声認識
フリーソフトウェア
どのような環境でも、 高精度に認識。 マイコン上でも。開発成果(中間目標(H18.3)、最終目標(H20.3)) 実環境の 音声対話システム ユーザ負担のない 話者・環境適応 大語彙連続音声認識 フリーソフトウェア ハンズフリー 音声認識 多様な声質の 音声合成 中間目標 最終目標 丁寧な話し言葉認識、 マイコン上に実装 話し言葉認識ソフトの 完成と普及 雑音環境下での教師なし オンライン話者適応 ハンズフリー環境・話者 適応プログラムパッケージ ハンズフリー音声 収録プログラム ハンズフリー 音声収録DSP 各種実環境音声 対話システムの構築 実環境音声対話システム の運用と評価 多様な音声合成 プログラム 多様で高品質な音声合成 プログラムの完成と普及 マイコンで実時間動作 つぶやき認識(静かな音声メディア) ブラインド音源分離 無音声電話(つぶやき声で電話)
成果の概要
音声対話システム:
実環境で使われる音声対話システム Julius v4.0、マイコンへの実装 たけまるくん、キタちゃん、キタロボ、メイちゃんなど
非可聴つぶやき(NAM):
静かな音声メディアの発見 無音声認識/電話 発話障害者補助
ブラインド音源分離(BSS):
やかましい中でのハンズフリー 歪なし分離原理(SIMO-ICA) ハンズフリー音声対話システム(ロボット対話の実現)
音声規則合成:
世界をリードする音声合成技術 高品質音声分析合成 STRAIGHT HMMベース音声規則合成 HTS音声対話システム
奈良先端大
たけまるくん(5年以上運用) 生駒市北コミュニティセンター キタちゃん と キタロボ (2年間運用) 近鉄学研北生駒駅
京都大学
バス運行案内システム(5年以上運用) 京都観光案内システム 京都大学総合博物館
名古屋工業大学
学内案内システム めいちゃん
名古屋大学
楽曲検索システム Webベース
和歌山大学
Webベース対話システム構築ツール W3voice 大語彙連続音声認識ソフト Julius を利用 H18 情報処理学会 山下記念研究賞 H16 情報処理学会 山下記念研究賞 H19 情報処理学会 山下記念研究賞たけまるくん
生駒市
北コミュニティセンター
0 5000 10000 15000 20000 25000 30000 35000 2002 年11月 2003 年2月 2003 年5月 2003 年8月 2003年11 月 2004年2月2004年5月2004年8月2004年11月2005 年2月 2005年5月2005 年8月 2005年 11月 2006年2月2006 年5月 2006年8月 音声 笑い声、咳払い 雑音 子供/大人の識別 雑音の識別 (2003.3) フィールドミュージ アム Julian(2005.08) 長期にわたる音声データ収集 高精度モデルの作成 構築コストの削減 構築のノウハウ たけまるくんの月別の入力数の推移 書き起こし 終了(2004.10) 月あた り の 入 力数
収集データによる音韻モデルの改善
88.5% 84.9% 単語認識率 14,800 14,809 音声データ量 たけまるくん (対話音声) JNAS(新聞記事 読み上げ音声) データ ベース 2年間の書き起こし収集データを利用大人
子ども
60.8% 84.2% 41.3% 78.8% 幼児 子ども 幼児 子ども 単語 認識率 78,626 40,000 音声デ ータ量 たけまるくん (対話音声) CSRC (単語発声) データ ベース「たけまるくん」の利用状況
大人
子ども
笑い声
雑音
2006.8.1 から 8.20 までの1日あたりの平均入力数 総入力数: 1166 605 56 451 54 子ども 笑い声 雑音 大人 雑音の 1/2 は,800msec以下の短い入力(short reject) たけまるパッケージ 10個所以上の機関に配布近鉄「北生駒駅」の音声情報案内システム
「キタちゃん」(左)と「キタロボ」 (右)
○ 厳しい環境(60dBA)での実証実験とデータ収録 ○ システムのポータビリティ ○ ロボット型の人気 2006.3.27設置設置風景
近鉄学研北生駒駅
(2006.3.27開業)
Julius v3.5 から v4.0
Julius #Downloads per month 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 2003 年04 月 2003 年06 月 200 3年 08月 200 3年 10月 2003 年12 月 2004 年02 月 2004 年04 月 200 4年 06月 200 4年 08月 2004 年10 月 2004 年12 月 2005 年02 月 2005 年04 月 200 5年 06月 2005 年08 月 2005 年10 月 2005 年12 月 2006 年02 月 200 6年 04月 2006 年06 月 2006 年08 月 2006 年10 月 2006 年12 月 200 7年 02月 200 7年 04月 2007 年06 月 2007 年08 月 2007 年10 月 200 7年 12月 4. 3.5 3.5 3.5 3.5 3.4 Julius ダウンロード数(月毎)マイコンSH-4 マイコンSH-4A
SH-4Aマイコン上へのJuliusの高精度版の実装
大語彙連続音声認識ソフトJuliusのマイコンへの移植
開発プラットフォーム 日立「T-engine」 SH−4、SH-4A TRONアーキテクチャに対応した共通開発ボード 日立との共同研究アルゴリズムの高速化
Î実時間動作の達成
音環境 どのような環境でも 静かな場所でも通話 (会議、授業、電車内) 騒音下でも明瞭に通話 ハンズフリーでも 誰でもが 幼児 子ども 成人 高齢者 音声によるユニバーサル コミュニケーション ネットワークとも 音声対話システム ハンズフリー 音声認識 BSSA ネットワーク ロボット ロボット 幼児音声の認識
新しい音声メディアによる
ユニバーサルコミュニケーション
SIMO-ICA 音源分離 NAM 非可聴つぶやき NAM・音声モーフィング 発話障害者補助 BSS 補聴器 障害者非可聴つぶやき(NAM)の
無音声認識と無音声電話の研究
無音声認識・無音声電話
Non-Audible Murmur (NAM)
つぶやき声 つぶやき声(NAM)(NAM)は、話し手の近くでも聞こえない声。は、話し手の近くでも聞こえない声。 この声を認識 この声を認識(無音声認識(無音声認識)したり、電話で送る(無音声電話))したり、電話で送る(無音声電話)ことができる。ことができる。 NAM マイクロフォン NAM NAM 無音声認識 私は名義を貸しただけで株購入をしていない。たとえ逮捕されても裁判で徹底的に闘う 無音声電話
変換音声 NAMマイクロフォン 音源ユニット 音源信号 増幅器 声質変換
発話障害者補助のための変換代用音声技術
(微弱な信号) (微弱な音声を集音) (ささやき声に変換) 声帯を手術で除去固有声に基づく声質変換
male female deep thin dark cheerful有線型/無線型NAM収録装置の開発
肉伝導センサ付き Bluetooth無線送信機 (増幅器内臓) Bluetooth無線受信機 従来の有線型収録装置 試作した無線型収録装置 増幅器 有線型NAMマイク (ネックバンド固定式) 裏側: 肉伝導センサ ウレタンシ ート 2 5cmEarphone
Microphone
Single-Input Multiple-Outputモデルに基づく独立成分分析
を用いたバイノーラル混合信号のブラインド音源分離
信号処理 信号処理 両耳介入り口付近の音を収音目的音のバイノーラル信号のみを再現
目的音 干渉音 日本音響学会、独創研究奨励賞板倉記念 SIMO−ICA0 5 10 15 20 25 0 15 30 45 60 75 90 Direction of source 2 θ 2 [deg]
SI M O -M o d e l Ac c u ra c y [ d B] FDICA-PB MS-SIMO-ICA Proposed SG Proposed SIMO-ICA-SG
SIMO−ICAでの音源分離の結果
従来法 1 FDICA-PB 提案法 従来法 2 MS-SIMO-ICA Output 1 Output 2 Output 1 Output 2 Output 1 Output 2 Input 音源1の方位:-15度 音源2の方位: 45度 60°ブラインド音源分離(BSS)の実時間処理
アルゴリズムのDSP実装
DSP実装と商用 (協力:神戸製鋼所) ロボット対話 SIMO-ICA 歪みなしでの音源分離の原理 IEEE/RSJ (IROS2005)Best Application Paper Award
IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation
Reference Path Primary Path Phase Compensation U θ Mel-ScaleFilter Bank Spectral Subtract Log Transform and DCT + - FD-ICA Mel-Scale Filter Bank ( ,τ) DS f Y ( ),τ ICA f Z ( )l,τ m ( )L,τ m ) , (n τ MFCC (f ,τ ) Ej (f ,τ ) EJ User’s Speech Noise XJ (f ,τ ) F F T (f ,τ) X j U θ PB Noise ∑ ∑ User 0
BSSA
(Blind Spectral Subtraction Array)SSA(空間減算アレー)とBSSの融合
音声強調
雑音の減算
各種モジュールを統合した実環境動作可能な音声対話システム 8チャネル マイクアレー キタロボ ディスプレー リアルタイム リアルタイム ブラインド空間 ブラインド空間 サブトラクションアレー サブトラクションアレー BSSA BSSA 音声発話検出& 音声発話検出& 音声認識デコーダ 音声認識デコーダ 対話管理処理 対話管理処理 応答音声生成 応答音声生成 各種情報提示 各種情報提示 典型的な駅騒音の中で 典型的な駅騒音の中で 遠隔発話した場合でも 遠隔発話した場合でも
9
9
0
0
%
%
以上
以上
の単語認識率を達成! の単語認識率を達成! (今後) (今後) ロボット動作との連携 ロボット動作との連携ハンズフリー
ハンズフリー
ロボット対話
ロボット対話
駅環境雑音 の再現 指向性マイクハンズフリー音声対話システムの要素技術
ハンズフリー音声収録技術 10数dB程度の効果 指向性マイクロフォン 4∼5 dBの効果 遅延和アレー(8チャンネル) 4 dB程度の効果 BSSAによる雑音減算 4∼5 dBの効果 音声認識技術 デコーダーVAD: 雑音環境下での音声切り出し 音韻モデル: 雑音重畳25dB + 残響マッチド モデル 言語モデル、質問応答データベース音声合成: 目標感情間のモーフィング
怒り 喜び 平静 悲しみ 驚き 恐れ 平静と各感情 モーフィング率 -0.2 から 1.2 心理的距離の離れた感情間 心理的距離の近い感情間 音声:「こんにちは」母音によるモーフィング
原音声:平静 怒り 朗らか 原音声:怒りSTRAIGHT
約350の機関で利用音声規則合成:Blizzard Challenge 2005, 06, 07, 08
合成音声の品質は音声デ ータベースに依存
音声合成技術自体の比 較・評価は困難
“
Blizzard Challenge”
Blizzard Challenge
Evaluating corpus-based speech synthesis
on
common data sets
common data sets
組織委員長:
Alan Black(CMU)、徳田(名工大)
名工大 名工大 名工大 自然音声
自然音声 自然音声
The Blizzard Challenge - 2005
HTS (名工大)
STRAIGHT(和歌山大) Global Variance(奈良先端大)
Speech
Blizzard Challenge 2005用システムの評価結果
研究成果の普及
フリーソフトウェアサイト(H19) ダウンロード数 25,000 (4,000) HMM音声規則合成 V2.0 Google PageRank:☆☆☆☆☆☆ http://hts.ics.nitech.ac.jp HTS -世界標準音声合成フレームワーク HTS, 音声モーフィングが採用 Google PageRank:☆☆☆☆☆☆ http://www.cstr.ed.ac.uk/ projects/festival/ Festival 30,000 (14,000) 大語彙連続音声認識プログラムv4.0 Google PageRank:☆☆☆☆☆ http://julius.sourceforge.jp Julius マイコン/DSP実装によるコストダウン ハンズフリー音声収録(SSA)の実装(H19.3) DSP (旭化成) SSA Juliusのマイコンへの実装(H19.3) SH-4A (日立) Julius ()は、H17のダウンロード数学術活動(研究論文、受賞)
43
620
352
108
合計 12 166 77 18 H19 12 125 82 19 H18 6 116 47 23 H17 7 118 65 18 H15 81 国際会議 6 95 30 H16 受賞 研究会など 学術論文学術活動(おもな受賞リスト
)
音声合成(HTS) 日本音響学会 独創研究奨励賞板倉記念 08.3 対話(京都観光案内) 情報処理学会 山下記念研究賞 08.3 音声合成(HTS) 電気通信普及財団賞(テレコムシステム技術賞) 08.3 BSSIEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation 07.8 対話(たけまるくん) 情報処理学会 山下記念研究賞 07.3 NAM個人認証 暗号と情報セキュリティシンポジュームSCIS2006論文賞 07.1 全般(鹿野) IEEE Fellow 07.1 BSS IEEE/RSJ Best Application Paper Award
06.10 残響回復 電子情報通信学会論文賞 06.5 HMM音韻モデル 日本音響学会 粟屋潔学術奨励賞 06.3 BSS 日本音響学会 独創研究奨励賞板倉記念 06.3 NAM 電子情報通信学会論文賞、 猪瀬賞 05.5 全般(鹿野) 電子情報通信学会フェロー 04.9 対話(バス運行システム) 情報処理学会 山下記念研究賞 04.3 全般(鹿野) 情報処理学会フェロー 04.3 分野 受賞 日付