ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

(1)

ユーザ負担のない話者・環境適応性

を実現する自然な音声対話処理技術

H19 e-Society 最終報告会

ユーザ負担のない話者・環境適応性

を実現する自然な音声対話処理技術

H19

e

-

Society

最終報告会

鹿野清宏（

奈良先端科学技術大学院大学）

河原達也、猿渡洋、武田一哉、

河原英紀、徳田恵一、西浦敬信

H20.3.27

(2)

研究開発の目標

雑音がある中，マイク距離が１ｍ離れた場所からでも，1文程度の発声だけでコンピュータが人間の正確な言葉を認識雑音がある中，マイク距離が１ｍ離れた場所からでも，1文程度の発声だけでコンピュータが人間の正確な言葉を認識 ●街中等，雑音がある現実的な状況で，人間の言葉だけをコンピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ● ITの普及，ディジタルディバイド問題の軽減 ●街中等，雑音がある現実的な状況で，人間の言葉だけをコンピュータに識別・理解させる技術 ●誰でもが廉価に使える音声認識・合成 ● ITの普及，ディジタルディバイド問題の軽減 ○教師なし話者・環境適応技術（高精度・頑健な認識） ○大語彙連続音声認識技術（フリーソフトウェア） ○マイクロフォンアレーによるハンズフリー音声認識技術（マイクを意識しない使い易い音声インタフェース） ○多様な音声合成（声質の変換，感情表現が可能な合成） ○教師なし話者・環境適応技術（高精度・頑健な認識） ○大語彙連続音声認識技術（フリーソフトウェア） ○マイクロフォンアレーによるハンズフリー音声認識技術（マイクを意識しない使い易い音声インタフェース） ○多様な音声合成（声質の変換，感情表現が可能な合成）

(3)

社会基盤としての

音声認識・合成

プログラム

ハンズフリー

音声認識

マイクなしで、 DSPチップで廉価。

ユーザ負担のない

話者・環境適応

誰もが使える子どもからお年寄りまで

多様な声質の

音声合成

多様な自然な応答音声。音声認識・合成により、誰もが気軽に情報機器の利用できる社会へ！

実環境の

音声対話システム

実証開発、

評価

ヒューマンインタフェース、構築ガイドライン奈良先端大、京都大学、和歌山大学、名古屋大学、名古屋工業大学、立命館大学日立製作所、旭化成、松下電器、松下電工、オムロン、ＡＳＴＥＭ

大語彙連続音声認識

フリーソフトウェア

どのような環境でも、高精度に認識。マイコン上でも。

(4)

開発成果（中間目標(H18.3)、最終目標(H20.3)）実環境の音声対話システムユーザ負担のない話者・環境適応大語彙連続音声認識フリーソフトウェアハンズフリー音声認識多様な声質の音声合成中間目標最終目標丁寧な話し言葉認識、マイコン上に実装話し言葉認識ソフトの完成と普及雑音環境下での教師なしオンライン話者適応ハンズフリー環境・話者適応プログラムパッケージハンズフリー音声収録プログラムハンズフリー 音声収録DSP 各種実環境音声対話システムの構築実環境音声対話システムの運用と評価多様な音声合成プログラム多様で高品質な音声合成プログラムの完成と普及マイコンで実時間動作つぶやき認識（静かな音声メディア）ブラインド音源分離無音声電話（つぶやき声で電話）

(5)

成果の概要

音声対話システム：

実環境で使われる音声対話システム Julius v4.0、マイコンへの実装たけまるくん、キタちゃん、キタロボ、メイちゃんなど

非可聴つぶやき（NAM)：

静かな音声メディアの発見無音声認識/電話発話障害者補助

ブラインド音源分離（BSS)：

やかましい中でのハンズフリー歪なし分離原理（SIMO-ICA) ハンズフリー音声対話システム（ロボット対話の実現）

音声規則合成：

世界をリードする音声合成技術高品質音声分析合成 STRAIGHT HMMベース音声規則合成ＨＴＳ

(6)

音声対話システム

奈良先端大

たけまるくん（５年以上運用）生駒市北コミュニティセンターキタちゃんとキタロボ（２年間運用）近鉄学研北生駒駅

京都大学

バス運行案内システム（５年以上運用）京都観光案内システム京都大学総合博物館

名古屋工業大学

学内案内システムめいちゃん

名古屋大学

楽曲検索システム Webベース

和歌山大学

Ｗｅｂベース対話システム構築ツール W3voice 大語彙連続音声認識ソフト Julius を利用 H18 情報処理学会山下記念研究賞 H16 情報処理学会山下記念研究賞 H19 情報処理学会山下記念研究賞

(7)

たけまるくん

生駒市

北コミュニティセンター

(8)

0 5000 10000 15000 20000 25000 30000 35000 2002 年11月 2003 年2月 2003 年5月 2003 年8月 2003年11 月 2004年2月2004年5月2004年8月₂₀₀₄年11月2005 年2月 2005年5月2005 年8月 2005年 11月 2006年2月2006 年5月 2006年8月音声笑い声、咳払い雑音子供/大人の識別 雑音の識別 (2003.3) フィールドミュージアム Julian(2005.08) 長期にわたる音声データ収集高精度モデルの作成構築コストの削減構築のノウハウたけまるくんの月別の入力数の推移書き起こし終了(2004.10) 月あたりの入力数

(9)

収集データによる音韻モデルの改善

８８.５％ ８４.９％ 単語認識率 １４,８００ １４,８０９ 音声データ量たけまるくん（対話音声） JNAS（新聞記事 読み上げ音声）データベース２年間の書き起こし収集データを利用

大人

子ども

６０.８％ ８４.２％ ４１.３％ ７８.８％ 幼児子ども幼児子ども単語認識率 ７８,６２６ ４０,０００ 音声データ量たけまるくん（対話音声） CSRC （単語発声）データベース

(10)

「たけまるくん」の利用状況

大人

子ども

笑い声

雑音

2006．8．1 から 8．20 までの1日あたりの平均入力数 総入力数： 1166 605 56 451 54 子ども笑い声雑音大人雑音の１/2 は,800msec以下の短い入力（short reject）たけまるパッケージ１０個所以上の機関に配布

(11)

近鉄「北生駒駅」の音声情報案内システム

「キタちゃん」（左）と「キタロボ」（右）

○ 厳しい環境（６０ｄＢＡ）での実証実験とデータ収録 ○ システムのポータビリティ ○ ロボット型の人気 2006.3.27設置

(12)

設置風景

近鉄学研北生駒駅

（２００６．３．２７開業）

(13)

Julius v3.5 からｖ4.0

Julius #Downloads per month 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 2003 年04 月 2003 年06 月 200 3年 08月 200 3年 10月 2003 年12 月 2004 年02 月 2004 年04 月 200 4年 06月 200 4年 08月 2004 年10 月 2004 年12 月 2005 年02 月 2005 年04 月 200 5年 06月 2005 年08 月 2005 年10 月 2005 年12 月 2006 年02 月 200 6年 04月 2006 年06 月 2006 年08 月 2006 年10 月 2006 年12 月 200 7年 02月 200 7年 04月 2007 年06 月 2007 年08 月 2007 年10 月 200 7年 12月 4. 3.5 3.5 3.5 3.5 3.4 Julius ダウンロード数（月毎）

(14)

マイコンSH-4 マイコンSH-4A

SH-4Aマイコン上へのJuliusの高精度版の実装

大語彙連続音声認識ソフトJuliusのマイコンへの移植

開発プラットフォーム日立「T-engine」ＳＨ−４、SH-4A TRONアーキテクチャに対応した共通開発ボード日立との共同研究

アルゴリズムの高速化

_{Î実時間動作の達成}

(15)

音環境どのような環境でも静かな場所でも通話（会議、授業、電車内）騒音下でも明瞭に通話ハンズフリーでも誰でもが幼児 _子ども成人 _高齢者音声によるユニバーサルコミュニケーションネットワークとも音声対話システムハンズフリー音声認識 BSSA ネットワークロボットロボット幼児音声の認識

新しい音声メディアによる

ユニバーサルコミュニケーション

SIMO-ICA 音源分離ＮＡＭ非可聴つぶやき NAM・音声モーフィング 発話障害者補助ＢＳＳ補聴器障害者

(16)

非可聴つぶやき（NAM）の

無音声認識と無音声電話の研究

(17)

無音声認識・無音声電話

Non-Audible Murmur (NAM)

つぶやき声つぶやき声(NAM)_(NAM)は、話し手の近くでも聞こえない声。は、話し手の近くでも聞こえない声。この声を認識この声を認識（無音声認識（無音声認識）したり、電話で送る（無音声電話））したり、電話で送る（無音声電話）ことができる。ことができる。 NAM マイクロフォン NAM NAM _{無音声認識} 私は名義を貸しただけで株購入をしていない。たとえ逮捕されても裁判で徹底的に闘う無音声電話

(18)

変換音声 NAMマイクロフォン音源ユニット音源信号増幅器声質変換

発話障害者補助のための変換代用音声技術

（微弱な信号）（微弱な音声を集音）（ささやき声に変換）声帯を手術で除去

(19)

固有声に基づく声質変換

male female deep thin dark cheerful

(20)

有線型／無線型ＮＡＭ収録装置の開発

肉伝導センサ付き Bluetooth無線送信機（増幅器内臓） Bluetooth無線受信機従来の有線型収録装置試作した無線型収録装置増幅器有線型ＮＡＭマイク（ネックバンド固定式）裏側： _{肉伝導センサ} ウレタンシート 2 ５ｃｍ

(21)

Earphone

Microphone

Single-Input Multiple-Outputモデルに基づく独立成分分析

を用いたバイノーラル混合信号のブラインド音源分離

信号処理信号処理両耳介入り口付近の音を収音

目的音のバイノーラル信号のみを再現

目的音干渉音日本音響学会、独創研究奨励賞板倉記念ＳＩＭＯ−ＩＣＡ

(22)

0 5 10 15 20 25 0 15 30 45 60 75 90 Direction of source 2 θ ₂ [deg]

SI M O -M o d e l Ac c u ra c y [ d B] FDICA-PB MS-SIMO-ICA Proposed SG Proposed SIMO-ICA-SG

ＳＩＭＯ−ＩＣＡでの音源分離の結果

従来法 1 FDICA-PB 提案法従来法２ MS-SIMO-ICA Output 1 Output 2 Output 1 Output 2 Output 1 Output 2 Input 音源1の方位：-15度音源2の方位： 45度 60°

(23)

ブラインド音源分離（BSS）の実時間処理

アルゴリズムのDSP実装

DSP実装と商用（協力：神戸製鋼所）ロボット対話 SIMO-ICA 歪みなしでの音源分離の原理 IEEE/RSJ (IROS2005)

Best Application Paper Award

IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation

(24)

Reference Path Primary Path Phase Compensation U θ Mel-Scale_Filter Bank Spectral Subtract Log Transform and DCT + - FD-ICA Mel-Scale Filter Bank ( ,τ) DS f Y ( ),τ ICA f Z ( )l,τ m ( )L,τ m ) , (n τ MFCC (f ,τ ) E_j (f ,τ ) E_J User’s Speech Noise XJ (f ,τ ) F F T (f ,τ) X _j U θ PB Noise ∑ ∑ User 0

BSSA

（Blind Spectral Subtraction Array)

SSA(空間減算アレー）とBSSの融合

音声強調

雑音の減算

(25)

各種モジュールを統合した実環境動作可能な音声対話システム 8チャネル マイクアレーキタロボディスプレーリアルタイムリアルタイムブラインド空間ブラインド空間サブトラクションアレーサブトラクションアレー BSSA BSSA 音声発話検出＆音声発話検出＆音声認識デコーダ音声認識デコーダ対話管理処理対話管理処理応答音声生成応答音声生成各種情報提示各種情報提示典型的な駅騒音の中で典型的な駅騒音の中で遠隔発話した場合でも遠隔発話した場合でも

9

０

０ %

%

以上

の単語認識率を達成！の単語認識率を達成！（今後）（今後）ロボット動作との連携ロボット動作との連携

ハンズフリー

ロボット対話

駅環境雑音の再現指向性マイク

(26)

ハンズフリー音声対話システムの要素技術

ハンズフリー音声収録技術 10数dB程度の効果指向性マイクロフォン 4∼5 dBの効果遅延和アレー（８チャンネル） 4 dB程度の効果 BSSAによる雑音減算 4∼5 dBの効果音声認識技術デコーダーVAD：雑音環境下での音声切り出し音韻モデル：雑音重畳25dB + 残響マッチドモデル言語モデル、質問応答データベース

(27)

音声合成：目標感情間のモーフィング

怒り喜び平静悲しみ驚き恐れ平静と各感情モーフィング率 -0.2 から 1.2 心理的距離の離れた感情間心理的距離の近い感情間音声：「こんにちは」

母音によるモーフィング

原音声：平静怒り朗らか _{原音声：怒り}

ＳＴＲＡＩＧＨＴ

約350の機関で利用

(28)

音声規則合成：Blizzard Challenge 2005, 06, 07, 08

合成音声の品質は音声データベースに依存

音声合成技術自体の比較・評価は困難

“

Blizzard Challenge”

Blizzard Challenge

Evaluating corpus-based speech synthesis

on

common data sets

組織委員長：

Alan Black（CMU)、徳田（名工大）

(29)

名工大名工大名工大自然音声

自然音声自然音声

The Blizzard Challenge - 2005

HTS （名工大）

STRAIGHT（和歌山大） Global Variance（奈良先端大）

Speech

(30)

Blizzard Challenge 2005用システムの評価結果

(31)

研究成果の普及

フリーソフトウェアサイト（Ｈ１９）ダウンロード数 25,000 (4,000) ＨＭＭ音声規則合成 V2.0 Google PageRank:☆☆☆☆☆☆ http://hts.ics.nitech.ac.jp ＨＴＳ -世界標準音声合成フレームワーク HTS, 音声モーフィングが採用 Google PageRank:☆☆☆☆☆☆ http://www.cstr.ed.ac.uk/ projects/festival/ Festival 30,000 (14,000) 大語彙連続音声認識プログラムv4.0 Google PageRank:☆☆☆☆☆ http://julius.sourceforge.jp Ｊｕｌｉｕｓマイコン/DSP実装によるコストダウンハンズフリー音声収録（SSA)の実装（Ｈ１９．３） DSP （旭化成） SSA Juliusのマイコンへの実装（Ｈ１９．３） SH-4A (日立）Ｊｕｌｉｕｓ（）は、Ｈ１７のダウンロード数

(32)

学術活動（研究論文、受賞）

43

620

352

108

合計 12 166 77 18 H19 12 125 82 19 H18 6 116 47 23 H17 7 118 65 18 H15 81 国際会議 6 95 30 H16 受賞研究会など学術論文

(33)

学術活動（おもな受賞リスト

）

音声合成（HTS）日本音響学会独創研究奨励賞板倉記念 08.3 対話(京都観光案内) 情報処理学会山下記念研究賞 08.3 音声合成（HTS）電気通信普及財団賞（テレコムシステム技術賞） 08.3 ＢＳＳ

IEEE MLSP2007 Data Analysis Competition Winner on Nonlinear Separation 07.8 対話(たけまるくん) 情報処理学会山下記念研究賞 07.3 NAM個人認証暗号と情報セキュリティシンポジュームSCIS2006論文賞 07.1 全般（鹿野）ＩＥＥＥ Fellow 07.1 ＢＳＳ IEEE/RSJ Best Application Paper Award

06.10 残響回復電子情報通信学会論文賞 06.5 HMM音韻モデル日本音響学会粟屋潔学術奨励賞 06.3 BSS 日本音響学会独創研究奨励賞板倉記念 06.3 NAM 電子情報通信学会論文賞、猪瀬賞 05.5 全般（鹿野）電子情報通信学会フェロー 04.9 対話(バス運行システム) 情報処理学会山下記念研究賞 04.3 全般（鹿野）情報処理学会フェロー 04.3 分野受賞日付

(34)

まとめ

（１）当初計画以上の成果音声認識実環境音声対話システムを５年間運用。 Julius v4.0、たけまるパッケージ、高精度音韻/言語モデル。マイコンSH-4AにJuliusの実時間認識を実装。ハンズフリー音声対話システムを実現。音声合成高品質音声モーフィング（STRAIGHT)。高品質音声規則合成（ＨＴＳ）。（２）新しい手法の発見非可聴つぶやき声による静かな音声メディア（NAM)。ハンズフリーにおける歪なし音源分離原理（SIMO-ICA)。（３）多くの論文、国際会議発表。表彰（論文賞、猪瀬賞など）。世界でトップの音声合成技術を実証（STRAIGHT、ＨＴＳ）。ＥＵのプロジェクトEMIMEに招聘参加。（４）フリーソフトウェアサイトの運用 Julius, HTS 講習会、展示会などで普及活動。共同研究などによる産業界への技術移転も活発化。（１）当初計画以上の成果音声認識実環境音声対話システムを５年間運用。 Julius v4.0、たけまるパッケージ、高精度音韻/言語モデル。マイコンSH-4AにJuliusの実時間認識を実装。ハンズフリー音声対話システムを実現。音声合成高品質音声モーフィング（STRAIGHT)。高品質音声規則合成（ＨＴＳ）。（２）新しい手法の発見非可聴つぶやき声による静かな音声メディア（NAM)。ハンズフリーにおける歪なし音源分離原理（SIMO-ICA)。（３）多くの論文、国際会議発表。表彰（論文賞、猪瀬賞など）。世界でトップの音声合成技術を実証（STRAIGHT、ＨＴＳ）。ＥＵのプロジェクトEMIMEに招聘参加。（４）フリーソフトウェアサイトの運用 Julius, HTS 講習会、展示会などで普及活動。共同研究などによる産業界への技術移転も活発化。

ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

ユーザ負担のない話者・環境適応性

を実現する自然な音声対話処理技術

H19 e-Society 最終報告会

ユーザ負担のない話者・環境適応性

ユーザ負担のない話者・環境適応性

を実現する自然な音声対話処理技術

を実現する自然な音声対話処理技術

H19

H19

e

e

-

-

Society

Society

最終報告会

最終報告会

鹿野清宏（

河原達也、猿渡洋、武田一哉、

河原英紀、徳田恵一、西浦敬信

研究開発の目標

音声認識・合成

ハンズフリー

音声認識

ユーザ負担のない

話者・環境適応

多様な声質の

音声合成

実環境の

音声対話システム

実証開発、

評価

大語彙連続音声認識

フリーソフトウェア

成果の概要



音声対話システム：



非可聴つぶやき（NAM)：



ブラインド音源分離（BSS)：



音声規則合成：

音声対話システム



奈良先端大



京都大学



名古屋工業大学



名古屋大学



和歌山大学

たけまるくん

生駒市

北コミュニティセンター

収集データによる音韻モデルの改善

大人

子ども

「たけまるくん」の利用状況

大人

子ども

笑い声

雑音

近鉄「北生駒駅」の音声情報案内システム

「キタちゃん」（左）と「キタロボ」 （右）

設置風景

Julius v3.5 から ｖ4.0

SH-4Aマイコン上へのJuliusの高精度版の実装

大語彙連続音声認識ソフトJuliusのマイコンへの移植

アルゴリズムの高速化

Î実時間動作の達成

新しい音声メディアによる

ユニバーサルコミュニケーション

非可聴つぶやき（NAM）の

無音声認識と無音声電話の研究

無音声認識・無音声電話

Non-Audible Murmur (NAM)

「キタちゃん」（左）と「キタロボ」（右）

Julius v3.5 からｖ4.0

_{Î実時間動作の達成}

音声合成：目標感情間のモーフィング