IPSJ SIG Technical Report Vol.2013-SLP-98 No /10/25 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing

(1)

「音声アシスト」の音声認識と自然言語処理の開発

磯健一

1,a)

_{颯々野学}

1 概要：「音声アシスト」は音声対話によってモバイル端末から多様な情報へのアクセスを提供するアプリケーションである．ヤフーが提供する各種情報サービス(経路探索，天気情報，ニュース，ウェブ検索，地図，店舗情報，Q&A，知恵袋)を自然な音声対話によって一元的に利用することができるほか，モバイル端末の操作(アラーム設定，アプリ起動，電話発信，カレンダー・連絡先検索，ウェブ読み上げ)もサポートしている．ユーザの発話は超大語彙の音声認識によってテキストに変換され，意味理解サーバに送られて発話意図や固有名，数値表現などが抽出されて，発話意図に応じて用意した応答テンプレートにもとづいて応答文が作成され，モバイル端末上で音声合成により応答される仕組みである．本稿では「音声アシスト」を構成する音声認識プラットフォームYJVOICEと音声対話を支える自然言語処理技術について紹介する．

Development of speech recognition and natural language processing for

ONSEI Assist service

Abstract: “ONSEI Assist” is a voice dialog application for mobile devices that enables various kinds of in-formation retrieval including train route, weather, news, web, map, shops and Q&A. It also supports mobile device operations such as alarm setting, application launch, dialing, calendar and address book search. The user input utterance is recognized by a very large vocabulary speech recognition system and sent to a server for semantic analysis which extracts the user’s intention including named entities and prepares a response sentence.

This article describes the speech recognition platform “YJVOICE” and the natural language processing technologies for “ONSEI Assist”.

1. はじめに

スマートフォンの普及に伴い，音声入出力による情報アクセスへの期待が高まっている．Googleの音声検索(日本語版2009年12月,[1])をはじめとして，AppleのSiri(2012 年3月,[2])やNTTドコモのしゃべってコンシェル(2012 年3月,[3])，など本格的な音声認識を搭載したアプリケーションの認知が広まり，実用的な利用も増えてきている．ヤフーでもモバイルデバイスからの情報アクセスの主要コンポーネントの一つとして音声対話への取り組みを進めている．2011年3月から日本語音声検索サービスを開始して，iOS向け「音声検索」アプリケーション[4]を皮切りに，多くのスマートフォン向けアプリケーションに音声 1 _{ヤフー株式会社}_{Yahoo! JAPAN}_研究所

Yahoo! JAPAN Research, Yahoo Japan Corporation, 9-7-1 Akasaka, Minato-ku, Tokyo 107–6211, Japan

a) _{[email protected]} 検索機能を提供している．さらに2012年3月からは音声対話サービス「音声アシスト」[5]をリリースして，音声認識，自然言語理解，音声合成を組み合わせた音声対話による情報アクセスサービスの提供を開始した．本稿では「音声アシスト」サービスを構成している音声認識プラットフォームYJVOICEと，自然言語理解技術についてその概略を紹介する．

2. 音声認識プラットフォーム YJVOICE

2.1 構成音声認識プラットフォームYJVOICEでは，分散音声認

識(DSR, Distributed Speech Recognition)の構成を採用

している．スマートフォンなどのクライアントデバイス上でマイクロホンから音声を取得しながら逐次サーバに送信して，サーバ上では受信した音声情報を順次デコーダに入力して音声認識を行う構成である．

(2)

クライアントでは音声をブロック単位に圧縮(speex, flac 形式など)してサーバへ送信している．サーバにはapache HTTPサーバのモジュールとして音声認識デコーダを実装した．通信プロトコルにはhttpsを使用している．apache を利用することによりセキュリティの担保と，クライアント数増加に伴うスケーラビリティの確保，そして音声認識デコーダ(モジュール)の死活管理，などが容易にできるという利点がある．以下で音声認識デコーダを構成する音響モデル，言語モデル，WFSTデコーダについて説明する． 2.2 音響モデル音響モデル学習用の音声データには，サービス開始後にサーバに蓄積された音声ログ(男女比やSNRのバランスに配慮して発話を選んで書き起こしを作成)を使用している． HMMのMLおよびMPE学習の統計量計算には並列分散処理システムHadoop[6]を利用している．複数台のサーバを利用して並列高速化するためには，事前に学習データを複数サーバに適切に分配しておき，各サーバでローカルな学習データから統計量を算出することが望ましい．しかし増加を続ける大量の学習データを適切に(100∼1000台規模の)サーバに分配することは容易ではない．サーバダウンも考慮するとさらに管理が難しくなる． Hadoopでは構成する各サーバのローカルハードディスクを仮想的に単一ファイルシステム(HDFS, Hadoop Dis-tributed File System)と見なすことができ，学習データを

HDFSにコピーすると自動的に各サーバへ配信管理が行われる．さらにreplication機能により，データブロックのコピーが異なるサーバに保持されるように自動管理されるため，サーバダウンにも頑健である．作成したHMMは3状態32混合ガウス分布のトライフォンHMMで，決定木を用いておよそ3000状態にクラスタリングしている．特徴ベクトルは38次元(MFCC 12，パワー1次元およびMFCCの1・2次微分)を使用している． 2.3 言語モデル音声検索用言語モデルの学習には，ウェブ検索クエリログ(検索頻度情報付き)，および各種バーティカル検索クエリログ(辞書，地図，乗換，きっず，ファイナンス，など各サービス内の検索クエリログ)，SNSログ，音声検索ログの書き起こしテキスト，などを用いている．これらのコーパスを形態素分割して検索頻度を利用してNグラム頻度カウントを算出している(各サービスのクエリログはHadoop 上で管理されており，それらを利用して集計している)．語彙数は頻度上位の約100万語として，エントロピー基準によるpruningを行い，バイグラム約30M個，トライグラム約25M個のトライグラム言語モデルを作成している． 2.4 WFSTデコーダデコードにはWFST方式のデコーダを開発した[7]．デコーダの基本機能に加えて，実用上の必要性から以下の諸機能を実装した． • WFSTコンパクト化による省メモリ • 単語境界位置の検出 • 動的文法のサポート • 複数発音を有する単語の発音検出 • 認識結果候補と信頼度出力以下，これらの追加機能を説明する． 2.4.1 WFSTコンパクト化による省メモリデコード用WFSTは次式の手順で構築している[8]．

π(eps(min(det(C◦ det(L ◦ min(det(G ◦ T ))))))) (1)

ここでCは文脈依存音素(トライフォン)，Lは単語発音辞書，Gはトライグラム言語モデル，T は単語間無音を表す WFST，πは補助記号除去，epsはϵ正規化を表す． WFSTは状態と状態間遷移(以下，アーク)の集合で定義され，各アークは「遷移先状態番号」，「入力記号」，「出力記号」，「重み係数」の4個の情報で定義される(各4バイトなら計16バイト)．各状態はその状態を起点とするアーク数と，それらアーク情報へのポインタで構成される(各 4バイトなら計8バイト)．語彙数100万語のWFSTでは状態数，アーク数ともに 108個ほどになり，デコーダ使用メモリの大半を占める．そこでアークのメモリ使用量を削減するために，入力記号 (日本語トライフォンなら105_種類ほど₎_{と出力記号}₍_語彙数，106語)のペア化と，重み係数の量子化[9]を行った．前者により入力記号・出力記号あわせて8バイトを3バイトに削減できた(大半のトライフォン入力記号に対する出力記号はϵであることが主因)．後者では256点に量子化することにより1バイトに削減した(認識精度劣化なし)．あわせて1アークを8バイト(64bit CPUでの処理に都合がよい)で保持することができ(図1)，顕著な処理負荷増やプログラム複雑化なしで50%の圧縮率を得た．なお文献[10]ではアークのアドレスをページ化したり，アークの要素値を隣接アークとの差分で表すなどして，より高い圧縮率(約35%)を達成している． !"#$%&'( )&*+,-

.(/0-&1 2(/0-&1 3(/0-&

'&1$#"$4#(1-"-& *#5!-64!-5!-( 107/48(5"*9

図1 Compressed WFST arc representation.

上述の圧縮WFSTに対応したデコーダを開発して評価

実験を行った．比較のためにオープンソースのWFSTデ

コーダ(Juicer ver1.0.0, decoderLite, [11])と非WFSTデコーダ(Julius ver.4.2.1, [12])も使用した．Julius用言語

(3)

50 55 60 65 70 75 80 0.1 1.0 S.Acc (%)

RTF(Real Time Factor)

Real Time Factor and Memory Usage vs Sentence accuracy

0.5 2.0 3.0 4.0 5.0 1.8GB 1.8GB 2.0GB 2.3GB 2.6GB 2.9GB 3.8GB 8.9GB (memory usage) 9.4GB 9.8GB 9.9GB 10.0GB 1.5GB 1.5GB 1.6GB 1.6GB1.7GB 1.7GB 1.7GB 1.8GB 1.5GB 1.6GB 1.6GB proposed juicer ver.1.0.0 julius ver.4.2.1 (larger 2grams) julius ver.4.2.1 図2 文正解率vs RTF モデルには学習用コーパスから前向きバイグラムと後ろ向きトライグラムを作成して使用した．評価データは音声検索ログから，パラメータ調整用(以下dev, 2011年9月から 1万発話)とオープン評価用(以下eval, 2012年1月から1 万発話)を選んだ．認識結果の正誤判定はあらかじめ用意した正解文との比較で行った．文誤り率(SER)の算出では，正解文と認識結果文の表記(漢字仮名混じり)または読みが完全一致した場合に正解と数えている．

実験はCPU Intel⃝ XeonR ⃝ X5675(3.07GHz, 6R コア, 12MBキャッシュ)，メモリ128GB，CentOS 5.4.3 64bit，

GCC ver.4.1.2のサーバ上で行った．図2に評価データ

evalに対する文誤り率(SER)と実時間比(RTF, Real Time Factor，音声長とデコード所要時間の比)を示した．図中の数字(単位GB)はデコード中の最大使用メモリ量である．各デコーダのパラメータ(ビーム幅，仮説数，言語モデル重み係数，挿入ペナルティなど)はdevを用いて調整した．Juliusではデコード第1パスでパラメータ削減なしのバイグラムを使用した場合(図中の青線)と，WFSTと同様のエントロピー閾値を用いてパラメータ削減したバイグラムを使用した場合(同ピンク線)を示した．前述の圧縮WFSTを用いた内製デコーダはRT F = 1.0 の動作点で約2.3GBのメモリを使用するが，Juicerでは約4.3倍の9.9GBを要している．一方，非WFSTデコーダ(デコード時に言語モデルと木構造単語辞書を統合する)Juliusでは，WFSTデコーダに比べてメモリ使用量が少ない(1.6GB，0.7倍)ことがわかる． 2.4.2 単語境界位置の検出音声認識アプリケーションでは音声認識結果の確認や修正のときに，ユーザが指定した単語位置から音声を再生したい場合がある．しかし式(1)のWFSTでは決定化(det) や最小化(min)によって，出力記号(単語)の位置が動いてしまうため，デコード中に単語境界を検出するのは難しい(1パス処理後に再アライメントするなどの必要がある)．そこでデコード用WFSTを構成する単語発音辞書Lの各単語発音記号列の次に単語終端を表すアーク(入力記号は単語IDを含む特殊発音記号，出力記号は空記号)を挿入して式(1)の処理を行った[13]．処理後に特殊発音記号を空記号に，対応する出力記号を単語IDに置換した．これにより1パスデコードにおいて出力記号(単語ID)から単語境界位置を検出することが可能になった． 2.4.3 動的文法のサポート音声認識アプリケーションではアプリケーションごと，あるいはエンドユーザごとに用意した語彙や言い回しを音声認識可能にしたい場合が生じる．たとえばアプリケーションに依存した音声コマンドや，エンドユーザのアドレス帳に登録されている人名などを認識させたい場合である．そこで事前に用意した共通WFSTと，上述のように実行時に個別に用意された追加のWFST(以下，動的文法 WFST)を組み合わせてデコードする必要性が生じる．動的文法WFSTを組み合わせたデコード方法としてはsplice 接合する方法[14]や，式(1)のWFST合成の一部を実行時に行うOn-the-Fly合成による方法[15]などが知られている．後者ではGとC，Lの合成が事前には行われないた

(4)

め，WFST保持メモリ量が低減できるメリットがあるが，式(1)の全体最適化が行えないデメリットがある．我々は前者に近い方式でデコーダを実装した．事前に用意する共通WFST中には動的に呼び出したい文法を特殊な単語X(その発音記号も特殊音素記号x)として組み込んで，通常の式(1)の合成と最小化を行う．デコード時に特殊音素記号xを含むトライフォンへ仮説を展開するときに，動的文法WFSTへの接合をオンデマンドに行っている．[14]では事前に両方のWFSTの接合部分をすべての可能なトライフォンを想定して展開しておく必要があるが，我々の実装では仮説伝搬時にオンデマンドで展開している点などが異なっている． 2.4.4 複数発音を有する単語への対応人名や地名などでは，同じ単語表記に対して複数の異なる発音が定義されている場合がある．たとえば人名「高田」に対して「タカダ」，「タカタ」，「コーダ」，地名「日本橋」に対して「ニホンバシ(東京)」，「ニッポンバシ(大阪)」のような場合である．音声対話システムで認識結果に応じて読み上げを行う場合や乗換案内検索を行う場合は，音声認識結果からこれらの発音の区別を検出したい場合がある．そこで言語モデルGでは発音による違いを考慮せずに「高田:{タカダ/タカタ/コーダ_}」を出力記号として扱い，単語発音辞書Lでは各発音に対する単語表現の末尾にどの発音が選択されたかを識別する特殊発音記号を挿入しておく(前述の単語終端アークと共用可能)．これにより式(1) の処理はそのままに，最終的に構築されたWFSTの出力記号には発音の区別を埋め込むことができる． 2.4.5 認識結果候補と信頼度出力デコーダは認識結果として音素ラティスを出力する．多様な認識結果出力形式をサポートするために，音素ラティスから単語ラティス，単語コンフュージョンネットワークなどを生成する後処理を追加した．音素ラティス上で音素遷移ごとに事後確率を算出して，事後確率による音素遷移のpruningを行いながら単語ラティスを生成する．Nベスト候補文出力は単語ラティスから生成している．さらに単語ラティスから単語コンフュージョンネット(WCN, Word Confusion Networks)を生成している．WCN生成アルゴリズムは[16], [17]などが知られているが，ここでは後者のpivotに基づく方法(1位仮説の単語列をpivotとして，単語ラティス中の単語遷移をまとめる方法)を実装した．pivot法で生成されるWCNでは一般に1位仮説の単語数よりもスロット数が増えてしまうので，アルゴリズム終了後に1位仮説のセグメンテーションに応じてスロットをマージする処理を追加している． 2.5 アプリケーションヤフーでは2011年3月に音声認識サービスを開始して，最初のアプリケーションとしてiOS向けの「音声検索」(図 3, [4])をリリースした．ヤフーが提供する各種の検索サービス(ウェブ，画像，Twitter，地図，路線，知恵袋，オークション，ショッピング，人物，レシピ)を横断的に音声で検索できるアプリケーションである．これまでに累計で百数十万回以上ダウンロードされている．図3 アプリケーション「音声検索」(iOS向け) その後，社内向けにクライアント開発用のSDKを用意して，多数のiOS向け，Android向けアプリケーションに音声検索機能が搭載されている．

3. 音声アシスト

3.1 音声アシストとは「音声アシスト」は前述の音声認識プラットフォーム YJVOICEと自然言語処理を組み合わせた音声対話機能を有するアプリケーション(Android向け，図4，[5])である． 2012年4月にAndroid向けにリリースされて，スマートフォンへのプレインストールやGoogle Playからのダウンロード(約50万回以上)で提供され，年間で約2000万発話ほど利用されている．図4 音声アシスト(Android向け)

(5)

「音声アシスト」は音声対話によって以下のようなサービスの一元的な利用をサポートしている(図5)． • 経路探索(「品川から六本木まで」，「到着は何時？」) • 天気情報(「今日の天気は？」，「雨は降るかな？」) • ニュース(「総選挙のニュースを教えて」) • ウェブ・画像検索(「スカイツリーを検索」) • 地図(「ここはどこ？」) • 店舗情報(「近くのコンビニ」) • アラーム(「明日7時15分に起こして」) • 時刻・日付・祝日問い合わせ(「正月まであと何日？」) • アプリ起動・端末操作(「カメラを起動」，「音を大きく」) • 連絡先(「佐藤さんのメールアドレスは？」) • 電話発信(「佐藤さんに電話をかけて」) • カレンダー(「来週の月曜の予定は？」) • Q&A(「インドネシアの通貨は？」) • 知恵袋(「ホットケーキとパンケーキの違いを知恵袋で検索」) • 読み上げ(ブラウザ・メール連携) 3.2 構成クライアント・サーバ構成であるが，サーバ側は前述の音声認識プラットフォームYJVOICEに加えて，自然言語処理による意味理解サーバ，応答生成サーバ，音声合成サーバ，などから構成されている．クライアントではマイクロホンからの音声を音声認識サーバへ送信して認識結果テキストを受信して，そのテキストを意味理解サーバへ送信する．意味理解サーバでは音声認識結果テキストから発話意図の判別と変数情報(固有名や数値表現など)の抽出，変数情報の変換，などを行い，応答パターンを生成して応答生成サーバへ渡す．応答生成サーバでは各種サービスAPIを利用して応答に必要な情報を取得して応答文を完成し，さらに音声合成サーバを利用して応答文の読み上げ用韻律情報を付与して，クライアントへ返信する．クライアントでは応答結果を表示するとともに，音声合成で応答文を読み上げる． 3.3 音声認識結果テキストからの意味理解処理発話意図ごとにあらかじめ用意した句パターンと大規模な固有名辞書などを組み合わせて，音声認識結果テキストとパターンマッチすることによって，発話意図の判別と変数情報の抽出を同時に行っている．機械学習による意図判別などと比べると，パターンの追加・削除がインクリメンタルに可能であり，例外的な発話や雑談表現への対応もやりやすいというメリットがある． 3.4 複数発話にわたる文脈情報の扱い上述のような発話単位の処理において，複数の連続発話にわたる文脈情報を意味理解に利用するために，クライアントは過去数文の意味理解の結果をキャッシュしておき，それらを現発話の音声認識結果に添付して意味理解サーバへ送信している．これにより「品川から六本木まで」という発話の次に「到着は何時？」と発話した場合に，直前発話の発話意図分類(路線探索)や変数情報(出発・到着駅)などを文脈として参照しながら意味理解処理を行っている． 3.5 雑談上述のような目的志向型の対話に加えて，ユーザを楽しませる簡単な雑談に対する応答にも力を入れている．雑談には挨拶，ボットの属性をたずねる会話(誕生日，性別，年齢，好きなもの，...)，ボットにお願いする会話(つきあって，友達になって，励まして，面白いこと言って)，相づち，体調や心情を吐露する会話(眠い，疲れた，お腹すいた)，ボットの能力や反応を試す会話(足し算をさせる，好き・嫌いと言ってみる)など，さまざまな対話が含まれる．あらかじめ想定した雑談パターンを限定的に用いて，それら以外の発話に対しては「分かりません」と答える，一律にランダムな回答をする，ウェブ検索に誘導する，などを多用してしまうと対話の楽しさを大きく削いでしまう．そのため多少の誤りは許容しても，さまざまな回答ができるよう工夫している．

4. おわりに

本稿ではモバイル音声対話アプリケーション「音声アシスト」と，その音声認識プラットフォームYJVOICE，自然言語対話処理技術について紹介した．今後は普及が加速するスマートフォンに加えて，より多様なモバイルデバイスの出現が予想される．さまざまなモバイルシーンでユーザに情報サービスを提供するためには，音声認識ではとくにハンズフリーにおける性能改善が重要な技術課題と考えている．また自然言語意味理解ではさまざまな応用場面に適用するためのドメイン適応や知識管理技術の開発が望まれている．ユーザの課題解決を支援する最も自然なインターフェースとして「音声アシスト」を今後さらに発展させていきたいと考えている．参考文献

[1] M.Schuster, K.Nakajima, “Japanese and Korean Voice Search,” in ICASSP 2012.

[2] J.R.Bellegarda, “Large-Scale Personal Assistant Tech-nology Deployment: The Siri Experience,” in

Inter-Speech 2013. [3] 吉村健, “しゃべってコンシェルと言語処理,”情報処理学会研究報告, vol.2012-SLP-93, No.4. [4] 音声検索 (iOS 用), 入手先 ⟨http://visseeker2.yahoo-labs.jp/voicesearch/⟩ [5] 音声アシストfor Android, 入手先⟨http://v-assist.yahoo.co.jp⟩

(6)

図5 音声アシストの利用例

[6] Hadoop,入手先_{⟨http://hadoop.apache.org⟩}

[7] K.Iso, E.Whittaker, T.Emori, J.Miyake, “Improvements in Japanese Voice Search,” in InterSpeech 2012. [8] C.Allauzen et al.,“A generalized construction of

inte-grated speech recognition transducers,” in ICASSP, 2004.

[9] P.A.Chou et al., “Entropy-Constrained Vector Quanti-zation,” IEEE Trans. ASSP, vol.37, pp. 31-42, 1989. [10] D.Caseiro, “WFST Compression for Automatic Speech

Recognition,” in InterSpeech, 2010.

[11] D.Moore et al., “Juicer: A Weighted Finite-State Trans-ducer speech decoder,” in MLMI, 2006.

[12] A.Lee et al., “Recent Development of Open-Source Speech Recognition Engine Julius,” in APSIPA, 2009. [13] A.Serralheiro et al., “Towards a Repository of Digital

Talking Books,” in EuroSpeech, 2003.

[14] J.Schalkwyk et al., “Speech Recognition with Dynamic Grammars Using Finite-State Transducers,” in

Eu-roSpeech, 2003.

[15] C.Allauzen et al, “A Generalized Composition Algo-rithm for Weighted Finite-State Transducers,” in

Inter-Speech, 2009.

[16] L.Mangu et al., “Finding Consensus in Speech Recog-nition : Word Error Minimization and Other Applica-tions of Confusion Networks,” Computer Speech and Language, vol.14, no.4, pp.373-400, 2000.

[17] D.Hakkani-Tur et al., “Beyond ASR 1-best: Using word confusion networks in spoken language understanding,” Computer Speech and Language, vol.20, no.4, pp.495-514, 2006.

IPSJ SIG Technical Report Vol.2013-SLP-98 No /10/25 1,a) 1 ( Q&A ) ( ) YJVOICE Development of speech recognition and natural language processing

「音声アシスト」の音声認識と自然言語処理の開発

磯 健一

颯々野 学

Development of speech recognition and natural language processing for

ONSEI Assist service

1.

はじめに

2.

音声認識プラットフォーム YJVOICE

3.

音声アシスト

4.

おわりに

磯健一

_{颯々野学}