音声認識技術を利用したパナソニックの提案

全文

(1)情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2014-SLP-103 No.4 2014/10/24. 音声認識技術を利用したパナソニックの提案 中村信彦†1 概要:. パナソニックでは、字幕制作システム、データ放送システムの開発を通じて蓄積したノウハウを活かし、 放送局だけでなく他業界への提案と取組みを発表する。. 1. はじめに パナソニックでは、NHK様にて開発した音声認識エン ジンをコアにして、生字幕制作システム、ニュース字幕制. (1) 字幕とデータ放送の連携 字幕放送は視聴者にとって番組を楽しむ為の補助的な 機能として満足度も高いが、視聴者の観点で大きく二つの 課題があると考える。. 作システムを開発・納入し、字幕制作に関する運用ノウハ. 課題の一つ目は、テロップが表示されている映像に重ね. ウを蓄積してきた。近年、音声認識の実用化によって、音. て字幕表示される場合があり、映像の状態によっては番組. 声を文字で伝えるだけでなく、キー入力を補完する手段の. の視認性に欠ける場合がある。(図 1). 位置付けで、音声認識が活用出来るケースが増加している。 例えば、音声によるキー操作の簡素化や情報提供の自動化 などであり、利用範囲は今後も広がると予想される。 パナソニックの音声認識を使ったソリューションでは、 音声を字幕に変換して提供する字幕放送がある。音声を字 幕として提供する目的は、単に難聴者への情報提供だけで なく、時と場所によって音声出力が出来ない場面での字幕 活用が有効であり、すべての人々にも十分な利用価値があ ると考える。 従って、潜在的には非常に大きなニーズがあると考えて おり、放送局による字幕放送はもちろんの事、ホールでの 講演字幕、公共施設、病院など音声が出せない所や複数の. 図 1. 視認性の課題1(NHK 総合 18:00 ニュースより). モニタが近接で設置している箇所、大勢の人々が集まる駅 やバス停、ビルなどのデジタルサイネージなどに有効な字. また、データ放送表示中の字幕表示では画面上に重ねて表. 幕を提供する場面は多いと考える。. 示されるため、視認性に欠ける場合がある。(図 2). また、音声がテキスト化される為、特定のキーワードを システムが認識する事で対話的なシステムや、エンターテ イメント性の高いコンテンツ、案内情報提供が可能となる。 パナソニックは、すべての人々により優しく、より快適 で、より楽しいソリューションを提案する。. 2. システム提案 パナソニックが考える音声認識を利用したシステムに ついて以下に述べる。. 図 2. 視認性の課題2(NHK 総合 18:00 ニュースより). †1 パナソニックシステムネットワークス(株)インフラシステム事業部. ⓒ2014 Information Processing Society of Japan. 1.

(2) 情報処理学会研究報告 IPSJ SIG Technical Report 二つ目は、生番組での発話者の音声と字幕の同期性にお. Vol.2014-SLP-103 No.4 2014/10/24. するだけで、簡単に字幕や多彩な情報提供を可能にする。. いて、字幕の方が 8 秒程度の遅れが発生するため、場合に よっては違和感が出る場合がある。 パナソニックは、この二つの課題を改善するために、字 幕とデータ放送を連携させ、映像と干渉せず、遅延が少な い字幕表示を実現する。データ放送を用いる事で、自由且 つ多彩な演出やレイアウトで字幕表現が可能であり、映像 と干渉せず、見やすい字幕を提供できる。(図 3). 図 4. 図 3. 講演字幕. 字幕放送サンプル. 字幕とデータ放送の連携サンプル 図 5. 講演字幕. 講演スケジュール案内サンプル. また、音声認識にて生成した字幕データをデータ放送の イベントメッセージで送出する事で高速で字幕表示させる 事で、音声と字幕の同期性を改善する事が可能である。. (3) 館内案内などでの利用 商業施設や公共施設など人が集まる場所での案内は、音. 上述の通り、パナソニックでは、データ放送、字幕制作. 声による館内放送が主流である。近年、地球温暖化の影響. の豊富なノウハウから最適なシステムを提案可能である。. もあり日本全土で発生する災害は、大規模化、多様化して きている。また、東日本大震災以降、今一度、自然災害発. (2) 学校・講演などでの利用 学校、塾、予備校での授業や、会議場、ホールなどでの 講演、発表会の場で音声認識を利用した字幕サービスを提 案する。 学校などの教育現場では、先生や講師の音声を字幕で提 供する事で難聴者への理解度を高める事ができる。. 生後の迅速な状況伝達、避難誘導の関心は非常に高いとい える。 現在の館内放送は、館内の場所によっては、音声が響く 場合があるため、放送内容が聞き取れない可能性がある。 また、高齢者に対しても放送内容が十分に伝わらない可能 性もある。. ホールや会議場で行う講演会、発表会では、ホール内の. パナソニックでは、商業施設、公共施設に対し、現状の. 発表者の声の響きや、座席位置によっては適切な音量が届. 音声放送、館内映像の提供のほか、避難案内/誘導、迷子. かないなどの理由により聴き取れない可能性がある。また、. 案内など、あらゆる案内放送で音声認識を利用した字幕情. ホール内が満席の場合、ホール外で講演内容を提供する場. 報を提案する。これにより、音声、文字、映像の三つの情. 面が出てくる。講演では、予め原稿をまとめ、その原稿を. 報で放送内容を迅速且つ正確に伝える事が可能となる。. 発表する場合が多く、この原稿を音声認識の言語モデルに. 例えば、商業施設の一つのシチュエーションを紹介する。. 事前登録する事で認識率を高め、誤りの無い字幕を提供す. 通常は、環境映像や館内の非常口案内(図 6,7)を表示し、. る事が出来る。また、講演字幕だけでなく、講演のスケジ. 迷子などが発生すると画面、音声以外に字幕で情報提供を. ュール、非常口案内など、多彩な情報提供も可能である。. 行う。(図 8). (図 4,図 5) パナソニックでは、館内の共聴設備とデータ放送を連携 する事で、館内に敷設している同軸ラインにテレビを接続. ⓒ2014 Information Processing Society of Japan. 字幕はデータ放送のしくみを利用して表示するため、デ ータ放送コンテンツによって、文字の大きさ、色、表示位 置、表示時間は自由に設定できる。. 2.

(3) 情報処理学会研究報告 IPSJ SIG Technical Report. 図 6. 図 7. 館内案内. 館内案内. Vol.2014-SLP-103 No.4 2014/10/24. 図 9. 避難案内. 避難待機案内サンプル. 図 10. 避難案内. 避難誘導案内サンプル. 字幕放送サンプル1. 字幕放送サンプル2. 迷子案内、避難案内への画面切替えトリガは、現状では、 端末操作、センサー検知にて画面切替えを行う。. 迷子案内は、字幕以外にもお子様の写真を撮って画面に. スタッフによっては、緊急事態発生中は、平常心での操. 貼り付ける事で、より認識度、注目度が向上する。. 作が出来ない場合もあり、結果的に避難誘導が遅れるリス. しかし、顔入り写真などは、プライバシーの配慮が必要に. クを懸念するお客様もいる。パナソニックでは、各画面へ. なる。(図 8). の切替えを音声認識で行う事を検討している。緊急事態で 放送するスタッフの音声を音声認識させ、特定のキーワー ドを検知すると、キーワードにひもづく避難画面や迷子案 内へ遷移させる。これにより、迅速な案内が可能となる。 しかし、音声認識をトリガにした画面切替えは、認識率 や運用面で課題があり、今後も実用化に向けた研究が必要 と考える。 (4) 検索端末などでの利用 書籍、CD・DVD の販売店、図書館、レンタル店など、 多数の商品から必要な商品を検索する検索端末を店舗で見. 図 8. 迷子案内. 字幕放送サンプル. かける。これらの端末は、検索する商品名などをキー入力 する形で検索を行う為、入力操作が手間となる。また、あ. また、緊急事態が発生した場合、緊急事態をスタッフが. いまい検索として「泣ける映画」という画面上のボタンを. 確認するフェーズと、状況判断の上、避難誘導するフェー. 押下する事で該当商品を検索する機能もあるが、あいまい. ズがある。それぞれのフェーズに適した画面表示、音声に. 検索の種類を多くすると、そのボタンを探す手間がかかる. 加え、音声認識による字幕を表示する。(図 9,10). ようになる。. 避難案内への画面への遷移は、館内のセンサーから異常. 欲しい商品をいかに適切に提供するか、欲しい商品とは. を検知すると、センサーにひもづくフロアを特定して異常. 別の商品にも目を向けてもらい、新しい発見と感動をいか. 検知したフロアと上下フロアに設置したテレビに対して避. に体験させるかが、パナソニックが目指す提案である。. 難案内をする事が出来る。. ⓒ2014 Information Processing Society of Japan. この提案を実現するための一つとして、音声認識を使用. 3.

(4) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2014-SLP-103 No.4 2014/10/24. して検索したい特定の商品名はもちろんの事、 「怖い映画が. ておき、マイクから「めくって〇〇」と発話すると、その. 見たい」 「お笑いが見たい」など、あいまいなキーワードを. 音声にひもづくパネルがめくられるしくみとなっている。. もとに該当する商品をピックアップする事を検討中である。 例えば、検察端末を使用していない場合、商品説明、映 画予告などの映像やランキング情報などを表示する。 (図 11). 図 13 図 11. 検索端末. 未使用時の画面サンプル. 操作端末には、マイクを設置しておき、そこから検索し. パズルゲーム画面1. パネルがめくられると、外れか当たりを示すバナーが表 示され、連続当たりで画面下部に表示するキーワードが出 現するようになっている。(図 14). たい商品名、キーワードを発話する。発話した音声は音声 認識によってテキスト化し、商品データベースから適切な 商品情報を提供する。(図 12). 図 12. 検索端末. 検索時の画面サンプル. 更には、検索する発話者の声、顔認識によって、性別、 年齢層、利用時間、検索したキーワードなどを蓄積すれば、. 図 14. パズルゲーム画面2. このように企業の広告にひも付けて、このようなコンテ ンツを提供する事で、その企業広告に長く触れている事に なり、視聴者への広告効果が高まると考える。. お客様の戦略に大きく貢献出来ると考える。. 3. むすび (5) ゲーム性のある新しいデータ放送の利用 現在、各放送局では、商品プレゼントがある視聴者参加 型のゲームを提供しており好評を得ている。 パナソニックは、音声認識を字幕制作で利用しているが、 音声認識したキーワードとデータ放送コンテンツが連携し. パナソニックでは、音声認識を字幕制作だけでなく、あ らゆる方面で利用出来ると考える。今後、音声認識の認識 率向上、音声認識させるための言語モデルの準備コスト低 減などの課題に取り組みつつ、すべての人々により優しく、 より快適で、より楽しいソリューション提案を追求する。. た新しいエンターテイメント性を持ったコンテンツを提案 する。例えば、番組出演者がクイズ番組の選択問題などで、 選択肢によってデータ放送コンテンツの画面を挙動させる 事が可能となる。また、スポーツ番組では、「ホームラン」 「三振」 「アウト」などキーワードにひも付けてデータ放送 画面を挙動させる事も可能である。 放送局以外でも、サイネージと音声入力による音声認識 を連携させ、ゲーム性を持った効果的な広告が提供出来る と考える。一例として、このイメージをパズルゲームとし て説明する。 このパズルゲームは、画面上にパネルを表示(図 13)し. ⓒ2014 Information Processing Society of Japan. 4.

(5)

Updating...

参照

Updating...

関連した話題 :

Scan and read on 1LIB APP