• 検索結果がありません。

アウトライン 字幕付与と音声認識 字幕作成システム 音声認識の構成 コーパス ( 主に言語モデルについて ) 自動整形 コーパス システムの利用例 リアルタイムの字幕作成 2

N/A
N/A
Protected

Academic year: 2021

シェア "アウトライン 字幕付与と音声認識 字幕作成システム 音声認識の構成 コーパス ( 主に言語モデルについて ) 自動整形 コーパス システムの利用例 リアルタイムの字幕作成 2"

Copied!
49
0
0

読み込み中.... (全文を見る)

全文

(1)

講演・講義の音声認識と

字幕作成へのコーパスの活用

(2)

アウトライン

• 字幕付与と音声認識

• 字幕作成システム

– 音声認識の構成  コーパス (主に言語モデルについて) – 自動整形  コーパス – システムの利用例

• リアルタイムの字幕作成

(3)

言語資源

• 本研究における関連の言語資源

– 日本語話し言葉コーパス(CSJ)

– 現代日本語書き言葉均衡コーパス(BCCWJ) – Unidic

(4)

はじめに

• 音声・映像コンテンツを公開する取り組み

– 大学のオープンコースウェア(OCW),MOOC – 講演アーカイブ(TEDなど)

• 視聴支援のための字幕付与

– 聴覚障碍者等の補助,専門的内容の理解の支援 – 一部のOCWやTED講演には付与されている – 書き起こし+同期作業に(熟練した)人手が必要

(5)

音声認識の導入

• 音声認識を字幕作成に導入することで

– 短時間にすべて書き起こすことができる – 専門用語も(事前の適応・登録により)認識できる – 同期(タイミング)を自動的に推定できる

• 講演・講義の音声認識の取り組み

– 講演(CSJ):80%超の精度[Masumura 15] – 大学講義(たとえば[Glass 07][Wiesler 14]など) Cf. リアルタイムの音声認識字幕(ノートテイク) [Cerva 12][Ranchal 13][桑原 14]

(6)

音声認識を用いた字幕付与

• 事後的な書き起こしシステム

– (商用)ディクテーションソフトウェア – YouTube,PodCastle [緒方10]など – 各種クラウド

• リアルタイムのシステム

– UDtalk – こえとら

• 講演・講義のような専門的な内容をカバーする

ことは難しく,精度が十分とは限らない

コミュニケーションを支援

(7)

提案システム

• 講義・講演の字幕作成で求められる機能

– 音声認識器が専門的な内容をカバーできる – 字幕の出力単位やタイミングを容易に調整できる

• 字幕に特化した作成・編集システムを開発

– オンラインでサーバにデータを登録 – 音声認識のモデルを選択・適応して草稿作成 – 字幕用に設計されたエディタで編集

(8)
(9)

(伝統的な)音声認識

• 認識対象の音響的・言語的特徴をモデル化  性能(書き起こせる内容)はモデルで決まる • モデルを用いて文の仮説を生成し,最良の仮説を 出力するのがデコーダ デコーダ(音声認識器) 音響モデル | 言語モデル 発音 辞書 音声特徴量 認識結果 /a/  /i/  /u/  /e/  /o/ /k/  /s/  /t/  /n/  /h/ … だが d a g a 断る k o t o w a r u … 0.100 だが しかし 0.750  だが 断る … ) ( ) | ( max arg ˆ P X W P W W W

(10)

音響モデル

• 音韻単位のスペクトル(などの)特徴を表す

– たとえば音素( /a/ /i/ /u/ …)と音声特徴量のマッチの 度合い – 特徴量は,典型的には音声のスペクトル成分 – 隠れマルコフモデル(HMM)で時間的な遷移を表現 – ディープニューラルネットワーク(DNN)による拡張

• 数十~数千時間の音声で学習される

– 環境・機器・話者などにより音響特性が異なる  できるだけ認識対象に近い音声で学習

(11)

言語モデル

• 単語の出現・連接の制約を定める

• 伝統的には統計的言語モデル(N‐gramモデル)

– 直前のN‐1単語(文脈)から次の単語を確率的に予測 – たとえばN=3(3‐gram, trigram)の場合

• N‐gramと確率は大量の学習テキストから推定

– 話題やスタイルが認識対象と適合したテキストで 学習しないと,適切な語彙や文脈を獲得できない – 話題に関する(少量の)テキストで適応を行う

    L i i i i w w w P W P 1 2 1 ) | ( ) ( Ww1w2 wL

(12)

発音辞書(単語辞書,発音モデル)

• 単語の発音を定める

– 発音の単位は音響モデルで定められた音韻単位 – 確率を付与することもある(次の例は対数確率)

• 辞書にない単語は,認識することができない

– 認識させたい単語は,少なくとも単語辞書には 登録しておく必要がある – ただしN‐gramの文脈は最適にはならない 神奈川/カナガワ @‐0.0644 k a n a g a w a 神奈川/カナガワ @‐0.8605 k a n a g a:

(13)
(14)

字幕作成システム

(15)

システムのあらまし

字幕サーバ 利用者 ダウンロード (ブラウザベース) エディタ アップロード 音声チェック 音声認識セットアップ 音声認識・自動整形 音声・映像 関連文書 字幕 音声 - 音声の聴取 - 字幕・時刻の編集 - オンライン更新 随時更新 ①コンテンツに加えて 関連のスライド・予稿等を アップロード(任意) ②データ 品質を チェック ③言語モデル を適応(任意)  音声認識 ④自動整形の上 字幕を生成 ⑤エディタを ダウンロード ⑥ブラウザ上で 聴取・編集作業

(16)

コンテンツの登録

• 受理可能なコンテンツ

– 音声(WAV・MP3等) – 映像(MPEG・WMV等) – テキスト(Text・PDF・Word・PowerPoint)  テキスト部分を抽出

• 品質チェック

– 音声:ビットレート・スペクトル・S/N比 – テキスト  WAV抽出 (16kHz・16bit・モノラル)

(17)

音声区間の分割

• BICに基づく自動音声分割

– 話者区間ごとに処理するため – 各区間をニューラルネットワークで状態占有確率 の系列に変換(GPU使用)

• 音声認識器Juliusの逐次デコーディング機能

により話者区間をさらに無音で分割

(18)

モデルのプロファイル

• コンテンツ登録時にプロファイルを選択

• そのプロファイルのモデルで音声認識

プロファイル 講演 スピーチ 討論 一般 (予定) 学習データ CSJ CSJ +放送大 学データ 国会音声・ 会議録 BCCWJ, CSJ +JNAS 音響モデル DNN‐HMM 言語モデル 単語Trigram

(19)

CSJ言語モデルの構築

• CSJの

学会・模擬講演データ

を使用

– 計2,702講演,768万単語(形態素)  ポーズ含む – 出現回数が1回のみの単語はカット (50,433種類  36,665種類)

• 単語Trigramモデルをオーソドックスに統計学習

) ( ) ( ) | ( 1 2 1 2 1 2        i i i i i i i i w w C w w w C w w w P 出現回数

(20)

CSJテキストの処理(1)

• 転記テキストからテキストを抽出

• ポーズの挿入

– 転記テキストのタイムスタンプから計算 – 長短に分ける(句読点で示す) えーっと ※ ということで えー 。 発表します。 えー 私共は。 乳児が音楽をどのように聞いているか、また聴取に発達齢差が 見られるかを検討しております、本研究では旋律の調つまり長 調ですとか短調の変化の、聞き分けに着目して、実験を通して えー 知見を得ましたので報告したいと思います。

(21)

CSJテキストの処理(2)

• テキストの処理

– 前処理(Unidic付属ツール) – 形態素解析(Unidicでやり直し)  短単位 – 後処理(解析エラーの修正や表記の変更) えー+エー+41 私+{ワタク/ワタ/アタ}シ+1 共+{ト/ド}モ+47 は+ワ+5 <sil> 乳児+ニュージ+30 が+ガ+8 音楽+{オンガク/オンガッ}+30+オ+8 どの+ドノ+65 よう+ヨー+39 に+ニ+だ+3 聞い+キー+聞く+12 て+テ+7 いる+イル+いる+13 か+カ+6 <sp> また+マタ+53 聴取+チョーシュ+28 に+ニ+8 発達+ハッタツ+28 +レー+47 差+サ+30 が+ガ+8

(22)

言語モデル適応

• 講演に関する適応用テキストがある場合

– 全く同じようにテキストを処理(Unidic使用) – 適応用テキストを重み付け (総単語数がCSJに対して一定割合になるよう 単語の出現回数をスケーリング) – 適応用テキストの単語はカットしない

• CSJと合わせて統計学習

(23)

BCCWJ言語モデル

• BCCWJによるモデルは,Juliusディクテーション

キットに含めて配布中

(字幕システムにも導入予定)

http://julius.osdn.jp/

• 書き言葉コーパスによるモデルながら,

話し言葉の音声認識もできることがある

(24)

BCCWJモデルの構築

• BCCWJの

全データ

を使用

– 計1億単語(形態素) – 出現回数が40回以下の単語はカット (307,616種類  59,084種類)

• 単語Trigramモデルを学習

• BCCWJで与えられている読みから発音辞書を

確率的に構成

(25)

BCCWJテキスト

• TSV形式のデータファイルから,各単語とその

品詞(大分類)を抽出

• 読みも抽出して,発音辞書に使用

警察+名詞 メディア+名詞 が+助詞 成立+名詞 する+動詞 無尽+ 名詞 蔵+接尾辞 殺人+名詞 事件+名詞 と+助詞 フォーカス+名詞 週刊+名詞 文春+名詞 無尽+名詞 蔵+接尾辞 殺人+名詞 事件+ 名詞 なる+助動詞 もの+名詞 が+助詞 ある+動詞 ある+動詞 と+助詞 いう+動詞 より+助詞 は+助詞 、+補助記号 無理矢理+副詞 に+助詞 あら+動詞 しめ+助動詞 られ+助動詞 て +助詞 いる+動詞 …

(26)

BCCWJテキストの前処理

• BCCWJは多様な文書の集合なので,テキストの

表記をできるだけ(プログラムで)そろえる

– 数字を漢数字に,英単語はカタカナに – カナ単語の一部をひらがなに (感動詞・副詞・形容詞・形状詞・代名詞・助詞・ 助動詞・連体詞・接続詞) – カタカナ語の語末長音は原則としてのばす – 拗音などの「ぁぃぅぇぉゃゅょっ」は小文字に

(27)

自動整形

• 話し言葉表現の削除・修正 [Neubig 12]

– フィラー・口語表現・文末表現など – 話し言葉と書き言葉のパラレルコーパスから変換 (WFST)モデルを学習して適用

• 句読点の自動挿入 [秋田13]

– 複数のアノテータによる句読点ラベルをCSJに付与 – CRFでモデル化して挿入位置を推定

(28)

自動整形の例

でこれらの二つの 汲みや能力を組み合わせますと iPS細胞を大量に増やした後で そこから神経や筋肉の細胞を作り出す大量に作り出すことが できますので様々な人間の体の細胞を大量に 準備できるそういう可能性のある細胞であります 音声認識結果 で、これらの二つの汲みや能力を組み合わせますと、iPS細胞を 大量に増やした後で、そこから神経や筋肉の細胞を作り出す大 量に作り出すことができます。 様々な人間の体の細胞を大量に準備できるそういう可能性のあ る細胞であります。 自動整形結果

(29)

CSJの整形

• 「コア」199講演の書き起こしに整形タグを付与

– 削除(DL)・挿入(IN)・置換(RP) – CSJのフィラータグ(F)も削除と見なす

• 一次整形,文末整形を実施

• 書き起こしと整形文でパラレルコーパスを構成

<DL>で</DL> この よう な エコーロケーション 機能 は 例えば 船 や 潜水 艦 あるいは 自動 ドアー と いっ た <DL>ところ に</DL> <RP cw="色々な"> 色んな</RP> ところ で 用い られ て おり ます <DL>で</DL> (F えー) ネット の 後ろ に マイクロホン を 置き (F え) マイクロホン は 四 分 の 一 インチ コンデンサー マイクロホン <IN cw=“を”></IN> 用い て (F えー) カット オフ 周波 数 六十 キロヘルツ の ハイパス フィルター を 通し

(30)

句読点のアノテーション

• コア講演(学会講演70・模擬講演107)に実施

– 整形したテキストをアノテーション – 合計365,305単語

• プロの速記者3名がそれぞれ独立に付与

– アノテータA・B・C – 作業の際に音声は聴取していない

(31)

句読点アノテーションの統計

• 句点の数はアノテータによらずほぼ同等

(97%が一致)

• 読点の数はアノテータにより大きく異なる

– 全員に共通する読点は15,027個 (A:51%, B:64%, C:76%) – 単一のアノテータのみによる読点 (A:20%, B:8%, C:7%)

• 本システムでは多数決に

より使用する句読点を決定

6,015 15,027 2,678 5,673 816 1,855 1,333 A B C

(32)

字幕生成

• 自動整形結果を字幕ファイルとして出力

– RealText, SAMI, SRT – 音声認識で得られる単語の時刻を表示の タイミングに利用 – サーバ上に保存され,インターネットから アクセス可能

• 人手による字幕テキストを同期することも

可能 [秋田13]

(33)

字幕の自動アライメント

• 字幕のテキストがすでにある場合

– 音声認識結果は(字幕としては)不要 – 音声と所与のテキストの時間同期のみを行いたい

• 音声認識に基づく字幕のアライメント(同期)

– 認識結果と字幕テキストを文字単位でアライメント 認識した単語の時刻を字幕テキストに付与 – アライメントできない部分は前後の時刻から補間

(34)

字幕エディタ

• ブラウザベースで利用 – Javaによる実装 マルチプラットフォーム – サーバ上の字幕・音声データをオンデマンドで取得・更新  作業の場所を問わない • 字幕に特化した環境 – 音声再生と同期した表示 – 行操作でタイミングを自動推定 – 再生速度の変更(プレビュー用) • オフラインのアプリケーション としても利用可能

(35)
(36)

本システムの利用例

• 放送大学 放送授業の字幕付き配信

[河原 16]

• 政策研究大学院大学

比較議会情報プロジェクト

国会審議映像検索システム[鈴木 14]

http://gclip1.grips.ac.jp/video/

(37)

放送講義における字幕作成

• 実際の講義音声で字幕作成の効率を測定

– 放送大学ラジオ講義(45分×計27回) – 教科書と台本(ただし完全ではない)が利用可能 – 字幕サーバ・エディタにより字幕を作成 – 作業者は1名(専門家ではない) 科目名 回数 文字 正解率 編集時間 確認時間 合計作業 時間 実時間 比 リスク社会の ライフデザイン 12 88.5% 3時間46分 46分 4時間33分 6.1 心理臨床の 基礎 15 90.8% 3時間16分 40分 3時間56分 5.2

(38)

文字正解率と編集時間の相関 (1/2)

y = ‐106.96x + 105.3 R² = 0.5327 78 80 82 84 86 88 90 92 94 96 1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00 文字正解率( % ) リスク社会の ライフデザイン 人手では約4時間[長妻 12]

(39)

文字正解率と編集時間の相関 (2/2)

y = ‐134.91x + 109.1 R² = 0.6089 78 80 82 84 86 88 90 92 94 96 1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00 文字正解率( % ) 編集時間 心理臨床の基礎 人手では約4時間[長妻 12] 文字正解率87%以上で 人手よりも効率的

(40)
(41)

リアルタイム字幕の課題

• 講義や講演における文字の情報保障

– 手書きノートテイク – PC要約筆記

• 音声認識により負担の軽減を目指す

– 少ない(1人の)作業者で行える – 情報保障の機会を拡大 長時間作業できない  複数の作業者が必要

(42)

音声認識を用いたノートテイクの提案

• 字幕作成サーバによる音声認識

– (ネットワークさえあれば)場所を問わない – 講義・講演の資料を用いて言語モデルを適応

• 要約筆記ソフトウェアIPtalkによる編集・表示

– 実際のPC要約筆記で広く用いられている – 作業者の連携入力に代えて音声認識結果を入力 – スクリーンへの表示,Webによる配信

(43)

字幕作成システム

字幕サーバ (京大) 作業者端末 (会場) 講師 音声 認識結果 Adintool Julius2IPtalk IPtalk Julius +音響・ 言語モデル 字幕 インターネット (LAN or 4G)

(44)

システムの運用

• 音声入力

– AAC:会場のマイク(PA)を利用 – SLP:独自マイクを利用

• 音声認識用のモデル

– CSJを利用 – 予稿・スライド・インターネット上の資料で適応

• 後処理・編集

– フィラーの自動削除,句点の(一部)自動挿入 – IPtalkで編集して字幕出力

(45)

実施事例

• 音声認識を用いたリアルタイム字幕付与を

研究会の講演で実施

– 情報処理学会 アクセシビリティ研究会(AAC) – 情報処理学会 音声言語情報処理研究会(SLP)

• 京都大学のシンポジウムでも実施

• 作業者の都合で,一部の講演(セッション)のみ

(46)

字幕の作成例

• AACシンポジウム(2016年2月)

• 講演3件(計2時間8分)に対して作業者1名

• 統計

– 音声認識文字数: 33,697 – 字幕送出文字数: 32,601 (100%) – 編集文字数: 5,116 (16%) うち 置換 1,190 (3.7%) 挿入 1,415 (4.3%) 削除 2,511 (7.7%)

• 1分あたり平均40文字の編集

• 字幕の92%は音声認識結果をそのまま出力

(ただし精度は不明)

(47)

まとめ

• 音声認識による字幕付与

– コンテンツに対する事後的な付与 – リアルタイム字幕

• CSJなどのコーパスを活用

– 言語モデル構築 – アノテーションを加えて自動整形に利用

(48)

謝辞

• CSJ・BCCWJ・Unidicなどの言語資源の構築・

公開に携わった皆様に感謝申し上げます

• 放送大学のデータは広瀬洋子先生から

ご提供いただきました

• リアルタイム字幕ではAAC・SLP研究会の

幹事・委員の皆様にご協力いただきました

(49)

謝辞

• 一連の研究は,京都大学 河原達也先生の

もとで実施しました

• また,次の各氏の研究成果です

– 三村 正人氏 (音響モデル他) – Dr. Graham Neubig (自動整形) – 須見 康平氏 (音声検出) – 渡邉 真人氏 (自動整形)

参照

関連したドキュメント

[形態コード P117~] [性状 P110~] [分化度 P112~]. 形態コード

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察

C =&gt;/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

本稿 は昭和56年度文部省科学研究費 ・奨励

6 Scene segmentation results by automatic speech recognition (Comparison of ICA and TF-IDF). 認できた. TF-IDF を用いて DP

音節の外側に解放されることがない】)。ところがこ