アウトライン字幕付与と音声認識字幕作成システム音声認識の構成コーパス ( 主に言語モデルについて ) 自動整形コーパスシステムの利用例リアルタイムの字幕作成 2

(1)

講演・講義の音声認識と

字幕作成へのコーパスの活用

(2)

アウトライン

• 字幕付与と音声認識

• 字幕作成システム

– 音声認識の構成  コーパス（主に言語モデルについて） – 自動整形  コーパス – システムの利用例

• リアルタイムの字幕作成

(3)

言語資源

• 本研究における関連の言語資源

– 日本語話し言葉コーパス（CSJ）

– 現代日本語書き言葉均衡コーパス（BCCWJ） – Unidic

(4)

はじめに

• 音声・映像コンテンツを公開する取り組み

– 大学のオープンコースウェア（OCW），MOOC – 講演アーカイブ（TEDなど）

• 視聴支援のための字幕付与

– 聴覚障碍者等の補助，専門的内容の理解の支援 – 一部のOCWやTED講演には付与されている – 書き起こし＋同期作業に（熟練した）人手が必要

(5)

音声認識の導入

• 音声認識を字幕作成に導入することで

– 短時間にすべて書き起こすことができる – 専門用語も（事前の適応・登録により）認識できる – 同期（タイミング）を自動的に推定できる

• 講演・講義の音声認識の取り組み

– 講演（CSJ）：80%超の精度［Masumura 15］ – 大学講義（たとえば［Glass 07］［Wiesler 14］など） Cf. リアルタイムの音声認識字幕（ノートテイク）［Cerva 12］［Ranchal 13］［桑原 14］

(6)

音声認識を用いた字幕付与

• 事後的な書き起こしシステム

– （商用）ディクテーションソフトウェア – YouTube，PodCastle ［緒方10］など – 各種クラウド

• リアルタイムのシステム

– UDtalk – こえとら

• 講演・講義のような専門的な内容をカバーする

ことは難しく，精度が十分とは限らない

コミュニケーションを支援

(7)

提案システム

• 講義・講演の字幕作成で求められる機能

– 音声認識器が専門的な内容をカバーできる – 字幕の出力単位やタイミングを容易に調整できる

• 字幕に特化した作成・編集システムを開発

– オンラインでサーバにデータを登録 – 音声認識のモデルを選択・適応して草稿作成 – 字幕用に設計されたエディタで編集

(8)

(9)

（伝統的な）音声認識

• 認識対象の音響的・言語的特徴をモデル化  性能（書き起こせる内容）はモデルで決まる • モデルを用いて文の仮説を生成し，最良の仮説を出力するのがデコーダデコーダ（音声認識器）音響モデル | 言語モデル発音辞書音声特徴量認識結果 /a/ /i/ /u/ /e/ /o/ /k/ /s/ /t/ /n/ /h/ … だが d a g a 断る k o t o w a r u … 0.100 だがしかし 0.750 だが断る … ) ( ) | ( max arg ˆ _P _X _W _P _W W W  Wˆ

(10)

音響モデル

• 音韻単位のスペクトル（などの）特徴を表す

– たとえば音素（ /a/ /i/ /u/ …）と音声特徴量のマッチの度合い – 特徴量は，典型的には音声のスペクトル成分 – 隠れマルコフモデル（HMM）で時間的な遷移を表現 – ディープニューラルネットワーク（DNN）による拡張

• 数十～数千時間の音声で学習される

– 環境・機器・話者などにより音響特性が異なる  できるだけ認識対象に近い音声で学習

(11)

言語モデル

• 単語の出現・連接の制約を定める

• 伝統的には統計的言語モデル（N‐gramモデル）

– 直前のN‐1単語（文脈）から次の単語を確率的に予測 – たとえばN=3（3‐gram, trigram）の場合

• N‐gramと確率は大量の学習テキストから推定

– 話題やスタイルが認識対象と適合したテキストで学習しないと，適切な語彙や文脈を獲得できない – 話題に関する（少量の）テキストで適応を行う



    L i i i i w w w P W P 1 2 1 ) | ( ) ( W  w₁w₂ _w_L

(12)

発音辞書（単語辞書，発音モデル）

• 単語の発音を定める

– 発音の単位は音響モデルで定められた音韻単位 – 確率を付与することもある（次の例は対数確率）

• 辞書にない単語は，認識することができない

– 認識させたい単語は，少なくとも単語辞書には登録しておく必要がある – ただしN‐gramの文脈は最適にはならない神奈川/カナガワ @‐0.0644 k a n a g a w a 神奈川/カナガワ @‐0.8605 k a n a g a:

(13)

(14)

字幕作成システム

(15)

システムのあらまし

字幕サーバ利用者ダウンロード（ブラウザベース）エディタアップロード音声チェック音声認識セットアップ音声認識・自動整形音声・映像関連文書字幕音声 - 音声の聴取 - 字幕・時刻の編集 - オンライン更新随時更新 ①コンテンツに加えて関連のスライド・予稿等をアップロード（任意） ②データ品質をチェック ③言語モデルを適応（任意）  音声認識 ④自動整形の上字幕を生成 ⑤エディタをダウンロード ⑥ブラウザ上で聴取・編集作業

(16)

コンテンツの登録

• 受理可能なコンテンツ

– 音声（WAV・MP3等） – 映像（MPEG・WMV等） – テキスト（Text・PDF・Word・PowerPoint）  テキスト部分を抽出

• 品質チェック

– 音声：ビットレート・スペクトル・S/N比 – テキスト  WAV抽出（16kHz・16bit・モノラル）

(17)

音声区間の分割

• BICに基づく自動音声分割

– 話者区間ごとに処理するため – 各区間をニューラルネットワークで状態占有確率の系列に変換（GPU使用）

• 音声認識器Juliusの逐次デコーディング機能

により話者区間をさらに無音で分割

(18)

モデルのプロファイル

• コンテンツ登録時にプロファイルを選択

• そのプロファイルのモデルで音声認識

プロファイル講演スピーチ討論一般（予定）学習データ _CSJ CSJ ＋放送大学データ国会音声・会議録 BCCWJ， CSJ ＋JNAS 音響モデル _DNN‐HMM 言語モデル単語Trigram

(19)

CSJ言語モデルの構築

• CSJの

学会・模擬講演データ

を使用

– 計2,702講演，768万単語（形態素）  ポーズ含む – 出現回数が1回のみの単語はカット（50,433種類  36,665種類）

• 単語Trigramモデルをオーソドックスに統計学習

) ( ) ( ) | ( 1 2 1 2 1 2        i i i i i i i i w w C w w w C w w w P 出現回数

(20)

CSJテキストの処理（1）

• 転記テキストからテキストを抽出

• ポーズの挿入

– 転記テキストのタイムスタンプから計算 – 長短に分ける（句読点で示す）えーっと ※ ということでえー。発表します。えー私共は。乳児が音楽をどのように聞いているか、また聴取に発達齢差が見られるかを検討しております、本研究では旋律の調つまり長調ですとか短調の変化の、聞き分けに着目して、実験を通してえー知見を得ましたので報告したいと思います。

(21)

CSJテキストの処理（2）

• テキストの処理

– 前処理（Unidic付属ツール） – 形態素解析（Unidicでやり直し）  短単位 – 後処理（解析エラーの修正や表記の変更）えー_{+エー+41 私+{ワタク/ワタ/アタ}シ+1 共+{ト/ド}モ+47} は+ワ+5 <sil> 乳児_{+ニュージ+30 が+ガ+8 音楽+{オンガク/オンガッ}+30} を_{+オ+8 どの+ドノ+65 よう+ヨー+39 に+ニ+だ+3} 聞い+キー+聞く+12 て+テ+7 いる+イル+いる+13 か+カ+6 <sp> また_{+マタ+53 聴取+チョーシュ+28 に+ニ+8 発達+ハッタツ+28} 齢_{+レー+47 差+サ+30 が+ガ+8} …

(22)

言語モデル適応

• 講演に関する適応用テキストがある場合

– 全く同じようにテキストを処理（Unidic使用） – 適応用テキストを重み付け（総単語数がCSJに対して一定割合になるよう単語の出現回数をスケーリング） – 適応用テキストの単語はカットしない

• CSJと合わせて統計学習

(23)

BCCWJ言語モデル

• BCCWJによるモデルは，Juliusディクテーション

キットに含めて配布中

（字幕システムにも導入予定）

http://julius.osdn.jp/

• 書き言葉コーパスによるモデルながら，

話し言葉の音声認識もできることがある

(24)

BCCWJモデルの構築

• BCCWJの

全データ

を使用

– 計1億単語（形態素） – 出現回数が40回以下の単語はカット（307,616種類  59,084種類）

• 単語Trigramモデルを学習

• BCCWJで与えられている読みから発音辞書を

確率的に構成

(25)

BCCWJテキスト

• TSV形式のデータファイルから，各単語とその

品詞（大分類）を抽出

• 読みも抽出して，発音辞書に使用

警察_{+名詞メディア+名詞が+助詞成立+名詞する+動詞無尽+} 名詞蔵+接尾辞殺人+名詞事件+名詞と+助詞フォーカス+名詞週刊+名詞文春+名詞無尽+名詞蔵+接尾辞殺人+名詞事件+ 名詞なる_{+助動詞もの+名詞が+助詞ある+動詞} ある+動詞と+助詞いう+動詞より+助詞は+助詞、+補助記号無理矢理_{+副詞に+助詞あら+動詞しめ+助動詞られ+助動詞て} +助詞いる+動詞 …

(26)

BCCWJテキストの前処理

• BCCWJは多様な文書の集合なので，テキストの

表記をできるだけ（プログラムで）そろえる

– 数字を漢数字に，英単語はカタカナに – カナ単語の一部をひらがなに（感動詞・副詞・形容詞・形状詞・代名詞・助詞・助動詞・連体詞・接続詞） – カタカナ語の語末長音は原則としてのばす – 拗音などの「ぁぃぅぇぉゃゅょっ」は小文字に

(27)

自動整形

• 話し言葉表現の削除・修正［Neubig 12］

– フィラー・口語表現・文末表現など – 話し言葉と書き言葉のパラレルコーパスから変換（WFST）モデルを学習して適用

• 句読点の自動挿入［秋田13］

– 複数のアノテータによる句読点ラベルをCSJに付与 – CRFでモデル化して挿入位置を推定

(28)

自動整形の例

でこれらの二つの汲みや能力を組み合わせますとｉＰＳ細胞を大量に増やした後でそこから神経や筋肉の細胞を作り出す大量に作り出すことができますので様々な人間の体の細胞を大量に準備できるそういう可能性のある細胞であります音声認識結果で、これらの二つの汲みや能力を組み合わせますと、ｉＰＳ細胞を大量に増やした後で、そこから神経や筋肉の細胞を作り出す大量に作り出すことができます。様々な人間の体の細胞を大量に準備できるそういう可能性のある細胞であります。自動整形結果

(29)

CSJの整形

• 「コア」199講演の書き起こしに整形タグを付与

– 削除（DL）・挿入（IN）・置換（RP） – CSJのフィラータグ（F）も削除と見なす

• 一次整形，文末整形を実施

• 書き起こしと整形文でパラレルコーパスを構成

<DL>で</DL> このようなエコーロケーション機能は例えば船や潜水艦あるいは自動ドアーといった <DL>ところに</DL> <RP cw="色々な"> 色んな</RP> ところで用いられております <DL>で</DL> (F えー) ネットの後ろにマイクロホンを置き (F え) マイクロホンは四分の一インチコンデンサーマイクロホン <IN cw=“を”></IN> 用いて (F えー) カットオフ周波数六十キロヘルツのハイパスフィルターを通し

(30)

句読点のアノテーション

• コア講演（学会講演70・模擬講演107）に実施

– 整形したテキストをアノテーション – 合計365,305単語

• プロの速記者3名がそれぞれ独立に付与

– アノテータA・B・C – 作業の際に音声は聴取していない

(31)

句読点アノテーションの統計

• 句点の数はアノテータによらずほぼ同等

（97%が一致）

• 読点の数はアノテータにより大きく異なる

– 全員に共通する読点は15,027個（A:51%, B:64%, C:76%） – 単一のアノテータのみによる読点（A:20%, B:8%, C:7%）

• 本システムでは多数決に

より使用する句読点を決定

6,015 15,027 2,678 5,673 816 1,855 1,333 A B C

(32)

字幕生成

• 自動整形結果を字幕ファイルとして出力

– RealText, SAMI, SRT – 音声認識で得られる単語の時刻を表示のタイミングに利用 – サーバ上に保存され，インターネットからアクセス可能

• 人手による字幕テキストを同期することも

可能［秋田13］

(33)

字幕の自動アライメント

• 字幕のテキストがすでにある場合

– 音声認識結果は（字幕としては）不要 – 音声と所与のテキストの時間同期のみを行いたい

• 音声認識に基づく字幕のアライメント（同期）

– 認識結果と字幕テキストを文字単位でアライメント 認識した単語の時刻を字幕テキストに付与 – アライメントできない部分は前後の時刻から補間

(34)

字幕エディタ

• ブラウザベースで利用 – Javaによる実装 マルチプラットフォーム – サーバ上の字幕・音声データをオンデマンドで取得・更新  作業の場所を問わない • 字幕に特化した環境 – 音声再生と同期した表示 – 行操作でタイミングを自動推定 – 再生速度の変更（プレビュー用） • オフラインのアプリケーションとしても利用可能

(35)

(36)

本システムの利用例

• 放送大学放送授業の字幕付き配信

［河原 16］

• 政策研究大学院大学

比較議会情報プロジェクト

国会審議映像検索システム［鈴木 14］

http://gclip1.grips.ac.jp/video/

(37)

放送講義における字幕作成

• 実際の講義音声で字幕作成の効率を測定

– 放送大学ラジオ講義（45分×計27回） – 教科書と台本（ただし完全ではない）が利用可能 – 字幕サーバ・エディタにより字幕を作成 – 作業者は1名（専門家ではない）科目名回数文字正解率編集時間確認時間合計作業時間実時間比リスク社会のライフデザイン 12 88.5% 3時間46分 46分 4時間33分 6.1 心理臨床の基礎 15 90.8% 3時間16分 40分 3時間56分 5.2

(38)

文字正解率と編集時間の相関（1/2）

y = ‐106.96x + 105.3 R² = 0.5327 78 80 82 84 86 88 90 92 94 96 1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00 文字正解率（ % ）リスク社会のライフデザイン人手では約4時間［長妻 12］

(39)

文字正解率と編集時間の相関（2/2）

y = ‐134.91x + 109.1 R² = 0.6089 78 80 82 84 86 88 90 92 94 96 1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00 文字正解率（ % ）編集時間心理臨床の基礎人手では約_{4時間［長妻 12］} 文字正解率87%以上で人手よりも効率的

(40)

(41)

リアルタイム字幕の課題

• 講義や講演における文字の情報保障

– 手書きノートテイク – PC要約筆記

• 音声認識により負担の軽減を目指す

– 少ない（1人の）作業者で行える – 情報保障の機会を拡大長時間作業できない  複数の作業者が必要

(42)

音声認識を用いたノートテイクの提案

• 字幕作成サーバによる音声認識

– （ネットワークさえあれば）場所を問わない – 講義・講演の資料を用いて言語モデルを適応

• 要約筆記ソフトウェアIPtalkによる編集・表示

– 実際のPC要約筆記で広く用いられている – 作業者の連携入力に代えて音声認識結果を入力 – スクリーンへの表示，Webによる配信

(43)

字幕作成システム

字幕サーバ（京大）作業者端末（会場）講師音声認識結果 Adintool Julius2IPtalk IPtalk Julius ＋音響・言語モデル字幕インターネット（LAN or 4G）

(44)

システムの運用

• 音声入力

– AAC：会場のマイク（PA）を利用 – SLP：独自マイクを利用

• 音声認識用のモデル

– CSJを利用 – 予稿・スライド・インターネット上の資料で適応

• 後処理・編集

– フィラーの自動削除，句点の（一部）自動挿入 – IPtalkで編集して字幕出力

(45)

実施事例

• 音声認識を用いたリアルタイム字幕付与を

研究会の講演で実施

– 情報処理学会アクセシビリティ研究会（AAC） – 情報処理学会音声言語情報処理研究会（SLP）

• 京都大学のシンポジウムでも実施

• 作業者の都合で，一部の講演（セッション）のみ

(46)

字幕の作成例

• AACシンポジウム（2016年2月）

• 講演3件（計2時間8分）に対して作業者1名

• 統計

– 音声認識文字数： 33,697 – 字幕送出文字数： 32,601 （100%） – 編集文字数： 5,116 （16%）うち置換 _{1,190 （3.7%）} 挿入 _{1,415 （4.3%）} 削除 _{2,511 （7.7%）}

• 1分あたり平均40文字の編集

• 字幕の92%は音声認識結果をそのまま出力

（ただし精度は不明）

(47)

まとめ

• 音声認識による字幕付与

– コンテンツに対する事後的な付与 – リアルタイム字幕

• CSJなどのコーパスを活用

– 言語モデル構築 – アノテーションを加えて自動整形に利用

(48)

謝辞

• CSJ・BCCWJ・Unidicなどの言語資源の構築・

公開に携わった皆様に感謝申し上げます

• 放送大学のデータは広瀬洋子先生から

ご提供いただきました

• リアルタイム字幕ではAAC・SLP研究会の

幹事・委員の皆様にご協力いただきました

(49)

謝辞

• 一連の研究は，京都大学河原達也先生の

もとで実施しました

• また，次の各氏の研究成果です

– 三村正人氏（音響モデル他） – Dr. Graham Neubig （自動整形） – 須見康平氏（音声検出） – 渡邉真人氏（自動整形）

アウトライン 字幕付与と音声認識 字幕作成システム 音声認識の構成 コーパス ( 主に言語モデルについて ) 自動整形 コーパス システムの利用例 リアルタイムの字幕作成 2

講演・講義の音声認識と

字幕作成へのコーパスの活用

アウトライン

• 字幕付与と音声認識

• 字幕作成システム

• リアルタイムの字幕作成

言語資源

• 本研究における関連の言語資源

はじめに

• 音声・映像コンテンツを公開する取り組み

• 視聴支援のための字幕付与

音声認識の導入

• 音声認識を字幕作成に導入することで

• 講演・講義の音声認識の取り組み

音声認識を用いた字幕付与

• 事後的な書き起こしシステム

• リアルタイムのシステム

• 講演・講義のような専門的な内容をカバーする

ことは難しく，精度が十分とは限らない

提案システム

• 講義・講演の字幕作成で求められる機能

• 字幕に特化した作成・編集システムを開発

（伝統的な）音声認識

音響モデル

• 音韻単位のスペクトル（などの）特徴を表す

• 数十～数千時間の音声で学習される

言語モデル

• 単語の出現・連接の制約を定める

• 伝統的には統計的言語モデル（N‐gramモデル）

• N‐gramと確率は大量の学習テキストから推定



発音辞書（単語辞書，発音モデル）

• 単語の発音を定める

• 辞書にない単語は，認識することができない

字幕作成システム

システムのあらまし

コンテンツの登録

• 受理可能なコンテンツ

• 品質チェック

音声区間の分割

• BICに基づく自動音声分割

• 音声認識器Juliusの逐次デコーディング機能

により話者区間をさらに無音で分割

モデルのプロファイル

• コンテンツ登録時にプロファイルを選択

• そのプロファイルのモデルで音声認識

CSJ言語モデルの構築

• CSJの

学会・模擬講演データ

を使用

• 単語Trigramモデルをオーソドックスに統計学習

CSJテキストの処理（1）

• 転記テキストからテキストを抽出

• ポーズの挿入

CSJテキストの処理（2）

• テキストの処理

言語モデル適応

• 講演に関する適応用テキストがある場合

• CSJと合わせて統計学習

BCCWJ言語モデル

• BCCWJによるモデルは，Juliusディクテーション

キットに含めて配布中

（字幕システムにも導入予定）

http://julius.osdn.jp/

• 書き言葉コーパスによるモデルながら，

話し言葉の音声認識もできることがある

BCCWJモデルの構築

• BCCWJの

全データ

を使用

• 単語Trigramモデルを学習

• BCCWJで与えられている読みから発音辞書を

確率的に構成

BCCWJテキスト

• TSV形式のデータファイルから，各単語とその

品詞（大分類）を抽出

• 読みも抽出して，発音辞書に使用

BCCWJテキストの前処理

• BCCWJは多様な文書の集合なので，テキストの

アウトライン字幕付与と音声認識字幕作成システム音声認識の構成コーパス ( 主に言語モデルについて ) 自動整形コーパスシステムの利用例リアルタイムの字幕作成 2

• 話し言葉表現の削除・修正［Neubig 12］

• 句読点の自動挿入［秋田13］

可能［秋田13］

• 放送大学放送授業の字幕付き配信

文字正解率と編集時間の相関（1/2）

文字正解率と編集時間の相関（2/2）