(1)講演・講義の音声認識と
字幕作成へのコーパスの活用
(2)アウトライン
• 字幕付与と音声認識
• 字幕作成システム
– 音声認識の構成 コーパス
(主に言語モデルについて)
– 自動整形 コーパス
– システムの利用例
• リアルタイムの字幕作成
(3)言語資源
• 本研究における関連の言語資源
– 日本語話し言葉コーパス(CSJ)
– 現代日本語書き言葉均衡コーパス(BCCWJ)
– Unidic
(4)はじめに
• 音声・映像コンテンツを公開する取り組み
– 大学のオープンコースウェア(OCW),MOOC
– 講演アーカイブ(TEDなど)
• 視聴支援のための字幕付与
– 聴覚障碍者等の補助,専門的内容の理解の支援
– 一部のOCWやTED講演には付与されている
– 書き起こし+同期作業に(熟練した)人手が必要
(5)音声認識の導入
• 音声認識を字幕作成に導入することで
– 短時間にすべて書き起こすことができる
– 専門用語も(事前の適応・登録により)認識できる
– 同期(タイミング)を自動的に推定できる
• 講演・講義の音声認識の取り組み
– 講演(CSJ):80%超の精度[Masumura 15]
– 大学講義(たとえば[Glass 07][Wiesler 14]など)
Cf. リアルタイムの音声認識字幕(ノートテイク)
[Cerva 12][Ranchal 13][桑原 14]
(6)音声認識を用いた字幕付与
• 事後的な書き起こしシステム
– (商用)ディクテーションソフトウェア
– YouTube,PodCastle [緒方10]など
– 各種クラウド
• リアルタイムのシステム
– UDtalk
– こえとら
• 講演・講義のような専門的な内容をカバーする
ことは難しく,精度が十分とは限らない
コミュニケーションを支援
(7)提案システム
• 講義・講演の字幕作成で求められる機能
– 音声認識器が専門的な内容をカバーできる
– 字幕の出力単位やタイミングを容易に調整できる
• 字幕に特化した作成・編集システムを開発
– オンラインでサーバにデータを登録
– 音声認識のモデルを選択・適応して草稿作成
– 字幕用に設計されたエディタで編集
(8)(9)(伝統的な)音声認識
• 認識対象の音響的・言語的特徴をモデル化
性能(書き起こせる内容)はモデルで決まる
• モデルを用いて文の仮説を生成し,最良の仮説を
出力するのがデコーダ
デコーダ(音声認識器)
音響モデル
|
言語モデル
発音
辞書
音声特徴量
認識結果
/a/ /i/ /u/ /e/ /o/
/k/ /s/ /t/ /n/ /h/
…
だが d a g a
断る k o t o w a r u
…
0.100 だが しかし
0.750 だが 断る
…
)
(
)
|
(
max
arg
ˆ
P X W P W
W
W
Wˆ
(10)音響モデル
• 音韻単位のスペクトル(などの)特徴を表す
– たとえば音素( /a/ /i/ /u/ …)と音声特徴量のマッチの
度合い
– 特徴量は,典型的には音声のスペクトル成分
– 隠れマルコフモデル(HMM)で時間的な遷移を表現
– ディープニューラルネットワーク(DNN)による拡張
• 数十~数千時間の音声で学習される
– 環境・機器・話者などにより音響特性が異なる
できるだけ認識対象に近い音声で学習
(11)言語モデル
• 単語の出現・連接の制約を定める
• 伝統的には統計的言語モデル(N‐gramモデル)
– 直前のN‐1単語(文脈)から次の単語を確率的に予測
– たとえばN=3(3‐gram, trigram)の場合
• N‐gramと確率は大量の学習テキストから推定
– 話題やスタイルが認識対象と適合したテキストで
学習しないと,適切な語彙や文脈を獲得できない
– 話題に関する(少量の)テキストで適応を行う
L
i
i
i
i w w
w
P
W
P
1
2
1 )
|
(
)
(
W
w1w2 wL
(12)発音辞書(単語辞書,発音モデル)
• 単語の発音を定める
– 発音の単位は音響モデルで定められた音韻単位
– 確率を付与することもある(次の例は対数確率)
• 辞書にない単語は,認識することができない
– 認識させたい単語は,少なくとも単語辞書には
登録しておく必要がある
– ただしN‐gramの文脈は最適にはならない
神奈川/カナガワ @‐0.0644 k a n a g a w a
神奈川/カナガワ @‐0.8605 k a n a g a:
(13)(14)(15)システムのあらまし
字幕サーバ
利用者
ダウンロード
(ブラウザベース)
エディタ
アップロード 音声チェック
音声認識セットアップ
音声認識・自動整形
音声・映像
関連文書
字幕
音声
- 音声の聴取
- 字幕・時刻の編集
- オンライン更新 随時更新
①コンテンツに加えて
関連のスライド・予稿等を
アップロード(任意)
②データ
品質を
チェック
③言語モデル
を適応(任意)
音声認識
④自動整形の上
字幕を生成
⑤エディタを
ダウンロード
⑥ブラウザ上で
聴取・編集作業
(16)コンテンツの登録
• 受理可能なコンテンツ
– 音声(WAV・MP3等)
– 映像(MPEG・WMV等)
– テキスト(Text・PDF・Word・PowerPoint)
テキスト部分を抽出
• 品質チェック
– 音声:ビットレート・スペクトル・S/N比
– テキスト
WAV抽出
(16kHz・16bit・モノラル)
(17)音声区間の分割
• BICに基づく自動音声分割
– 話者区間ごとに処理するため
– 各区間をニューラルネットワークで状態占有確率
の系列に変換(GPU使用)
• 音声認識器Juliusの逐次デコーディング機能
により話者区間をさらに無音で分割
(18)モデルのプロファイル
• コンテンツ登録時にプロファイルを選択
• そのプロファイルのモデルで音声認識
プロファイル 講演 スピーチ 討論 一般
(予定)
学習データ
CSJ
CSJ
+放送大
学データ
国会音声・
会議録
BCCWJ,
CSJ
+JNAS
音響モデル
DNN‐HMM
言語モデル 単語Trigram
(19)CSJ言語モデルの構築
• CSJの
学会・模擬講演データ
を使用
– 計2,702講演,768万単語(形態素) ポーズ含む
– 出現回数が1回のみの単語はカット
(50,433種類 36,665種類)
• 単語Trigramモデルをオーソドックスに統計学習
)
(
)
(
)
|
(
1
2
1
2
1
2
i
i
i
i
i
i
i
i
w
w
C
w
w
w
C
w
w
w
P 出現回数
(20)CSJテキストの処理(1)
• 転記テキストからテキストを抽出
• ポーズの挿入
– 転記テキストのタイムスタンプから計算
– 長短に分ける(句読点で示す)
えーっと ※ ということで えー 。
発表します。
えー 私共は。
乳児が音楽をどのように聞いているか、また聴取に発達齢差が
見られるかを検討しております、本研究では旋律の調つまり長
調ですとか短調の変化の、聞き分けに着目して、実験を通して
えー 知見を得ましたので報告したいと思います。
(21)CSJテキストの処理(2)
• テキストの処理
– 前処理(Unidic付属ツール)
– 形態素解析(Unidicでやり直し) 短単位
– 後処理(解析エラーの修正や表記の変更)
えー
+エー+41 私+{ワタク/ワタ/アタ}シ+1 共+{ト/ド}モ+47
は+ワ+5 <sil>
乳児
+ニュージ+30 が+ガ+8 音楽+{オンガク/オンガッ}+30
を
+オ+8 どの+ドノ+65 よう+ヨー+39 に+ニ+だ+3
聞い+キー+聞く+12 て+テ+7 いる+イル+いる+13 か+カ+6 <sp>
また
+マタ+53 聴取+チョーシュ+28 に+ニ+8 発達+ハッタツ+28
齢
+レー+47 差+サ+30 が+ガ+8
…
(22)言語モデル適応
• 講演に関する適応用テキストがある場合
– 全く同じようにテキストを処理(Unidic使用)
– 適応用テキストを重み付け
(総単語数がCSJに対して一定割合になるよう
単語の出現回数をスケーリング)
– 適応用テキストの単語はカットしない
• CSJと合わせて統計学習
(23)BCCWJ言語モデル
• BCCWJによるモデルは,Juliusディクテーション
キットに含めて配布中
(字幕システムにも導入予定)
http://julius.osdn.jp/
• 書き言葉コーパスによるモデルながら,
話し言葉の音声認識もできることがある
(24)BCCWJモデルの構築
• BCCWJの
全データ
を使用
– 計1億単語(形態素)
– 出現回数が40回以下の単語はカット
(307,616種類 59,084種類)
• 単語Trigramモデルを学習
• BCCWJで与えられている読みから発音辞書を
確率的に構成
(25)BCCWJテキスト
• TSV形式のデータファイルから,各単語とその
品詞(大分類)を抽出
• 読みも抽出して,発音辞書に使用
警察
+名詞 メディア+名詞 が+助詞 成立+名詞 する+動詞 無尽+
名詞 蔵+接尾辞 殺人+名詞 事件+名詞 と+助詞 フォーカス+名詞
週刊+名詞 文春+名詞 無尽+名詞 蔵+接尾辞 殺人+名詞 事件+
名詞 なる
+助動詞 もの+名詞 が+助詞 ある+動詞
ある+動詞 と+助詞 いう+動詞 より+助詞 は+助詞 、+補助記号
無理矢理
+副詞 に+助詞 あら+動詞 しめ+助動詞 られ+助動詞 て
+助詞 いる+動詞
…
(26)BCCWJテキストの前処理
• BCCWJは多様な文書の集合なので,テキストの
表記をできるだけ(プログラムで)そろえる
– 数字を漢数字に,英単語はカタカナに
– カナ単語の一部をひらがなに
(感動詞・副詞・形容詞・形状詞・代名詞・助詞・
助動詞・連体詞・接続詞)
– カタカナ語の語末長音は原則としてのばす
– 拗音などの「ぁぃぅぇぉゃゅょっ」は小文字に
(27)自動整形
• 話し言葉表現の削除・修正 [Neubig 12]
– フィラー・口語表現・文末表現など
– 話し言葉と書き言葉のパラレルコーパスから変換
(WFST)モデルを学習して適用
• 句読点の自動挿入 [秋田13]
– 複数のアノテータによる句読点ラベルをCSJに付与
– CRFでモデル化して挿入位置を推定
(28)自動整形の例
でこれらの二つの
汲みや能力を組み合わせますと
iPS細胞を大量に増やした後で
そこから神経や筋肉の細胞を作り出す大量に作り出すことが
できますので様々な人間の体の細胞を大量に
準備できるそういう可能性のある細胞であります
音声認識結果
で、これらの二つの汲みや能力を組み合わせますと、iPS細胞を
大量に増やした後で、そこから神経や筋肉の細胞を作り出す大
量に作り出すことができます。
様々な人間の体の細胞を大量に準備できるそういう可能性のあ
る細胞であります。
自動整形結果
(29)CSJの整形
• 「コア」199講演の書き起こしに整形タグを付与
– 削除(DL)・挿入(IN)・置換(RP)
– CSJのフィラータグ(F)も削除と見なす
• 一次整形,文末整形を実施
• 書き起こしと整形文でパラレルコーパスを構成
<DL>で</DL> この よう な エコーロケーション 機能 は 例えば 船 や 潜水 艦
あるいは 自動 ドアー と いっ た
<DL>ところ に</DL> <RP cw="色々な">
色んな
</RP> ところ で 用い られ て おり ます
<DL>で</DL> (F えー) ネット の 後ろ に マイクロホン を 置き
(F え) マイクロホン
は 四 分 の 一 インチ コンデンサー マイクロホン
<IN cw=“を”></IN> 用い て
(F えー) カット オフ 周波 数 六十 キロヘルツ の ハイパス フィルター を 通し
(30)句読点のアノテーション
• コア講演(学会講演70・模擬講演107)に実施
– 整形したテキストをアノテーション
– 合計365,305単語
• プロの速記者3名がそれぞれ独立に付与
– アノテータA・B・C
– 作業の際に音声は聴取していない
(31)句読点アノテーションの統計
• 句点の数はアノテータによらずほぼ同等
(97%が一致)
• 読点の数はアノテータにより大きく異なる
– 全員に共通する読点は15,027個
(A:51%, B:64%, C:76%)
– 単一のアノテータのみによる読点
(A:20%, B:8%, C:7%)
• 本システムでは多数決に
より使用する句読点を決定
6,015
15,027
2,678
5,673
816
1,855 1,333
A
B C
(32)字幕生成
• 自動整形結果を字幕ファイルとして出力
– RealText, SAMI, SRT
– 音声認識で得られる単語の時刻を表示の
タイミングに利用
– サーバ上に保存され,インターネットから
アクセス可能
• 人手による字幕テキストを同期することも
可能 [秋田13]
(33)字幕の自動アライメント
• 字幕のテキストがすでにある場合
– 音声認識結果は(字幕としては)不要
– 音声と所与のテキストの時間同期のみを行いたい
• 音声認識に基づく字幕のアライメント(同期)
– 認識結果と字幕テキストを文字単位でアライメント
認識した単語の時刻を字幕テキストに付与
– アライメントできない部分は前後の時刻から補間
(34)字幕エディタ
• ブラウザベースで利用
– Javaによる実装 マルチプラットフォーム
– サーバ上の字幕・音声データをオンデマンドで取得・更新
作業の場所を問わない
• 字幕に特化した環境
– 音声再生と同期した表示
– 行操作でタイミングを自動推定
– 再生速度の変更(プレビュー用)
• オフラインのアプリケーション
としても利用可能
(35)(36)本システムの利用例
• 放送大学 放送授業の字幕付き配信
[河原 16]
• 政策研究大学院大学
比較議会情報プロジェクト
国会審議映像検索システム[鈴木 14]
http://gclip1.grips.ac.jp/video/
(37)放送講義における字幕作成
• 実際の講義音声で字幕作成の効率を測定
– 放送大学ラジオ講義(45分×計27回)
– 教科書と台本(ただし完全ではない)が利用可能
– 字幕サーバ・エディタにより字幕を作成
– 作業者は1名(専門家ではない)
科目名 回数 文字
正解率 編集時間 確認時間
合計作業
時間
実時間
比
リスク社会の
ライフデザイン 12 88.5% 3時間46分 46分 4時間33分 6.1
心理臨床の
基礎 15 90.8% 3時間16分 40分 3時間56分 5.2
(38)文字正解率と編集時間の相関 (1/2)
y = ‐106.96x + 105.3
R² = 0.5327
78
80
82
84
86
88
90
92
94
96
1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00
文字正解率(
%
)
リスク社会の
ライフデザイン
人手では約4時間[長妻 12]
(39)文字正解率と編集時間の相関 (2/2)
y = ‐134.91x + 109.1
R² = 0.6089
78
80
82
84
86
88
90
92
94
96
1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00
文字正解率(
%
)
編集時間
心理臨床の基礎
人手では約
4時間[長妻 12]
文字正解率87%以上で
人手よりも効率的
(40)(41)リアルタイム字幕の課題
• 講義や講演における文字の情報保障
– 手書きノートテイク
– PC要約筆記
• 音声認識により負担の軽減を目指す
– 少ない(1人の)作業者で行える
– 情報保障の機会を拡大
長時間作業できない
複数の作業者が必要
(42)音声認識を用いたノートテイクの提案
• 字幕作成サーバによる音声認識
– (ネットワークさえあれば)場所を問わない
– 講義・講演の資料を用いて言語モデルを適応
• 要約筆記ソフトウェアIPtalkによる編集・表示
– 実際のPC要約筆記で広く用いられている
– 作業者の連携入力に代えて音声認識結果を入力
– スクリーンへの表示,Webによる配信
(43)字幕作成システム
字幕サーバ
(京大)
作業者端末
(会場)
講師
音声
認識結果
Adintool
Julius2IPtalk
IPtalk
Julius
+音響・
言語モデル
字幕
インターネット
(LAN or 4G)
(44)システムの運用
• 音声入力
– AAC:会場のマイク(PA)を利用
– SLP:独自マイクを利用
• 音声認識用のモデル
– CSJを利用
– 予稿・スライド・インターネット上の資料で適応
• 後処理・編集
– フィラーの自動削除,句点の(一部)自動挿入
– IPtalkで編集して字幕出力
(45)実施事例
• 音声認識を用いたリアルタイム字幕付与を
研究会の講演で実施
– 情報処理学会 アクセシビリティ研究会(AAC)
– 情報処理学会 音声言語情報処理研究会(SLP)
• 京都大学のシンポジウムでも実施
• 作業者の都合で,一部の講演(セッション)のみ
(46)字幕の作成例
• AACシンポジウム(2016年2月)
• 講演3件(計2時間8分)に対して作業者1名
• 統計
– 音声認識文字数: 33,697
– 字幕送出文字数: 32,601 (100%)
– 編集文字数: 5,116 (16%)
うち 置換
1,190 (3.7%)
挿入
1,415 (4.3%)
削除
2,511 (7.7%)
• 1分あたり平均40文字の編集
• 字幕の92%は音声認識結果をそのまま出力
(ただし精度は不明)
(47)まとめ
• 音声認識による字幕付与
– コンテンツに対する事後的な付与
– リアルタイム字幕
• CSJなどのコーパスを活用
– 言語モデル構築
– アノテーションを加えて自動整形に利用
(48)謝辞
• CSJ・BCCWJ・Unidicなどの言語資源の構築・
公開に携わった皆様に感謝申し上げます
• 放送大学のデータは広瀬洋子先生から
ご提供いただきました
• リアルタイム字幕ではAAC・SLP研究会の
幹事・委員の皆様にご協力いただきました
(49)謝辞
• 一連の研究は,京都大学 河原達也先生の
もとで実施しました
• また,次の各氏の研究成果です
– 三村 正人氏 (音響モデル他)
– Dr. Graham Neubig (自動整形)
– 須見 康平氏 (音声検出)
– 渡邉 真人氏 (自動整形)