転記テキストの概要 - 日本語話し言葉コーパスの構築法

音声コーパスにおいて，音声を文字に書き記したテキスト（以下「転記テキスト」）は必要不可欠な存在と言っても過言ではない。そのような基礎的資料であるにもかかわらず，標準的な表記法というものは存在しない。何を転記の対象とするのか，それらをどの程度の精度で，またどのような方法で記すのかといった問題が，

大なり小なり，研究の目的や枠組み，収録したデータの性質に依存するためである。

1章でも述べた通り，CSJ構築の背景として，自発音声の自動認識技術の開発があった。この種の技術を開発するにあたり，多量かつ良質の話し言葉データが強く求められ，それがCSJ全体の設計に，そして転記テキストの設計に強く影響を与えた。また，CSJの規模も，転記テキストの設計に影響を与えた要因の一つである。661時間という規模の音声データを転記するために，4年という長い年月をかけ，50人を超える作業者が転記作業に携わってきた。このような状況で質の揃ったデータを効率的に構築するためには，仕様自体に工夫を凝らす必要があった。主にこの二つの理由により，従来の転記テキストの表記法などを参考にしつつも，かなり独自の仕様を構築するに至った。

*1慶應義塾大学大学院・国語研究所非常勤研究員

そこで転記テキストの仕様の詳細説明に入る前に，設計の方針について，それを採用するに至った背景と共に述べることとする（2.1.1節）。またCSJの転記テキストの仕様は若干複雑であるため，2.1.2節でその基本的な構成について概観する。

2.1.1 設計方針

■ 転記基本単位：転記テキストは，どれ程精密に音声を文字化したとしても，あくまで現象の一部を切り取って記号化したものに過ぎず，独話や対話を忠実に反映したものではない。そのため研究においては，転記テキストを見るだけでなく，生の音声データに何度となく立ち戻る必要がある。

そこで，転記上の基本となる単位（以下「転記基本単位」）を設定し，その単位ごとに開始時刻，終了時刻を記録することによって，転記テキストと音声データとの同期が転記基本単位ごとにとれるようにした。転記テキストから音声データへの参照を保証することは，CSJの主な応用領域の一つである音声認識研究にとっても，必要不可欠な条件であった。

このような音声データとの対応付けを目的とした単位として，文などの文法的・意味的なまとまりを備えた言語的単位が用いられることもあるだろう。しかしCSJの主対象である自発性の高い音声では，必ずしも文法的に正しく発話される訳ではないため，この種の単位の認定は容易ではない。そこで転記基本単位の認定基準として，物理的な指標を採用することとした。転記基本単位を，原則0.2秒以上のポーズ（言語音の途切れに相当）に挟まれた音声範囲と定義し，客観的かつ効率的に単位を認定できるようにした。

0.2秒というポーズで単位を機械的に分割することに対する疑問も当然あるだろう。しかし冒頭で述べたように，転記テキストは3302講演全てを対象に作成しなければならず，単位認定にかかわった作業者だけでも優に20人を超える。このような状況で質の揃ったデータを作成するには，ある程度機械的な基準を設定せざるを得ないという，作業上の制約があったことも事実である。またそもそも，文法的・意味的なまとまりを備えた言語的単位は，転記テキストという，言わばコーパスの基礎資料の段階で中途半端に導入するものではなく，転記テキストを対象に必要な情報を付与した上で認定されるべきものであろう。実際CSJの構築において，この種の単位として「節単位」と呼ばれる単位を設計し（5章参照），転記テキストに付与された形態論情報（3章参照）を基に認定するという方針をとった。このように言語的単位は別途認定することとし，転記テキストにおける単位は，あくまで客観的かつ効率的に認定できることに主眼を置いた。

なお，ポーズの閾値を決めるにあたり，次のことに留意した。転記基本単位の始端・終端の時間情報は，言わば転記テキストから音声データを参照するためのインデックスである。それ故，認定される単位が短ければ短い程，音声に対するインデックスが増えることになり，利便性は増す。しかしその一方で，短い値に設定すればする程，認定作業のコストは当然増えることになる。そこで必要最小限の利便性を確保するために，方針の一つとして，ポーズによって区切られる単位の多くが文よりも短いものとなることを掲げた。この方針と作業の効率性とから，経験的に0.2秒という値を設定した。ただし，できるだけ文末で単位が切れるようにするために，文末（の可能性がある位置）では，0.05秒以上のポーズでも分割するといった例外規定を設けることとした。実際の発話を転記基本単位で分割した例を以下に示す。

¶ ³

｜ただホームに出てももう歩けない状態であったので｜（エー）駅長室まで何とか（アノー）担ぎ上げられて

｜で（ソフウ）ソファーに｜寝込んでしまいました｜で一二時間ぐらいたってやっと（ソノーオー）｜救急車が来まして

｜で国会議事堂の駅長室から（アエ）担架で（エー）外に運ばれたんですが｜非常に（アノ）出る時に（アノエ）

目がですね潰れそうに｜眩しくてですね｜（エー）目が潰れそうになりまして｜ “｜”… 転記基本単位の境界

µ ´

2.1 転記テキストの概要 25

この例からも分かるように，多くの転記基本単位はいわゆる文よりも短い長さのものとなっている。転記基本単位については2.2節で詳しく述べる。

■ 基本形： CSJの転記テキストでは，２種類の表記法を採用している。一つは「基本形」と呼ばれるもので，漢字仮名を中心に可読性の高い形式で記されている。もう一つは「発音形」と呼ばれるもので，実際の音声を仮名で書ける範囲で忠実に記録したものである。ここではまず基本形の表記方針について述べる。

音声認識研究では，一般にコーパスを用いて言語モデルと音響モデルが構築される。このうち言語モデルの構築においては，漢字仮名交じりで表記されたテキストが通常利用されるが，その際，同一の語句の表記が統一されていること，つまり表記の揺れが存在しないことが求められる。例えば一般の表記を見ると，「猫／ねこ／ネコ」や「敢えて／あえて」，「百五十／１５０」，「ソニー／ＳＯＮＹ」のように，字種の選択で揺れることもあれば，「行なう／行う」や「書き留め／書留」のように送り仮名の範囲で揺れることもある。また外来語については，「バイオリン／ヴァイオリン」のように，原音を日本語の音で代用する場合の方法にバリエーションがあるため，やはり表記の揺れが生じ易い。

この種の表記の揺れは，言語モデル構築の障害となるだけでなく，一般のユーザーが転記テキストを対象に語句を検索する上でも問題となる。そこで，関連する語との調整を図りながら，字種の使い分けや送り仮名の付け方など，表記を統一するための基準を定めることとした。また，表記の基準を細かに定めることも重要であるが，それと同時に，表記基準に則って実際の表記を徹底させること，そしてその作業を効率的に行なえるようにすることも，大規模なコーパスを構築する上では重要となる。そこで，基本形の表記基準に従って実際の語の表記を定めた辞書を作成し，転記作業中にオンラインで表記を検索するための辞書として，また仮名漢字変換用の辞書（FEP）として活用した。このような環境の整備は，作業の効率とデータの精度を高めることに大きく貢献した。基本形の表記法については2.3節で詳しく述べる。また転記作業用に開発した辞書についても同じ節で簡単に紹介する。

■ 発音形：次に発音形の表記方針について述べる。音声認識研究において音響モデルを構築するためには，

生の音声データと，発音を記号化した情報が必要となる。仮に，アナウンサーなどの職業的朗読者が与えられたテキストを朗読した音声であれば，漢字仮名交じりのテキスト（つまり上記「基本形」）から実際の発音をある程度の精度で推定することは可能であろう。しかしCSJが対象とするような，一般の人による自発性の高い音声では，「手術（シュジュツ）」を「シジツ」と，「形態素（ケイタイソ）」を「ケーソタイ」と発音するなど，発音の怠けや転訛，言い間違いなどが頻繁に生じるため，その推定は容易ではない。そこで，漢字と仮名を中心に音声を文字化した「基本形」の他に，それと対応付ける形で，実際の発音を仮名で書ける範囲で忠実に書き起こした「発音形」も記すこととした。

これにより，例えば「国語研」と検索した場合に，実際に「コクゴケン」と発音されたのか，「コッコケン」

や「コッゴケン」と発音されたのか，それともそれ以外の発音であったのかを把握することが可能となる。勿論，「明日（ミョウニチ／アシタ／アス）」など，複数の読みを持つ語が，実際にどの読みで発話されたかを把握することもできる。

このように発音形の情報は，音声認識などの応用研究にとどまらず，音声変異研究などへの貢献も十分に期待できる。例えば1.7.2節で紹介した「日本」という語の発音の揺れ（「ニホン／ニッポン」など）に関する研

究（前川2004a）や，助詞の「の」が「ン」と撥音化される現象についての研究（小磯他2002）は，いずれも

発音形の情報を利用して行なわれている。

ドキュメント内日本語話し言葉コーパスの構築法 (ページ 42-51)