本節では,転記基本単位の認定基準と作業の手続きについて解説する。
2.2.1 認定基準
2.2.1.1 転記基本単位の種類
転記基本単位(以下「転記単位」)には以下に記す4種類が存在する。
表2.1 転記基本単位の種類 単位の種類 対象とする音種 表記法
転記単位A 話者の言語音 基本形(2.3節)と発音形(2.4節)に原則漢字・仮名で言語音を文字化 転記単位B 話者のボーカル音 タグ<笑>,<泣>,<咳>,<息>
転記単位C A・B以外の音で特に目立つ音 タグ<フロア発話>,<フロア笑>,<拍手>,<デモ>,<ベル>
上記以外で特に目立つ音 タグ<雑音> … 音種は特定せず一律「雑音」として扱う 転記単位D 朗読間違いの箇所(再朗読に限定) タグ<朗読間違い>… 扱いはAに同じ。詳細は2.7節参照
転記テキストには,話者の言語音だけでなく,談話の流れを理解する上で重要と考えられる音や,研究に有 用と考えられる音についても積極的に記すという方針をとった。例えば学会講演において,発表の経過時刻を 知らせるベルの音の後で発話速度が速くなるなどの変化が見られることも少なくない。また理工系の学会など では,発表中にデモンストレーションをすることもあり,その間,話者が殆ど発話しないということもある。
<デモ>や<ベル>といったタグが導入されたのはこのためである。また音声認識研究では,話者の言語音とそ れ以外の音(雑音や拍手,デモンストレーションの音など)が重複している箇所を学習データから除外するこ ともある。<雑音>など,通常の転記テキストではあまり記すことがない情報まで含まれているのは,こういっ た利用上の要求があってのことである。
2.1.2節で述べたように,いずれの単位も,必ず転記基本単位情報部(以下「単位情報部」)を有する。単位
情報部には,転記単位ID(4桁の通し番号),当該単位の開始・終了時刻(秒単位),対応する音声ファイルの チャンネルID(LかR)が記される。
¶ ³
0223 00578.104-00580.441 L:
└−−┘└−−−−−−┘└−−−−−−┘└┘
転記単位ID 開始時刻 終了時刻 チャンネルID
µ ´
話者の言語音(転記単位A)の場合,単位情報部の他に,話者の発話した内容を記した発話部が存在する。
¶ ³
0223 00578.104-00580.441 L: … 単位情報部
しかし & シカシ ┐ コンシステントに & コンシステントニ │
差が & サガ │ … 発話部 出てるという & デテルトユー │
ことであります & コトデアリマス ┘
µ ´
一方,話者の言語音以外の音(転記単位B・C)の場合は発話部を持たず,音声種別を記したタグ(表2.1の 右の欄を参照)が単位情報部に記される。
¶ ³
0224 00578.688-00579.678 L:<ベル>
µ ´
転記単位Dは,再朗読における読み間違いに限定して用いられる特殊な単位である。基本的に話者の言語音で あるが,発話内容は記されず,<朗読間違い> というタグを用いてその転記単位全体が朗読誤りであることが
2.2 転記基本単位の認定 33
示される(詳細は2.7節参照)。
¶ ³
0018 00040.337-00040.736 L:<朗読間違い>
µ ´
以下では,各転記単位の認定基準,および,転記単位間の時間的制約について記す。なお転記単位Dは言語音 であり,単位の認定基準などは転記単位Aと同じであるため,転記単位Aとまとめて記す。
2.2.1.2 転記単位A・転記単位D
【対象】話者の発する言語音。次の音も言語音と見なす。
¦ 笑いや咳などのうち,語彙化されているもの(例:いひひ なんて笑い方はしないように)。
¦ ボーカルフライなどの音で母音が確定できないもの(以下「母音不確定音」。2.5.15節参照)。
¦ 「うー」や「あー」,「あのー」など,言い淀み時などに出る音声。
【原則】話者の言語音が,0.2秒以上の途切れなく連続して生じている区間。
【例外】
1. 以下の場合には,0.2秒以上の途切れであっても転記単位は分割しない。
¦ 語中・語末の促音,および破裂音・破擦音の閉鎖区間に相当する途切れの場合。
この規則は,語中・語末の促音に限定される。そのため,「って」「っぽい」など語頭の促音部分で0.2 秒以上の途切れが生じている場合には,原則通り転記単位を分割する。
¦ 「ワ(途切れ)タシ」のように,短単位(3章参照)の内部に途切れが生じている場合*2。
2. 直前に,以下に示すような言語的な文末形式が存在する場合には,0.05秒以上0.2秒未満の途切れであっ ても転記単位を分割する。ただし,引用形式(「〜です と言われても」や「〜です はないだろう」など)
が後続する場合には,文末形式が存在していてもこの例外規則は適用しない。
¦ 活用語(動詞,形容詞,助動詞,一部の接尾辞)の終止形,命令形(例:〜です,〜して下さい)
¦ 終助詞(例:〜ですね,〜かな,〜しろよ,〜だっけ)
¦ 挨拶表現など(例:おはよう,こんにちは)
¦ 応答表現(例:はい,ええ,うん)
【補足】
1. 転記単位の始端・終端位置に迷いがある場合には,単位を広めにとる。
2. 言語音とリップ音が連続して現われ両者を切り離せない場合には,リップ音を転記単位に含める。
3. 破裂音や破擦音の立ち上がり部分では,バーストの開始部分手前(0.05秒程度)に始端位置をとる。バー ストの位置が特定できない場合には,転記単位を広めにとる。
4. 以下に挙げるものが 発話とは独立に生じた場合,それを転記単位とは認めない。
¦ 1〜2モーラ程度の短い音で,何を言っているか全く分からない場合
¦ 長い音であっても,かなり小さい音で言語音かどうかすら分からない場合
*2 研究で本データを利用する場合,短単位の内部であるか否かにかかわらず,一律0.2秒以上のポーズで単位を認定したいこともあ るだろう。そこで,短単位内部に生じる0.2秒以上のポーズの開始・終了時刻に関する情報を,以下に示すようにタグ<P>を利用し て転記テキスト内に記載している(タグ<P>については2.5.19節を参照)。この情報を利用することで,必要に応じて転記単位を 0.2秒以上のポーズで分割することができる。
¶ ³
半年 & ハン<P:00333.068-00333.442>トシ<H> … ポーズの開始・終了時刻の情報(秒単位)が記録
µ ´
2.2.1.3 転記単位B
【対象】話者の発するボーカル音のうち,以下に限定して転記単位Bと認定する。
¶ ³
タグ<笑>: 話者の笑い声 タグ<泣>: 話者の泣き声 タグ<咳>: 話者の咳・咳払い
タグ<息>: 話者の転記単位Aの終端に出現する息(詳細は「補足」の項参照)
µ ´
【原則】同種のボーカル音が0.2秒以上の途切れなく連続して生じている区間。
【補足】
1. 同種の音ごとに認定する。例えば図2.2に示すように,笑いの間に咳が挿入されている場合,分離された 二つの笑いの間が0.2秒以上離れていれば,咳の存在にかかわらず,それぞれ別の単位として認定する。
途切れが0.2秒未満の場合の扱いについては,2.2.1.5節の「転記単位B同士で重複する場合」で述べる。
0.2秒以上
┌──────┐ 0151 00453.195-00454.283 L:<笑>
── ※※※※※※※※※※ #### ※※※※※※ ── ⇒ 0152 00454.297-00454.767 L:<咳>
└─────────┘ └──┘ └─────┘ 0153 00455.124-00455.973 L:<笑>
笑い 咳 笑い
図2.2 転記単位Bの認定例
2. 笑いながら,泣きながら,咳き込みながら発話している場合,その区間は転記単位Bではなく転記単位A と見なす。その箇所の発話内容を書き起こした上で,笑いながら,泣きながら,咳き込みながら発話して いる範囲に対して別途タグを付与する(2.5.13節参照)。
3. 息については,転記単位A(言語音)の直後に出現し,言語音と音声的に切り離せない場合に限定して認 定する。それ以外の息は対象外とする。以下の場合に注意する必要がある。
¦ 発話末で,母音の引き延ばしか息かの判断が付かない場合は,転記単位A(言語音)の一部と見なす。
¦ 発話冒頭で,言語音の子音(摩擦音など)の立ち上がりの部分なのか息なのかの判断が付かない場合に は,言語音(転記単位A)に含める。
2.2.1.4 転記単位C
【対象】転記単位A・B以外の音で,特に目立つ音。具体的には以下を対象とする。
¶ ³
タグ<フロア発話>: 話者以外(フロアや司会者など)の発話。
タグ<フロア笑>: 話者以外の笑い。
タグ<拍手>: フロアからの拍手。
タグ<デモ>: 話者が発表中に行なったデモンストレーションの音。
タグ<ベル>: 発表時間を知らせるために鳴らしたベルの音。
タグ<雑音>: 上記以外で特に目立つ音。音種は特定せず一律「雑音」として扱う。
µ ´
【原則】原則として,同種のボーカル音が0.2秒以上の途切れなく連続して生じている区間。ただし以下補足1 に記す通り,実際の認定作業ではこの基準にあまり厳密には従っていない。
2.2 転記基本単位の認定 35
【補足】
1. 転記単位Cはあくまで談話の流れを理解するための補足的な情報であり,転記単位A・Bと比べて認定の 精度は粗い。例えば,転記単位Cの音は,言語音と重複する等の理由で聞き取りが困難な場合も多く,開 始・終了位置が厳密に同定できないことがある。またデモンストレーションや拍手の音などについては,
0.2秒の途切れで細かく分割せずに,一つのまとまったデモンストレーション,拍手として分割すること もある。デモンストレーション中のちょっとした笑い声などは,対象外とすることもある。
2. 雑音としては,例えば講演と関係のない放送音やドアを閉める音,工事の音や発話中マイクに直接息がか かる音などさまざまなものが考えられるが,このうち,次の条件を満たす場合を対象とする:(a)話者の 言語音と時間的に重複し,かつ言語音の聞き取りに影響を及ぼす程に大きな音であると感じられる場合,
(b)談話の流れに関与した可能性がある場合(例えば,突然の校内放送で発表が少し中断した場合など)。
2.2.1.5 転記単位間の時間的制約
転記単位Cは,自己を含む全ての転記単位(A〜D)と時間的に重複し得るが,それ以外,つまり,転記単 位A,B,D同士は,自己を含めて互いに時間的に重複することはない(表2.2参照)。
表2.2 転記単位間の時間的重複の可能性
転記単位A・D 転記単位B 転記単位C 転記単位A・D × ×∗1 ○ 転記単位B — × ○ 転記単位C — — △∗2
*1単位A中,タグ<P>で記されるポーズ区間と単位Bは重複し得る。「タグ<P>に関する例外」参照。
*2異種の単位C同士は重複するが,同種の単位C同士は重複しない。
以下に注意点を挙げる。
【転記単位Aと転記単位Bが重複する場合】転記単位AとBが時間的に重複することもあり得るが(言語音の 途中にごく短いボーカル音が混入する場合など),言語音に0.2秒以上の途切れが見られない場合には,転記 単位Bを独立した単位とは見なさず,転記単位Aに含めた上で,ボーカル音の存在をタグで表現する(図2.3 の(a)参照)。0.2秒以上の途切れが見られる場合は,それぞれ独立した単位と見なす(図2.3の(b)参照)。
(a)転記単位Aのみ認定する場合の例:
転記単位A 0001 00001.000-00002.400 L:
┌─────────────────────────┐ それでは& ソレデワ<咳>
───※※※※※※※※※※※####※※※※※※※※※※※── ⇒ まず & マズ └──────────┘└───┘└───────────┘ 0002 00002.800-00004.200 L:
言語音 咳 言語音 本研究の& ホンケンキューノ
(咳を含み言語音に0.2秒未満の途切れ)
(b)転記単位AとBをそれぞれ認定する場合の例:
転記単位A 転記単位B 転記単位A 0001 00001.000-00001.600 L:
┌─────────┐┌─────┐┌──────────┐ それでは& ソレデワ ───※※※※※※※※※※######※※※※※※※※※※── ⇒ 0002 00001.600-00001.900 L:<咳>
└─────────┘└─────┘└──────────┘ 0003 00002.000-00002.400 L:
言語音 咳 言語音 まず & マズ
(咳を含み言語音に0.2秒以上の途切れ)
図2.3 転記単位AとBが重複する場合の認定例