2.5 転記テキストで用いるタグ
2.5.2 タグ (D)
本タグは,以下のケースで生じる「語の断片」に対して付与する。この種の語断片は,フィラーや感情表出 系感動詞の場合と同様に,転記テキストの可読性と自動形態素解析の精度を著しく落とす要因となるため,
タグを付与することとした(2.5.1節参照)。
言い直しに伴う語断片:「あたら 最新の研究で」の例に見られるように,何かを言い掛け(「あたら」),そ れを別の表現(「最新の」)で言い替えた場合の,言い掛けの部分(「あたら」)。
その他の語断片:「その ん 問題は」のように,言い直しに伴う語断片と言うよりは,発声上の問題で生じ たと考えられる断片的な音声。この種の断片的な音声もここでは語の断片の一種と見なす。
ここで言う「語」とは,基本的に「短単位」(3.1.3節参照)を指す。つまり,短単位に満たない断片を本タ グの対象にするということである。ただし,外来語については例外として「最小単位」を語と見なす。これ により,例えば「カードゲーム」(1短単位)は「\\カード\\ゲーム\\」のように二つの語と見なされる。こ の外来語に対する例外的措置は,本タグとタグ(W)(2.5.11節参照),タグ(M)(2.5.6節参照)に対して適 用される。例外的措置がかかわる部分については,明示的にその旨を記すこととする。
本タグの付与対象に関して,以下の点に注意する必要がある。
• 言い掛け部が語断片ではない場合,言い直しであっても本タグは付与しない。
スライド(Fえーと)プロジェクターで … × (Dスライド)(Fえーと)プロジェクターで それ それについて その問題について … × (Dそれ) (Dそれについて)その問題について カード カードゲームを … × (Dカード)カードゲームを
• 以下の条件を満たす場合,言い掛け部を語断片相当と見なし,本タグを付与する。
– 語として意味をなさず,かつ言い直しを伴う場合。
(Dテビス)テニスをする
この例の「テビス」のように,音節数が揃っており厳密には語の「断片」と言えないような場合でも,
上記条件を満たした場合には,本タグを付与する。
– 言い掛け部の末尾が音の転訛(音便化や連濁など)を伴う場合。
(D喋っ)喋った (D見ん)見んな (D書い)書いた (Dはっ)八回 (Dなん)何回 (Dふな)船火事
– 言い掛け部が,次の動詞の未然形,連用形の場合:1)カ変動詞「来る」,2)サ変動詞「する」,3)
語幹が1モーラの上一段・下一段動詞(「見る」や「得る」など)。
(Dこ)来ない (Dき)来ます (Dし)しない (Dみ)見てみる (Dに)煮ました (Dえ)得たもの
– 発音が曖昧で語断片であるという印象を強く受ける場合。子音まで言い掛けて母音を発音せずにやめる 場合などがこれに相当する。その際,発音が曖昧な部分にタグ(?)を付与することで,語の断片である ことを示す。タグ(?)は,発音形だけでなく,基本形の対応する箇所にも付与する。
(D書(?く))書き手 & (Dカ(?ク))カキテ
以下の場合には,本タグではなく2.5.11節で詳述するタグ(W)を付与する。
• 「ダイガ ノ カイギデワ(大学の会議では)」の「ダイガ」のように,語断片であっても,言い直されずに そのまま発話された場合。
大学の & (Wダイガ;ダイガク)ノ … × (Dだいが)の & (Dダイガ)ノ
会議では & カイギデワ 会議では & カイギデワ
• 「ブン シ セキ(分 し 析)」のような短単位内部での言い淀みの場合。
分析 & (Wブンシセキ;ブンセキ) … × 分(Dし)析 & ブン(Dシ)セキ
• 「そこ こ から」や「あります す それで」のように,短単位の末尾で その一部 が繰り返される場合。
あります & アリ(Wマスス;マス) … × あります(Dす) & アリマス(Dス)
本タグの付与範囲に関して,以下の点に注意する必要がある。
• 言い掛け部が語断片以外の要素を含む場合,本タグは言い掛け部全体ではなく,語断片にのみ付与する。
正解(Dり)男性の 場合の 正解率を … × (D正解り)男性の 場合の 正解率を 従来の(Dしゅひょ)であり 指標であり … × 従来の(Dしゅひょであり)指標であり
• AをBで,BをCで言い直すといったように,言い直しが複数回連続して生じた場合には,その都度,
本タグを付与する。
(Dさ)(D最)最大の (Dだ)(D大)大学の学部の会議
基本形における本タグ内の表記は以下の通りとする。
• 漢字あるいは片仮名で記される語の断片であることが明らかな場合に限り,該当箇所を書ける範囲で漢字 あるいは片仮名で記すが,それ以外については,迷う場合を含め原則として平仮名で記す。
漢 字: (D情)情報科学が (D市)市街地 手話(D通や)通訳の 片仮名: (Dプ)プログラム (Dテニ)昨日のテニスは (Dテビレ)テレビを見ると 平仮名: (Dす)すると この(Dて)提案は (Dし)つまりそのシステムでは
• ただし漢字の表記については以下の制約がある。
– 言い掛け部の末尾が音の転訛を伴う場合,当該箇所は平仮名で記す。
(Dあま)雨傘 (Dなん)何回 (D洗たっ)洗濯機
– 言い掛け部と訂正部の間に内容語(タグ(F),(D), (D2),(?),および,<FV>,(笑)などの非言語音以 外)が挿入されている場合には,平仮名で記す。
(Dてい)今回の 提案は … × (D提)今回の提案は
史的(D展)(Fえー)<FV>展開が … × 史的(Dてん)(Fえー)<FV>展開が
本タグ内に生じる母音・子音の引き延ばしについては,以下の通り表記する。なお,子音の引き延ばしの扱 いについては,2.3.5節の2も併せて参照されたい。
• 基本形における母音の引き延ばし:
和語,漢語の断片と判断できる場合は母音表記。
(Dほう)ほうきで & (Dホー)ホーキデ
片仮名語,および単なる言い淀みに伴う引き延ばしの場合は長音記号「ー」で表記。
(Dデー)そのデーターを & (Dデー)ソノデーターオ, (Dきー)昨日は & (Dキー)キノーワ
• 発音形における母音の引き延ばし:一律長音記号「ー」で記す。
(Dわー)私 & (Dワー)ワタシ … × (Dわ)私 & (Dワ<H>)ワタシ
母音の引き延ばしが極めて長い場合,長音記号「ー」にタグ<H>を添えることはあるが,それ以外で本タ グ内にタグ<H>を記すことはない。
(Dわー)私 & (Dワー<H>)ワタシ
• 子音の引き延ばし:基本形・発音形共に,一律「っ/ッ」で表記する。
(Dさっ)作家 & (Dサッ)サッカ (Dこっご)国語研 & (Dコッゴ)コクゴケン
(Dカッ)カップ & (Dカッ)カップ (Dコッ)コレクト & (Dコッ)コレクト
• 語断片の境界に生じる母音・子音の引き延ばし:
1)語断片始端位置の場合,本タグ内の先頭ではなく本タグの直前に母音・子音の引き延ばしを記す。それ が語の一部を担う場合は「ー」「ッ」で,そうでなければタグ<H>・タグ<Q>で記す。
オーバー(Dス)スローで& オーバ ー(Dス)スローデ 真っ(Dく)暗闇の& マ ッ(Dク)クラヤミノ
これ(Dま)までには & コレ<H>(Dマ)マデニワ ここ(Dか)から & ココ<Q>(Dカ)カラ
ただし子音の引き延ばしについては,促音で始まる語(「っぽい」など)の断片であると判断される場 合,本タグ内の先頭に「っ/ッ」を記す。
白(Dっぽ)っぽい & シロ(Dッポ)ッポイ
2)語断片終端位置の場合,本タグ内の末尾に「ー」「ッ」を記す。
これ(Dまー)まで& コレ(Dマー)マデ ここ(Dかっ)から& ココ(Dカッ)カラ
ただし子音の引き延ばしについては,促音で始まる語,および引用の「と」が後続する場合,本タグの 直後に記す(2.3.5節参照)。
白(Dぽ)っぽい & シロ(Dポ)ッポイ
実際のタグ付け作業において,語断片相当と見なし本タグを付与するか否かで迷うことも多い。典型的な ケースを取り上げ,その扱いについて簡単に触れる。
a)語断片かフィラーかで迷う場合
実際のタグ付け作業において,語断片であるタグ(D)と,フィラーのタグ(F)のどちらを付与すべきか で迷うことがよくある。基本的には音調や文脈から両者の区別を行なったが,「あ(ー)」「い(ー)」「う
(ー)」「え(ー)」「お(ー)」「ん(ー)」については特に迷うことが多く,揺れを招く原因となった。そこ で,ある程度の量の語断片やフィラーを収集し,それぞれの特徴を明らかにした上で,以下の操作的な 判断基準を作成した。上記表現で語断片かフィラーかで迷った場合には,この基準に従って判断する。
1.母音の引き延ばしがあるか否か: ある ⇒ (F) ない ⇒ 以下2.
(Fあー)つまり, (Fんー)女の人が, (Fうー)一緒に
2.フィラーが後続し,かつそのフィラーの冒頭の音と同じか否か: 同じ ⇒(F) 違う ⇒ 以下3.
(Fあ)(Fあのー)つまり, (Fえ)(Fえー)音楽が, (Fん)(Fんー)昨日は
3.後続する内容語あるいは語断片の冒頭の音と同じか否か: 同じ ⇒ (D) 違う ⇒ 以下4.
(Dあ)あなたが, (Dい)一緒に, (Dえ)(D演)演奏が
4.問題となっている表現の直後にポーズがあるか否か: ある ⇒(F) ない ⇒(D)
(Fお)あなたが … 「お」と「あなたが」の間にポーズがある場合 (Dお)あなたが … 「お」と「あなたが」の間にポーズがない場合
b)語断片か1音節の接続詞かで迷う場合
語断片か1音節の接続詞(「で」や「て」など)かで迷う場合には,原則として以下のように判断する。
• 当該語が節あるいは文の切れ目に出現し,かつ「それで」「そして」などで言い換えても繋がりが不 自然でなければ接続詞と判断する。
行ってきて で なるたけ … 接続詞の「で」と解釈
• それ以外は語断片と見なし,本タグを付与する。
それについては(Dで)なるたけ … 語断片と解釈
c)上記以外で語断片か否かで迷う場合
上記以外で迷った場合には,原則として本タグを付与する。以下に典型的なケースを挙げる。
• 短単位かその断片かで迷う場合(例:「さいこ 最大級」の「さいこ」。「最古」か「最高」の断片かで迷う)。
(Dさいこ)最大級の & (Dサイコ)サイダイキューノ
• 口語表現か語断片かで迷う場合(例:「まじ 真面目に」の「まじ」。口語か「真面目」の断片かで迷う)。
(Dまじ)真面目に & (Dマジ)マジメニ