• 検索結果がありません。

第6章 形態論情報付きデータ(TSV)

6.5 M-XML の形態論情報タグ

表6-7: NumTransされたテキストの形態素と文字位置・連番の対応 文字

開始位置

文字

終了位置 連番 出現形 開始位置

出現形 終了位置

書字形出 現形

原文文字 列

10 40 10 10 30 五百 500

40 50 20 30 40 円

なお、NumTrans後の文字列が複数の単位に分割される場合には、表 6-8のように当該 範囲内のすべてに同じ原文文字列が付与されている。

表6-8: 数字変換箇所の原文文字列との対応例

文字 開始位置

文字

終了位置 連番 出現形 開始位置

出現形 終了位置

書字形出 現形

原文文字 列

10 50 10 10 30 二千 2015

10 50 20 30 40 十 2015

10 50 30 40 50 五 2015

50 60 40 50 60 年

</SUW>

</LUW>

<LUW B="B" SL="v" l_lemma="動き" l_lForm="ウゴキ" l_wType="和" l_pos="名詞-普通名詞-一般" >

<SUW lemma="動き" lForm="ウゴキ" wType="和" pos="名詞-普通名詞-一般" pron="ウゴキ">

動き </SUW>

</LUW>

長単位はLUWタグ、短単位はSUWタグで表現され、形態論情報はその属性値として与 えられている。LUW要素は、ひとつ以上のSUW要素を子要素としてもつ。

6.5.1 短単位タグ(SUW)の属性

埋め込まれた短単位タグ(SUW)には表6-9の属性が付与されている。※印の属性は、

出力する必要がない場合には、値だけでなく属性自体の出力を行っていない。

表6-9: 短単位タグ(SUW)の属性

属性名 備考

start

原文文字列のサンプル頭からのオフセット値(10きざみ)

end

orderID 連番(TSVの連番と互換)

lemma 語彙素

lForm 語彙素読み

subLemma 語彙素細分類 ※区別がある場合のみ出力

wType 語種

pos 品詞

cType 活用型 ※活用語のみ出力

cForm 活用形 ※活用語のみ出力

formBase 語形

usage 用法 ※区別がある場合のみ出力

orthBase 書字形 ※活用語のみ出力

originalText 原文文字列 ※要素となるテキスト(=書字形出現形)と異

なる場合のみ出力

kanaToken 仮名形出現形 ※語形と異なる場合のみ出力

pronToken 出現発音形

なお、TSVにおける書字形出現形は、SUWタグが囲んでいるテキストに相当する。

仮名形出現形は、テキストに対する読みがな(あるいはIMEで入力する場合のカナ文字 列)に相当するものである。

6.5.2 長単位タグ(LUW)の属性

埋め込まれた長単位タグ(LUW)には表6-10の属性が付与されている。※印の属性は、

出力する必要がない場合には、値だけでなく属性自体の出力を行っていない。

また、TSV における「長短一致」など、M-XML の構造や、子要素となる短単位のタグ から容易に取得可能な情報は属性としては付与していない。

表6-10: 長単位タグ(LUW)の属性

属性名 備考

B 文・文節境界 文節境界=B、文境界=S SL サンプル長 固定長=f、可変長=v

l_lemma 語彙素

l_lForm 語彙素読み

l_wType 語種

l_pos 品詞

l_cType 活用型 ※活用語のみ出力

l_cForm 活用形 ※活用語のみ出力

l_formBase 語形

l_orthBase 書字形 ※活用語のみ出力

参考文献

小木曽智信・中村壮範(2014)「『現代日本語書き言葉均衡コーパス』形態論情報アノテ ーション支援システムの設計・実装・運用」,『自然言語処理』21(2),301-332.

小澤俊介・内元清貴・伝康晴(2014)「BCCWJに基づく長単位解析ツール Comainu」,

『言語処理学会 第20回年次大会発表論文集』,582-585.

山田篤(2007)「数字列への読み付与―NumTrans と ChaOne―」,『特定領域「日本語 コーパス」平成19年度全体会議予稿集』,85-90.

山田篤・小磯花絵(2008)『NumTrans マニュアル』, The UniDic Consortium.