第6章 形態論情報付きデータ(TSV)
6.5 M-XML の形態論情報タグ
表6-7: NumTransされたテキストの形態素と文字位置・連番の対応 文字
開始位置
文字
終了位置 連番 出現形 開始位置
出現形 終了位置
書字形出 現形
原文文字 列
10 40 10 10 30 五百 500
40 50 20 30 40 円
なお、NumTrans後の文字列が複数の単位に分割される場合には、表 6-8のように当該 範囲内のすべてに同じ原文文字列が付与されている。
表6-8: 数字変換箇所の原文文字列との対応例
文字 開始位置
文字
終了位置 連番 出現形 開始位置
出現形 終了位置
書字形出 現形
原文文字 列
10 50 10 10 30 二千 2015
10 50 20 30 40 十 2015
10 50 30 40 50 五 2015
50 60 40 50 60 年
</SUW>
</LUW>
<LUW B="B" SL="v" l_lemma="動き" l_lForm="ウゴキ" l_wType="和" l_pos="名詞-普通名詞-一般" >
<SUW lemma="動き" lForm="ウゴキ" wType="和" pos="名詞-普通名詞-一般" pron="ウゴキ">
動き </SUW>
</LUW>
長単位はLUWタグ、短単位はSUWタグで表現され、形態論情報はその属性値として与 えられている。LUW要素は、ひとつ以上のSUW要素を子要素としてもつ。
6.5.1 短単位タグ(SUW)の属性
埋め込まれた短単位タグ(SUW)には表6-9の属性が付与されている。※印の属性は、
出力する必要がない場合には、値だけでなく属性自体の出力を行っていない。
表6-9: 短単位タグ(SUW)の属性
属性名 備考
start
原文文字列のサンプル頭からのオフセット値(10きざみ)
end
orderID 連番(TSVの連番と互換)
lemma 語彙素
lForm 語彙素読み
subLemma 語彙素細分類 ※区別がある場合のみ出力
wType 語種
pos 品詞
cType 活用型 ※活用語のみ出力
cForm 活用形 ※活用語のみ出力
formBase 語形
usage 用法 ※区別がある場合のみ出力
orthBase 書字形 ※活用語のみ出力
originalText 原文文字列 ※要素となるテキスト(=書字形出現形)と異
なる場合のみ出力
kanaToken 仮名形出現形 ※語形と異なる場合のみ出力
pronToken 出現発音形
なお、TSVにおける書字形出現形は、SUWタグが囲んでいるテキストに相当する。
仮名形出現形は、テキストに対する読みがな(あるいはIMEで入力する場合のカナ文字 列)に相当するものである。
6.5.2 長単位タグ(LUW)の属性
埋め込まれた長単位タグ(LUW)には表6-10の属性が付与されている。※印の属性は、
出力する必要がない場合には、値だけでなく属性自体の出力を行っていない。
また、TSV における「長短一致」など、M-XML の構造や、子要素となる短単位のタグ から容易に取得可能な情報は属性としては付与していない。
表6-10: 長単位タグ(LUW)の属性
属性名 備考
B 文・文節境界 文節境界=B、文境界=S SL サンプル長 固定長=f、可変長=v
l_lemma 語彙素
l_lForm 語彙素読み
l_wType 語種
l_pos 品詞
l_cType 活用型 ※活用語のみ出力
l_cForm 活用形 ※活用語のみ出力
l_formBase 語形
l_orthBase 書字形 ※活用語のみ出力
参考文献
小木曽智信・中村壮範(2014)「『現代日本語書き言葉均衡コーパス』形態論情報アノテ ーション支援システムの設計・実装・運用」,『自然言語処理』21(2),301-332.
小澤俊介・内元清貴・伝康晴(2014)「BCCWJに基づく長単位解析ツール Comainu」,
『言語処理学会 第20回年次大会発表論文集』,582-585.
山田篤(2007)「数字列への読み付与―NumTrans と ChaOne―」,『特定領域「日本語 コーパス」平成19年度全体会議予稿集』,85-90.
山田篤・小磯花絵(2008)『NumTrans マニュアル』, The UniDic Consortium.