• 検索結果がありません。

第6章 形態論情報付きデータ

6.2. TSV データ

TSV データは、上記の形態論情報をタブ区切りの表形式テキストデータにしたものであ り、BCCWJのWeb検索サービス「中納言」の元になっているデータである。短単位・長 単位ごとに、別のテーブルとなっており、それぞれがサブコーパスごとに分割されている。

テキストデータの符号化形式はUTF-8(BOMなし)である。

短単位・長単位TSVはそれぞれ単独でも利用可能なように重複した情報を保持している。

6.2.1. 短単位TSVのフィールド

短単位のTSVデータのフィールド中身は表 3の通りである(左から順)。1短単位が1 レコード(行)となっている。

表 3 短単位TSVデータのフィールド

フィールド名 備考

サブコーパス名 サンプルID

文字開始位置 原文文字列のサンプル頭からのオフセット値

(10 きざみ)

文字終了位置

連番 サンプル内での長単位の並び順(10 きざみ)

出現形開始位置 書字形出現形のサンプル頭からのオフセット値

6-4 出現形終了位置 (10 きざみ)

固定長フラグ 0:固定長でない,1:固定長 可変長フラグ 0:可変長でない,1:可変長 文頭ラベル B:文頭,I:文頭以外

語彙表ID 書字形出現形のレベルで語を識別するID

(桁数が大きいためbigint型が必要)

語彙素ID UniDicの語彙素を識別するID

語彙素

短単位情報 語彙素読み

語彙素細分類 語種

品詞 活用型 活用形 語形 用法 書字形 書字形出現形 原文文字列 発音形出現形

文頭ラベルは、C-XMLのsentenceタグ開始位置を「B」としている。

「文字開始位置」「出現形開始位置」の別は、先述の「原文文字列」「書字形出現形」に 対応するものである。

短単位情報に含まれている原文文字列は、数字変換前の文字列である。数字変換した結 果の文字列が複数の単位に分割される場合には、表 4 のように当該範囲内のすべてに同じ 原文文字列が付与されている。

表 4 数字変換箇所の原文文字列との対応例 文字

開始位置

文字

終了位置 連番 出現形 開始位置

出現形

終了位置 書字形出現形 原文文字列

10 50 10 10 30 二千 2011

10 50 20 30 40 十 2011

10 50 30 40 50 一 2011

6-5

6.2.2. 長単位TSVのフィールド

長単位のTSVデータのフィールド中身は表 5の通りである(左から順)。1長単位が1 レコード(行)となっている。

表 5 長単位TSVデータのフィールド フィールド名 備考

サブコーパス名 サンプル ID

出現形開始位置 書字形出現形のサンプル頭からのオフセット値(10 きざみ)

出現形終了位置

文節 B:文節,空文字:文節でない

短長相違フラグ 短単位と長単位の範囲が一致しているかどうか 0:短長一致,1:短長相違

固定長フラグ 0:固定長でない,1:固定長 可変長フラグ 0:可変長でない,1:可変長 語彙素

長単位情報 語彙素読み

語種 品詞 活用型 活用形 語形 書字形 書字形出現形 原文文字列 発音形出現形

連番 サンプル内での長単位の並び順(10 きざみ)

文字開始位置 原文文字列のサンプル頭からのオフセット値(10 きざみ)

文字終了位置

文頭ラベル B:文頭,I:文頭以外

6.3. 統合XML形式データ

統合形式XMLデータ(M-XML)は、文字ベースのXML(C-XML)フォーマットをも とにして、可変長・固定長サンプルを統合し、言語構造を一定程度反映させたXMLフォー マットである。短単位・長単位の形態論情報を、階層構造を維持したまま埋め込み、言語

6-6

構造に関わる情報を扱いやすくしている。XMLファイルの符号化形式はUTF-8(BOMな し)である。

6.3.1. 可変長と固定長の統合

C-XMLでは、可変長サンプルと固定長サンプルが別のXML文書として構造化されてい

る。しかし、固定長サンプルは固定長サンプルと同一の文書から採集されているため、多 くの部分が重複している。こうしたデータに形態論情報を付与し整備する場合には、同一 内容のテキストは統合して扱うことができた方が望ましい。しかし、タグが交叉すること になるため、別の構造を持つ二つのXMLを単純に統合することはできない。そこで、統合 形式では次のような方法で可変長と固定長を統合することとした。

そもそも、文書構造を意識して採集された可変長サンプルとは違い、均一な長さのサン プルを取得する目的で作られた固定長サンプルでは、文書構造を示すブロック要素タグは 大きな意味を持たない。そこで、M-XML では、可変長サンプルの文書構造だけを保持し、

固定長の範囲は形態素(長単位)に付与する属性で示すこととした。可変長部分から固定 長 部 分 が は み 出 し て い る 場 合 に は 、 は み 出 し た 部 分 を 単 純 な コ ン テ ナ (<div type="fiexdLength">)で囲み、インライン要素だけを保持した。

M-XML は次のような属性を持つ mergedSample要素をルートとして上記の要素をまと

め上げている。

<mergedSample sampleID="サンプルID" type="BCCWJ‐MorphXML" version="1.0"> 

6.3.2. 異なる文書定義の統合

C-XMLは、サブコーパスによっては異なる文書定義(DTD)が用いられている。知恵袋

(OC)、ブログ(OY)、教科書(OT)、韻文(OV)は、おおよそ共通の構造を持ちながら も、一般の可変長サンプルとは異なるそれぞれ独自の文書定義によっている。そのため、

すべてのデータを統一的に処理しようとするとき問題となる場合がある。

そこで、M-XMLでは、タグセットを一部変更して、すべてのサブコーパスについて共通 の文書定義で処理できるようにしている。C-XMLに比較してやや緩い制約での検証になる が、すべてのXMLファイルは単一のXMLスキーマで検証済みである。この統合に際して 次のようなサブコーパス独自のタグを一部変更している。

OC : <OCQuestion> → <article articleID="サンプルID-Question">

<OCAnswer> → <article articleID="サンプルID-Answer">

OC,OY: <br type='physicalLine_original /> → <webBr/>

OT : <root> → <squareRoot>

検証に用いた XML スキーマは BCCWJ のホームページからダウンロードすることがで きる。

6-7

6.3.3. 形態論情報の階層構造

BCCWJにおける短単位・長単位・文節は、その定義から入れ子構造をなす。文節はこれ

が連なって文を構成するし、短単位は文字から構成されるから、BCCWJの形態論情報は、

結局次のような言語単位の階層構造の中に位置づけられることになる。

文章/文/文節/長単位/短単位/文字 

文書構造タグや階層化された形態論情報を活用するためには、この階層構造・包含関係 がそのままXMLフォーマットに反映されることが望ましい。この考え方に従い、M-XML では、次のような構造で形態論情報を付与した。

文書構造(ブロック)タグ/sentence(文)/LUW(長単位)/SUW(短単位)/文字  以下はそのサンプルとして一つの文(sentence 要素)を抜き出したものである(見やす さのため一部の属性を省略している)。

<sentence>

<LUW B="B" SL="v" l_lemma="公共工事請け負い金額" l_lForm="コウキョウコウジウケオイキンガク"

l_wType="混" l_pos="名詞-普通名詞-一般" >

<SUW lemma="公共" lForm="コウキョウ" wType="漢" pos="名詞-普通名詞-一般" pron="コーキョー">

公共 </SUW>

<SUW lemma="工事" lForm="コウジ" wType="漢" pos="名詞-普通名詞-サ変可能" pron="コージ">

工事 </SUW>

<SUW lemma="請け負い" lForm="ウケオイ" wType="和" pos="名詞-普通名詞-一般" pron="ウケオイ">

請負 </SUW>

<SUW lemma="金額" lForm="キンガク" wType="漢" pos="名詞-普通名詞-一般" pron="キンガク">

金額 </SUW>

</LUW>

<LUW SL="v" l_lemma="の" l_lForm="ノ" l_wType="和" l_pos="助詞-格助詞" >

<SUW lemma="の" lForm="ノ" wType="和" pos="助詞-格助詞" pron="ノ">の</SUW>

</LUW>

<LUW B="B" SL="v" l_lemma="動き" l_lForm="ウゴキ" l_wType="和" l_pos="名詞-普通名詞-一般" >

<SUW lemma="動き" lForm="ウゴキ" wType="和" pos="名詞-普通名詞-一般" pron="ウゴキ">

動き </SUW>

6-8 </LUW>

(略)

</sentence>

6.3.4. 短単位タグ(SUW)の属性

埋め込まれた短単位タグ(SUW)には表 6の属性が付与されている。※印の属性は、出 力する必要がない場合には、値だけでなく属性自体の出力を行っていない。

表 6 短単位タグ(SUW)の属性 属性名 備考

start

原文文字列のサンプル頭からのオフセット値(10 きざみ)

end

orderID 連番(TSVの連番と互換)

lemma 語彙素

lForm 語彙素読み

subLemma 語彙素細分類 ※区別がある場合のみ出力

wType 語種

pos 品詞

cType 活用型 ※活用語のみ出力

cForm 活用形 ※活用語のみ出力

formBase 語形

usage 用法 ※区別がある場合のみ出力

orthBase 書字形 ※活用語のみ出力

originalText 原文文字列 ※要素となるテキスト(=書字形出現形)と異

なる場合のみ出力

kanaToken 仮名形出現形 ※語形と異なる場合のみ出力

pronToken 出現発音形

なお、TSVにおける書字形出現形は、SUWタグが囲んでいるテキストに相当する。

仮名形出現形は、テキストに対する読みがな(あるいはIMEで入力する場合のカナ文字 列)に相当するものである。

6.3.5. 長単位タグ(LUW)の属性

埋め込まれた長単位タグ(LUW)には表 7の属性が付与されている。※印の属性は、出 力する必要がない場合には、値だけでなく属性自体の出力を行っていない。

6-9

表 7 長単位タグ(LUW)の属性 B 文・文節境界 文節境界=B,文境界=S SL サンプル長 固定長=f,可変長=v

l_lemma 語彙素

l_lForm 語彙素読み

l_wType 語種

l_pos 品詞

l_cType 活用型 ※活用語のみ出力

l_cForm 活用形 ※活用語のみ出力

l_formBase 語形

l_orthBase 書字形 ※活用語のみ出力

TSVにおける「長短一致」など、XMLの構造や、子となる短単位のタグから容易に取得 可能な情報は属性としては付与していない。

6.3.6. 文字ベースのXMLから変更したタグ

6.3.3で示した形態論情報の階層にC-XMLの諸要素を当てはめるならば、図 2のような

階層構造が考えられる(網掛けはすべてのテキストに必須の要素)。しかし、このときC-XML における諸要素がこの階層と齟齬を来すことが問題となる。M-XML では、以下のように

C-XMLのタグを修正することで対処している。

図 2 形態論情報付きXMLフォーマットの階層構造

文(sentence)タグ

C-XML では、文を示す sentence タグに入れ子を許しており、大きな文の中に複数の文

が何重にも含み込まれることがある。たとえば、次のように文中に引用がある場合には、

文書構造 タグ sentence

(文)タグ quoteタグ LUW(長単位)タグ

SUW(短単位)タグ ruby,文字修飾タグ

文字

注釈的要素タグ(空要素)

関連したドキュメント