TSV データ

第６章形態論情報付きデータ

6.2. TSV データ

TSV データは、上記の形態論情報をタブ区切りの表形式テキストデータにしたものであり、BCCWJのWeb検索サービス「中納言」の元になっているデータである。短単位・長単位ごとに、別のテーブルとなっており、それぞれがサブコーパスごとに分割されている。

テキストデータの符号化形式はUTF-8（BOMなし）である。

短単位・長単位TSVはそれぞれ単独でも利用可能なように重複した情報を保持している。

6.2.1. 短単位TSVのフィールド

短単位のTSVデータのフィールド中身は表 3の通りである（左から順）。１短単位が1 レコード（行）となっている。

表 3 短単位TSVデータのフィールド

フィールド名備考

サブコーパス名サンプルID

文字開始位置原文文字列のサンプル頭からのオフセット値

（10 きざみ）

文字終了位置

連番サンプル内での長単位の並び順（10 きざみ）

出現形開始位置書字形出現形のサンプル頭からのオフセット値

6-4 出現形終了位置（10 きざみ）

固定長フラグ 0:固定長でない，1:固定長可変長フラグ 0:可変長でない，1:可変長文頭ラベル B:文頭，I:文頭以外

語彙表ID 書字形出現形のレベルで語を識別するID

（桁数が大きいためbigint型が必要）

語彙素ID UniDicの語彙素を識別するID

語彙素

短単位情報語彙素読み

語彙素細分類語種

品詞活用型活用形語形用法書字形書字形出現形原文文字列発音形出現形

文頭ラベルは、C-XMLのsentenceタグ開始位置を「B」としている。

「文字開始位置」「出現形開始位置」の別は、先述の「原文文字列」「書字形出現形」に対応するものである。

短単位情報に含まれている原文文字列は、数字変換前の文字列である。数字変換した結果の文字列が複数の単位に分割される場合には、表 4 のように当該範囲内のすべてに同じ原文文字列が付与されている。

表 4 数字変換箇所の原文文字列との対応例文字

開始位置

文字

終了位置連番出現形開始位置

出現形

終了位置書字形出現形原文文字列

10 50 10 10 30 二千２０１１

10 50 20 30 40 十２０１１

10 50 30 40 50 一２０１１

6-5

6.2.2. 長単位TSVのフィールド

長単位のTSVデータのフィールド中身は表 5の通りである（左から順）。１長単位が1 レコード（行）となっている。

表 5 長単位TSVデータのフィールドフィールド名備考

サブコーパス名サンプル ID

出現形開始位置書字形出現形のサンプル頭からのオフセット値（10 きざみ）

出現形終了位置

文節 B:文節，空文字:文節でない

短長相違フラグ短単位と長単位の範囲が一致しているかどうか 0:短長一致，1:短長相違

固定長フラグ 0:固定長でない，1:固定長可変長フラグ 0:可変長でない，1:可変長語彙素

長単位情報語彙素読み

語種品詞活用型活用形語形書字形書字形出現形原文文字列発音形出現形

連番サンプル内での長単位の並び順（10 きざみ）

文字開始位置原文文字列のサンプル頭からのオフセット値（10 きざみ）

文字終了位置

文頭ラベル B:文頭，I:文頭以外

6.3. 統合XML形式データ

統合形式XMLデータ（M-XML）は、文字ベースのXML（C-XML）フォーマットをもとにして、可変長・固定長サンプルを統合し、言語構造を一定程度反映させたXMLフォーマットである。短単位・長単位の形態論情報を、階層構造を維持したまま埋め込み、言語

6-6

構造に関わる情報を扱いやすくしている。XMLファイルの符号化形式はUTF-8（BOMなし）である。

6.3.1. 可変長と固定長の統合

C-XMLでは、可変長サンプルと固定長サンプルが別のXML文書として構造化されてい

る。しかし、固定長サンプルは固定長サンプルと同一の文書から採集されているため、多くの部分が重複している。こうしたデータに形態論情報を付与し整備する場合には、同一内容のテキストは統合して扱うことができた方が望ましい。しかし、タグが交叉することになるため、別の構造を持つ二つのXMLを単純に統合することはできない。そこで、統合形式では次のような方法で可変長と固定長を統合することとした。

そもそも、文書構造を意識して採集された可変長サンプルとは違い、均一な長さのサンプルを取得する目的で作られた固定長サンプルでは、文書構造を示すブロック要素タグは大きな意味を持たない。そこで、M-XML では、可変長サンプルの文書構造だけを保持し、

固定長の範囲は形態素（長単位）に付与する属性で示すこととした。可変長部分から固定長部分がはみ出している場合には、はみ出した部分を単純なコンテナ（<div type="fiexdLength">）で囲み、インライン要素だけを保持した。

M-XML は次のような属性を持つ mergedSample要素をルートとして上記の要素をまと

め上げている。

6.3.2. 異なる文書定義の統合

C-XMLは、サブコーパスによっては異なる文書定義（DTD）が用いられている。知恵袋

（OC）、ブログ（OY）、教科書（OT）、韻文（OV）は、おおよそ共通の構造を持ちながらも、一般の可変長サンプルとは異なるそれぞれ独自の文書定義によっている。そのため、

すべてのデータを統一的に処理しようとするとき問題となる場合がある。

そこで、M-XMLでは、タグセットを一部変更して、すべてのサブコーパスについて共通の文書定義で処理できるようにしている。C-XMLに比較してやや緩い制約での検証になるが、すべてのXMLファイルは単一のXMLスキーマで検証済みである。この統合に際して次のようなサブコーパス独自のタグを一部変更している。

OC ： <OCQuestion> → <article articleID="サンプルID-Question">

OC，OY： <br type='physicalLine_original /> → <webBr/>

OT ： <root> → <squareRoot>

検証に用いた XML スキーマは BCCWJ のホームページからダウンロードすることができる。

6-7

6.3.3. 形態論情報の階層構造

BCCWJにおける短単位・長単位・文節は、その定義から入れ子構造をなす。文節はこれ

が連なって文を構成するし、短単位は文字から構成されるから、BCCWJの形態論情報は、

結局次のような言語単位の階層構造の中に位置づけられることになる。

文章／文／文節／長単位／短単位／文字

文書構造タグや階層化された形態論情報を活用するためには、この階層構造・包含関係がそのままXMLフォーマットに反映されることが望ましい。この考え方に従い、M-XML では、次のような構造で形態論情報を付与した。

文書構造（ブロック）タグ／sentence（文）／LUW（長単位）／SUW（短単位）／文字以下はそのサンプルとして一つの文（sentence 要素）を抜き出したものである（見やすさのため一部の属性を省略している）。

<LUW B="B" SL="v" l_lemma="公共工事請け負い金額" l_lForm="コウキョウコウジウケオイキンガク"

l_wType="混" l_pos="名詞-普通名詞-一般" >

公共 </SUW>

工事 </SUW>

請負 </SUW>

金額 </SUW>

</LUW>

</LUW>

動き </SUW>

6-8 </LUW>

（略）

</sentence>

6.3.4. 短単位タグ（SUW）の属性

埋め込まれた短単位タグ（SUW）には表 6の属性が付与されている。※印の属性は、出力する必要がない場合には、値だけでなく属性自体の出力を行っていない。

表 6 短単位タグ（SUW）の属性属性名備考

start

原文文字列のサンプル頭からのオフセット値（10 きざみ）

end

orderID 連番（TSVの連番と互換）

lemma 語彙素

lForm 語彙素読み

subLemma 語彙素細分類 ※区別がある場合のみ出力

wType 語種

pos 品詞

cType 活用型 ※活用語のみ出力

cForm 活用形 ※活用語のみ出力

formBase 語形

usage 用法 ※区別がある場合のみ出力

orthBase 書字形 ※活用語のみ出力

originalText 原文文字列 ※要素となるテキスト（＝書字形出現形）と異

なる場合のみ_出力

kanaToken 仮名形出現形 ※語形と異なる場合のみ出力

pronToken 出現発音形

なお、TSVにおける書字形出現形は、SUWタグが囲んでいるテキストに相当する。

仮名形出現形は、テキストに対する読みがな（あるいはIMEで入力する場合のカナ文字列）に相当するものである。

6.3.5. 長単位タグ（LUW）の属性

埋め込まれた長単位タグ（LUW）には表 7の属性が付与されている。※印の属性は、出力する必要がない場合には、値だけでなく属性自体の出力を行っていない。

6-9

表 7 長単位タグ（LUW）の属性 B 文・文節境界文節境界=B，文境界=S SL サンプル長固定長=f，可変長=v

l_lemma 語彙素

l_lForm 語彙素読み

l_wType 語種

l_pos 品詞

l_cType 活用型 ※活用語のみ出力

l_cForm 活用形 ※活用語のみ出力

l_formBase 語形

l_orthBase 書字形 ※活用語のみ出力

TSVにおける「長短一致」など、XMLの構造や、子となる短単位のタグから容易に取得可能な情報は属性としては付与していない。

6.3.6. 文字ベースのXMLから変更したタグ

6.3.3で示した形態論情報の階層にC-XMLの諸要素を当てはめるならば、図 2のような

階層構造が考えられる（網掛けはすべてのテキストに必須の要素）。しかし、このときC-XML における諸要素がこの階層と齟齬を来すことが問題となる。M-XML では、以下のように

C-XMLのタグを修正することで対処している。

図 2 形態論情報付きXMLフォーマットの階層構造

文（sentence）タグ

C-XML では、文を示す sentence タグに入れ子を許しており、大きな文の中に複数の文

が何重にも含み込まれることがある。たとえば、次のように文中に引用がある場合には、

文書構造タグ sentence

(文)タグ quoteタグ LUW(長単位)タグ

SUW(短単位)タグ ruby,文字修飾タグ

文字

注釈的要素タグ（空要素）

ドキュメント内『現代日本語書き言葉均衡コーパス』マニュアル(DVDデータv1.0対応) (ページ 93-103)

第６章 形態論情報付きデータ

6.2. TSV データ

第６章形態論情報付きデータ