第2週 - 『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装

完全バックアップ

● ● ●

図73 バックアップ方式の概念図

8．10．インデックスの再構築処理

コーパスデータベースでは検索処理を高速化するためにインデックスを利用しているが、

特に短単位テーブルは総レコード数が多いため、インデックスの断片化が起こらないようにすることは重要である。インデックスの再構築処理は非常に時間がかかるため、完全バックアップ同様週末に行っている。またその際には、インデックスのページファイルが分割される頻度を抑えるために、ページファイルに一定の割合で空き領域を設けている。

9．データのインポート・エクスポート

9．1．概要

ここでは、形態論情報データベース内の各種のデータを取り出したり（エクスポート）、

形態素解析結果をデータベースに取り込んだり（インポート）する際の手順と形式にっいて述べる。なかでも重要な次の3つのケースについて説明する。

1．形態素解析辞書の元となるデータ（学習用コーパスと語彙表）のエクスポート 2．XML形式のBCCWJサンプルの形態素解析結果のインポート

3．人手修正済みデータ（コアデータ）のXML形式でのエクスポート

9．2．形態素解析辞書作成データのエクスポート

形態論情報データベースの役割の一っに、辞書データベースの見出し語と、コーパスデータベースの人手修正データを、形態素解析器（ChaSen， MeCab）の学習用コーパスとして提供することが挙げられる。

現在用いている形態素解析辞書の学習用ツールでは、活用型を展開した語彙表（Lex．txt）

と、人手修正コーパス（corpus．txt）を必要とする。いずれもタブ区切りの表形式のテキストで、DBMSの管理ツール（SQL Server Management Studio）上で、 SQL文を実行することよって出力される。形式は次の通りである。なお、いずれのテキストデータも文字符号化方式をUTF−8に変換する必要がある。

Lex．b（t

語彙素読み，語彙素細分類っき語彙素，類，語形（基本形），出現語形，品詞，活用型，活用形，書字形（基本形），出現書字形，発音形（基本形），出現発音形，語頭変化型，語頭変化形，語頭変化結合型，語末変化型，語末変化形，語末変化結合型，仮名形（基本形），出現仮名形，アクセント型，アクセント結合型，アクセント修飾型，状態，語種

corpus．txt

コーパス名，サンプルID，文字開始位置，文字終了位置，文境界，出現書字形，出現発音形，語彙素読み，語彙素細分類つき語彙素，原文文字列，品詞，活用型，活用形，学習フラグ，付加情報，語種

なお、語彙素細分類つき語彙素とは、語彙素細分類の値が空の場合には語彙素を、空でない場合には「語彙素・語彙素細分類」の形式で出力したもの、付加情報はBCCWJ以外のコーパスで特有の情報を保存するための項目である。

9．3．形態素解析結果のインポート

BCCWJのサンプルはXML形式でリリースされる。このデータに形態素解析を施し、形態論情報データベースにインポートする手順について述べる。

形態論情報データベースでは、XML形式のデータをそのまま取り込むのではなく、関係データベースの表に変換し、それらの表を文字位置をキーにしたIDで相互に関係付けるこ

とによって、データベース上でXML文書の構造を再現している。ただし、 XML文書の全てのタグについてではなく、辞書登録やコーパス修正に必要な範囲でのタグについてのみ表として取り込み、それ以外のタグについては元の形のまま保存している（4．1・35ページ

参照）。

コ頭ス亨タペ轍ス文字修正タグ

文字修正表文字・文字位置

文字表

晦括功驚 ⁝ ⁝羅

不要

整

形態素

サンプル｝ぴ開始位邑

終了位最で閲連づけ

雀X素MタLグ奇

短単位表

BC◎胡

統合X岨本文

（merged）

ドキュメント内『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装 (ページ 99-102)