• 検索結果がありません。

完全バックアップ

● ● ●

図73 バックアップ方式の概念図

91

8.10.インデックスの再構築処理

 コーパスデータベースでは検索処理を高速化するためにインデックスを利用しているが、

特に短単位テーブルは総レコード数が多いため、インデックスの断片化が起こらないよう にすることは重要である。インデックスの再構築処理は非常に時間がかかるため、完全バ ックアップ同様週末に行っている。またその際には、インデックスのページファイルが分 割される頻度を抑えるために、ページファイルに一定の割合で空き領域を設けている。

9.データのインポート・エクスポート

9.データのインポート・エクスポート

9.1.概要

 ここでは、形態論情報データベース内の各種のデータを取り出したり(エクスポート)、

形態素解析結果をデータベースに取り込んだり(インポート)する際の手順と形式にっい て述べる。なかでも重要な次の3つのケースについて説明する。

 1.形態素解析辞書の元となるデータ(学習用コーパスと語彙表)のエクスポート  2.XML形式のBCCWJサンプルの形態素解析結果のインポート

 3.人手修正済みデータ(コアデータ)のXML形式でのエクスポート

9.2.形態素解析辞書作成データのエクスポート

 形態論情報データベースの役割の一っに、辞書データベースの見出し語と、コーパスデ タベースの人手修正データを、形態素解析器(ChaSen, MeCab)の学習用コーパスとし て提供することが挙げられる。

 現在用いている形態素解析辞書の学習用ツールでは、活用型を展開した語彙表(Lex.txt)

と、人手修正コーパス(corpus.txt)を必要とする。いずれもタブ区切りの表形式のテキス トで、DBMSの管理ツール(SQL Server Management Studio)上で、 SQL文を実行する ことよって出力される。形式は次の通りである。なお、いずれのテキストデータも文字符 号化方式をUTF−8に変換する必要がある。

Lex.b(t

 語彙素読み,語彙素細分類っき語彙素,類,語形(基本形),出現語形,品詞,活用型,活用形,書 字形(基本形),出現書字形,発音形(基本形),出現発音形,語頭変化型,語頭変化形,語頭変 化結合型,語末変化型,語末変化形,語末変化結合型,仮名形(基本形),出現仮名形,アクセント 型,アクセント結合型,アクセント修飾型,状態,語種

corpus.txt

 コーパス名,サンプルID,文字開始位置,文字終了位置,文境界,出現書字形,出現発音形,語彙 素読み,語彙素細分類つき語彙素,原文文字列,品詞,活用型,活用形,学習フラグ,付加情報,語種

 なお、語彙素細分類つき語彙素とは、語彙素細分類の値が空の場合には語彙素を、空で ない場合には「語彙素・語彙素細分類」の形式で出力したもの、付加情報はBCCWJ以外の コーパスで特有の情報を保存するための項目である。

93

9.3.形態素解析結果のインポート

 BCCWJのサンプルはXML形式でリリースされる。このデータに形態素解析を施し、形 態論情報データベースにインポートする手順について述べる。

 形態論情報データベースでは、XML形式のデータをそのまま取り込むのではなく、関係 データベースの表に変換し、それらの表を文字位置をキーにしたIDで相互に関係付けるこ

とによって、データベース上でXML文書の構造を再現している。ただし、 XML文書の全 てのタグについてではなく、辞書登録やコーパス修正に必要な範囲でのタグについてのみ 表として取り込み、それ以外のタグについては元の形のまま保存している(4.1・35ページ

参照)。

 コ頭 タペ轍ス 文字修正タグ

文字修正表 文字・文字位置

文字表

晦括 功 驚  ⁝  ⁝羅

形態素

サンプル}ぴ 開始位邑

終了位最 で閲連づけ

 雀X素MタLグ 奇

短単位表

BC◎胡

統合X岨  本文

(merged)

関連したドキュメント