• 検索結果がありません。

6.5.分割結合処理

6.5.1.分割結合処理の概要

 分割結合処理は語の区切り位置を修正して、さらに語に属性を付与するための処理であ

る。

  ㌫㌘〔竺響三【三燃讐響=㎜  一一漂㌻⊆一藷竺鷺『{

      畳ぺ●え       ≡

①    冴鵜 1門 雌   再1   ㎜   ▼百繧繊−°鋲 一鍋』 ㎜奮

領0凱●号入り).【■し込み】碗含●留で、メダルの 積類 .住昂、臨電音6号を萌記C甲100−61買取蓼:シュルイ 1550を賢いこ泉て、遠した.でも、アスビノメこUヴら 竈掴 があって祉の場合は処方せんが撮こなったといって、〜シュルイ  η0 口循の「ヒプペンギン」のよプこ循定千五壱万竃ら 稽熱 撚だが、爾衆チリ、ペルー二噛:すむ「フンボルトシュルイ

羽30トニ月煮ま〔ご六芳古を0ぬた.撹●と綱洪 種含 のソフト相巨」五月までこ二十六タイトル、靹こ五十:シュルイ

㎜出て、モの隼に■一一、三■創鴨の2 竈類 を作,九とこど遥人モの絵、,子■‡ごぷさた.励てσシュルイ 1田0刷抱う唱唆在日本で室GされていbW、4×4の全 稽類 のブうモデルも9本一の在■量でとりモうえクル笥コ曽シュルイ 10■0㌔兵が●コ3怠のも♂めてか組∫の健本、二 枝類 のブC杉クとちょっと■鳳たコルクの岐み木ヨこミニカーシュルイ 1鮪0ユバント、口3スクイズ、ひさ1‡ヒット・エンド・ランと4 種居 しかなかった.上力魂字芭とリヨロめわせで「飛ズシュルイ 習獅〇五%の邑縞庖兵違化するととtJこプレードを三刊9 種類 から二十七種■;二1嘱図し甲均二・九禄四)弁の0シュルイ

?789適ヒするととUこラレードを三†四種斑}、ら二十七 種類 に=額 胤平均二・吐%(四方円}の借得アップ珊えシュルイ  捌〕       3 種類  のジイ7ントバ:ノダを「中口旬巳監見」 人艮日冑【フ慣ソユルイ  610Z薗め扇うく中《舗二ある山岳塘書て「3これま唱コ 種笥 のジ◆イアントパ,ヴ汀梶丸きれ、パン釧時|工,るシュルイ

Wl  「」ら {ぽ     4一

名冊皆過名卜験 馴一1…一鹸 名肩遜臼←噛 名冊看途名舟一績

名一トー良

老胡一菅違名防一曽

名斑晋脚一偵 鍋昔緬一黄 名肝笛一一曽

名梼看違名訓トー鍍 名冊昔追名詞一一鮫

名研●道梧コ賃

②③

  フ ノ

 烈〕旬  22goη

 抽冷

 2?go刃

㎜ 

.?2goη レコード H   1!20

計用の﹄乱た゜呼

      ︵

1−−1111−1凡

蒜醤翌器

      外

       ︐ ひM

;クル

1債素

ロ       ワ       ロ      ン      ロ       ト       ト      ひ

簡     一 用      一の     崩叶栢踊n 二     名問ト始司

萄■    −      1 を      崩●幡廟同

ロる       ゆサ ば     お  ぴ      ヨジロぽロゆ

}   綴嵜一旬ぱ脳i頼   γ止形会一鏡

6.コーパスデータベース用アプリケーション・大納言

劉F.出矯禰灘

lL賦F噸謙

出舵:iに  ㎞xFulψ)サブラ≒オーム

蓼駕ド 菟 7蕪▼艦         鵠ξ こ

海㌦   驚助

髭 弓: ・ 胃 霧 ヨ1   胃

髭 弐   屠

 似る  ニル       用

乳≧ヨレヨ1ヨ1ヨ1

騨般‖‖ ㌶嬬肝竃

瀕脳

文語助訪1司プリ噺定

文鼠卵ヌ

上一段一ナ行 上一段→行 上一 9一ナ行 上一船一ナ行 上一船一ナ行 上一搬一ナ行 文語上一綬づ・行 文語上一般一ナ行

勘動詞ヂ

藷燐㌢断定

。圭:{6:;暮

圭二2:葬

ロード1い1/16 レ 材 シ

  上一頗一ナ行

  文簡上一 量一ナ行

  文萄よ一肝ナ行

※レコードを選択して0κボタンをケ上ンクしてください◆

灘一殼▼

  》  OK

図52 語彙表テーブル参照用画面

6.5,2.分割結合時のデータチェック機能一覧

 大納言では、分割結合処理時に各種のデータチェックを行っており、データに不整合が 起こらないようにしている。データチェックの種類と詳細は下記の通りである。

       表24 分割結合時のデータチェック機能

名称 チェック内容 タイミング 適用されるモー

同一属性チェック

大納言では同一属性を持つ語を一括で処理をすることができる。

逆にいうと、同一属性でない語は一括処理できない。同一属性チェ

ックは、処理しようとしている複 数の語が同じ属性値であるかを 調査する処理である。同一属性チ ェックを行う項目は以下の通り で、これらの項目が同じ値を格納

していれば、一括処理を行うこと ができる。

 ・出現書字形  ・出現発音形  ・品詞  ・活用型  ・活用形  ・語彙素読み  ・語彙素  ・語彙素細分類

ツール操作時

短単位 長単位 数字変換処理

文境界チェック 文境界を越えて処理することは

できない。 ツール操作時

短単位 長単位 数字変換処理 65

連番端数チェック 連番が10の倍数でないものは処

理することはできない。 ツール操作時

短単位 長単位 数字変換処理 文字修正処理 数字タグ境界チェッ 数字タグ境界を越えて処理する

ことはできない。 ツール操作時

短単位

長単位 文字修正

数字タグ範囲チェッ

数字タグ範囲内は処理できない。 ツール操作時 文字修正

文脈整合性チェック

1

作業テーブルにおいて修正前と

修正後の文脈の相違をチェック。 ツール操作時 短単位 長単位 文脈整合性チェック

2

作業テーブルと短単位テーブル の文脈の相違をチェック。

分割結合処理

短単位 長単位 文脈整合性チェック

3

実際に処理を行った結果につい て、処理前後の文脈の相違をチェ

ック。

分割結合処理

短単位 長単位

6,5.3.同一属性レコードの一括処理

 大納言では、同じ属性値を持つ複数の語については、一括処理をすることができる。ま た一括処理に関する作業を補助する機能も実装している。以下に一括処理の例を示す。な お、同一属性チェックを行う項目は出現書字形・出現発音形・品詞・活用型・活用形・語 彙素読み・語彙素・語彙素細分類である。

単純な同一属性一括処理例

誤った語の属性

正しい語の属性

↓一括処理

6.コーパスデータベース用アプリケーション・大納言

複雑な同一属性一括処理パターン例

誤った語の属性

正しい語の属性

↓一括処理

 同一属性の一括選択は、フォーム上のボタンをクリックすることで行う。このボタンに より、KWICで作業者が選択中のものと同じ属性(前後の処理範囲の語の属性まで同じも の)を持つものを自動で選択することができる。

67

・塒{讐対㍍パス、

        聞性全て伽芸慧9轟困騰

睡鶉璽コ

並ぺ替え      iPB三〇re

1・二二二玉崔:二白a・. _自4ご_磁國i聯:㌫

     図53 同一属性レコードの一括選択ボタン

…ヨ

6,5.4,文字位置取得処理

 短単位テーブルを更新する場合には、文字テーブルとの間でサンプルID、文字開始位置、

文字終了位置の対応関係を保つ必要がある。複数の短単位を一括処理する場合や、短単位 が文字修正(文字開始位置・終了位置に端数を格納している)されている場合も同様であ る。このように処理時に短単位テーブルと文字テーブルの対応をとるための処理が文字位 置取得処理である。

 文字位置取得処理は短単位テーブル更新処理時に呼び出される。文字位置取得処理は文 字テーブルを参照して作業用テーブルに文字開始位置・終了位置を入力する。短単位テー ブルを更新するストアドプロシージャはこの作業用テーブルを利用して短単位テーブルを 更新する(図54)。

6.コーパスデータベース用アプリケーション・大納言

分割結合前 文字テーブル

團竪:::1

10  20  こ

20 30 れ 30 40  は

40  50  ぺ 50  60  ン

  文字開始

  終了位置が    対応

、    9      1     シ   コ       ロ   ノ シ  コ      ロ  ノ

  ・」      レ

♪10 10  40

20  40   90

60  70  で 70  80 す く、

文字開始 終了位置が

 対応

これは ペンです。

10  10 80  90  。

20  30 30  40 40  60 50  80

30 40 60 80 90

これ

ペン です

o

文字テーブル

(文字修正処理をした部分),4     卜、

       グ  ロ      ハ ヘ       プノ      オ  ヘへ

閨閨霞く∵藁罫\⑩

      の      ト    ロ       コ

関連したドキュメント