• 検索結果がありません。

※ NumTransによる数字変換を経た場合にはfractionタグの仕様が異なる。詳細につ   いてはNumTransのマニュアルを参照のこと。

6,6.3,テーブル間の整合性について

 対話式数字変換処理をした際は、短単位テーブル以外のテーブルも更新し、関連する各 テーブル間に矛盾が起こらないようにしている。

 まず、対話式数字変換処理によって短単位テーブルが更新され、次に数字タグ情報が数 字テーブルに保存される。また、対話式数字変換処理は短単位の出現書字形が変更される 処理なので、長単位テーブルも更新される。

 さらに、出現書字形が変更されるということは、文開始位置・文終了位置も変更される ことになるので、短単位テーブルの文開始位置・終了位置と文テーブルも更新される。た だしこの処理はリアルタイムではなくジョブ処理により行われる。

77

コーパスデータベース

   ︵         ⇔         一

   一         ⊇         一   一         ㎏         

ーーー1ーー﹁←llーーー1−IートーーII−Il−1ーーIIし

数字テーブル

短単位テーブル

長単位テーブル

文テーブル

 ぼもノも ノッノノ

 と︑ ﹁喝 ︑  

   ︑

㌧ V パ・ ♪8︑

︑  ︑   ︐︑   ︐4 ︑     

文字テーブル

(文テーブルはジョブにより更新される)

図62 対話式数字変換時の各テーブルの対応関係

6.コーパスデータベース用アプリケーション・大納言

6.7.文字修正処理

6,7,1.文字修正処理の概要

文字修正処理は、文字テーブルにある文字を別の文字に変更したり、文字の追加・削除 をするための処理である。大納言では文字修正モードに切り替えることで文字修正機能が 利用できる。

欲1致欲王烈瀕Z㎡ 瀕蟻『}硯写鯨モー剛敢1拶蒸三ヒ五鱒.、_. ℃orrectbnモード

ぐ  ア      ロ ア コ クアアア ア アア ア      コ

  分翻縫合    対話』m 1〔議こ 4口b修正

 鯨^ ・・「 _一

 鯖」.  ファイル名  司   ド.o泌N.㎜一c     o泌×t㎜c

  !衡x㎜・

  ,〆、㎝6x・㎜∫

    o泌×ooo刃c   ㍍o枇,㎜叉   「一◎踊x一㎜∫

  :・繊=:

  『馳,c泌x.㎜ooぷ     c鴇x一㎜]−c   ,  C 幡x㎜〕c

  l o櫛x㎜c

  」 舗x,ocω〕−c iレコード 同 ぐ4/1田7  ■ 旬

オーダー .1     10     30     犯     60     濁     go     10D     ]10     〕冗     130     140

,1  烏

鮪文脈

        1

      1日本文化の疑⑱こよ砥古     1 日本文fヒの発 ●オニよ灘文↓ヒ   1日本文化の発億による蹴文化父;至   }日本文↓ヒの発ぼによ捌文化交え(の 1日本文化の発1盲1こよる圃隊文化文えの婚遣     検索     、41., ..一_^

       1手.  7     イチ

        1        1      1目本     1日本文化    「日本文化の  1 日下文1ヒの発↓言 1日本文化の魔億に B不文∫ヒの発借による

H丘件殻:

      !全てOn i全てα1       ∨  .,.. .   〉        ,並ぺ書え

      1   錨   [艶

▼ギー ▼         後文ば         .騎怠需i萩.

  1  日本文化の発傭による国際文化交漬の捲遠(D文化月イチ      日本文化の発個:よ遮文化文流の撞遁(1)文化序:

  日本 文(ヒの発億によ遮文i口,置の推通〈1>文化庁文化ハニノポン   文化 の尭佃こよる口培文化記竃の掩迩㈹文化斤文化5む竃〔プンカ   の発1●による国際文化交;竃の循遠(1)文化斤文{ヒ驚竃便)ノ   発億 にょ遮文化交濠の抱遺(1)文{U〒文f口弐便事類 ハッシノ   に  よ嶺刃陪文化交魂の推遠n>文1ヒ庁文∫ヒ烹衷優事裏1 二   よる 阻囎文化交濠の推通(1)文化∫〒文化交竃便事裏1文flヨル   国際 文化交孟の簿追(1)文化斤文化交,竃便事累1文IU〒コクサイ   文化 文えの橿違(1)文化斤文化克5[倹亭冥1文化行文化,プン力   叉滝 の推通ω文化斤刻ヒ〜〜え便事類、文化斤文「ヒ叉濃n⊇ウ九ウ   の  権違(T)文化斤文化文;え便奉某1文rヒ斤文rヒ叉、竃優胃ノ   推違 (D文化庁文化文え便事茎1文1ヒ斤文1口凄便亭累 スイシン   (  1>文化斤文化3乙工庚事宴1文化斤文化交,蓋便事莫3     ・・    _、_[

一58・鱈一

         分割・結含処理の題囲

亜1、1弓綱Q1

ひへ▼ 4

墾集素 .

芸の㎜︑

   品i司    . 名1昨斑司 空白 名」肝固有名岡一地名一国

包}普幽一般

助i司一橿眠司 名詞一膏退名i昨サ変可竣 瑚吾格助詞 溺籾一一嚴 名▲吐昔遺名詞一一頒 名▲昨着遭名Jn一殴 名41卜昔蜘一サ変可佳 崩司一格堀司 名」昨青遠名同一サ変可能 褐助記号一括彊闇

。1,、←・!

     PBeぱθ

鐵㊥、;繍,.__ごi

         醐活用▲

      o

五按一ラ行一一4

    フフ 

 O泌x㎜c

 σ欺}X〔㎜c  o閣領,oo砲.o  O晒X〔0000⊂

 購x〔㎜c  o噛ex㏄㎝c

 o泌x㎜c  o哺x㎜〕c

レ⊃一ド 岡   1!19  惚. ファイル名     酬o田oo」c

    {こF

    o蘭x.㎜∫

   ∨三〇ぱ渓1㎜e   :}◎撒.㎜♪

  1}o胎鯵紗贋鵬ヱ

  ll{Lβ   〔 =㎜介 1亘一ドH 1!19

.一 .』㌧.

   10日        1    和1    ④}

   40t    s〕1    ばn    刀1    α〕1    901

ぼ る日文の発によ

ニッポ.ノ

ハツソノ ヨル コクサイ レ H

本化 信 る殿日文の発に鉋国

》  o論   .     .,      ・  匁●姐司

 蒙白  石守固有名P  名醒卜管過秘  助詞一格助1司  名占肝昔退名遣1  瑚司一梧助1司  勤胴一一股  五般一ラ行一一般  名1砕蒼通櫛

ク    ・

c別

9

イチ

r ,

       ニノポン        劫

一螂ぷ42㊥41の

      l        rl》ご1眠1〔tI       I 「 遠俸彫一一設 1㎞

   咀  べ      検索

.オーター. 出規書字形 ,語彙寿迷.

     辮等      イ夢      碑

     斑日家     二,粒      相文化     プンカ      難の      ノ      盤鮒     ハツシン      聴繧       二   、  謬購      , ●酋  _.

   略. ぶ      ‡燃

  1結含 殿剰紡  験素    ㎏x 未

瘤雲一;i.一…i

om喧願  脱字 原変換   誤変換

∀        α喝れほ・A

難㌫.自

 聯醇㊥㎜文化

正しL咄頑書字形

.。眺1

624蜘41亮借 評82田496θ3に 閲踊鰯頒よる

㎜19醐国階

. 醐活用型

培秦素 .    田司

空自

霊の端に拒く

名冊編司・捲鮒 名肩鰍押餓

,・ 一蟹鍍時獲婿葡電籾   戴鯖電頗   ぷ脳螢

9邑ぐ■ ︑  ︼.   ︷

_   ^ 一  _. _   _  r ^r一

=麟慈

㎞酬醐脚768薄

㎞の顧㎜文化

宕塑L脳捨  6容■■』■ト

ハ,多ぴ  ・・

ヨ s

        一1剛        寂媒醐に       ▼         号産B− 真        θ 出魂書字彫

蛭㎞ 未

べ1駄  未

劃司 corr㏄礎理

解析活用型 活用形

c㎝螂廼埋

出現発音形 or繧細   c,,博 1㎞  吻   CD岡

一一、

灘覇一?

       緬  て

1レコード・1!2 ・‥ 吐  《.・蒸 4

1  冑紀る 酋索対象コーパス【O呪Cαe】

拡大表示.文 コ::1

図63

文字修正処理の作業画面

6,7,2,文字修正処理の種類

文字の修正型の種類には表27に示すものがある。文字修正した際には、文字修正テープ ルに、修正箇所などとともに記録される。

文字修正の記録はBCCWJのcorrectionタグに相当するものであり、XML出力時には correctタグとして出力される。

79

表27 文字修正処理の種類

型 説明

誤字 文字の誤り 脱字 文字の脱落 術字 余分な文字の挿入

誤変換 誤変換による単語単位での誤字 6,7,3,テーブル間の整合性について

 文字修正処理における文字の追加・変更・削除は、対応する短単位テーブル、長単位テ

ブル、文テーブル等にも影響を与えるため、これらのテーブルも更新する必要がある。

 また、文字修正によって文字開始・終了位置が変更されることもあるため、この場合に もテーブル間の対応がとれるように文字開始・終了位置を更新する必要がある。文字修正 処理はこれらの対応が維持されるよう行われる。また処理の単純化と作業時のミスを避け るために、同一属性一括処理には対応していない。

 なお、図64にて数字テーブルが処理対象に含まれていないのは、対応するレコードを数 字テーブルに持つ短単位についての文字修正は、大納言で許可しないようにしているから である。このような部分について文字修正処理をする場合は、対応するレコードを数字テ

ブルから削除して、該当部分の数字テーブルと短単位テーブルの連動を解除する必要が ある。連動の解除は大納言の対話式数字変換処理を利用して行う。

 ﹈⁝︹ 証舞

◎.︐

コーパスデータベース

ーr;;i−−−ー−卜−ーーーー−−−ト−ー−−ー−ーL

振り仮名テーブル

文字修正テーブル

短単位テーブル

畏単位テーブル

        文字テーブル

ん,     ノ

,        . ク      ひらへ ぜ       の ヨ

・t   !        , へ〜

A,イ    ア 1

ご       プ    ロ

c、、ζ  //ぺ

     /

関連したドキュメント