※ NumTransによる数字変換を経た場合にはfractionタグの仕様が異なる。詳細につ いてはNumTransのマニュアルを参照のこと。
6,6.3,テーブル間の整合性について
対話式数字変換処理をした際は、短単位テーブル以外のテーブルも更新し、関連する各 テーブル間に矛盾が起こらないようにしている。
まず、対話式数字変換処理によって短単位テーブルが更新され、次に数字タグ情報が数 字テーブルに保存される。また、対話式数字変換処理は短単位の出現書字形が変更される 処理なので、長単位テーブルも更新される。
さらに、出現書字形が変更されるということは、文開始位置・文終了位置も変更される ことになるので、短単位テーブルの文開始位置・終了位置と文テーブルも更新される。た だしこの処理はリアルタイムではなくジョブ処理により行われる。
77
コーパスデータベース
︵ ⇔ 一
一 ⊇ 一 一 ㎏
一
,ーーー1ーー﹁←llーーー1−IートーーII−Il−1ーーIIし
数字テーブル
短単位テーブル
長単位テーブル
文テーブル
ぼもノも ノッノノ
一
、
と︑ ﹁喝 ︑
、
︑
㌧ V パ・ ♪8︑
︑ ︑ ︐︑ ︐4 ︑文字テーブル
(文テーブルはジョブにより更新される)
図62 対話式数字変換時の各テーブルの対応関係
6.コーパスデータベース用アプリケーション・大納言
6.7.文字修正処理
6,7,1.文字修正処理の概要
文字修正処理は、文字テーブルにある文字を別の文字に変更したり、文字の追加・削除 をするための処理である。大納言では文字修正モードに切り替えることで文字修正機能が 利用できる。
欲1致欲王烈瀕Z㎡ 瀕蟻『}硯写鯨モー剛敢1拶蒸三ヒ五鱒.、_. ℃orrectbnモード
ぐ ア ロ ア コ クアアア ア アア ア コ
分翻縫合 対話』m 1〔議こ 4口b修正
鯨^ ・・「 _一
鯖」. ファイル名 司 ド.o泌N.㎜一c o泌×t㎜c
!衡x㎜・
,〆、㎝6x・㎜∫
o泌×ooo刃c ㍍o枇,㎜叉 「一◎踊x一㎜∫
:・繊=:
『馳,c泌x.㎜ooぷ c鴇x一㎜]−c , C 幡x㎜〕c
l o櫛x㎜c
」 舗x,ocω〕−c iレコード 同 ぐ4/1田7 ■ 旬
︾
オーダー .1 10 30 犯 60 濁 go 10D ]10 〕冗 130 140
,1 烏
鮪文脈
1
1日本文化の疑⑱こよ砥古 1 日本文fヒの発 ●オニよ灘文↓ヒ 1日本文化の発億による蹴文化父;至 }日本文↓ヒの発ぼによ捌文化交え(の 1日本文化の発1盲1こよる圃隊文化文えの婚遣 検索 、41., ..一_^
1手. 7 イチ
1 1 1目本 1日本文化 「日本文化の 1 日下文1ヒの発↓言 1日本文化の魔億に B不文∫ヒの発借による
H丘件殻:
!全てOn i全てα1 ∨ .,.. . 〉 ,並ぺ書え
1 錨 [艶
▼ギー ▼ 後文ば .騎怠需i萩.
1 日本文化の発傭による国際文化交漬の捲遠(D文化月イチ 日本文化の発個:よ遮文化文流の撞遁(1)文化序:
日本 文(ヒの発億によ遮文i口,置の推通〈1>文化庁文化ハニノポン 文化 の尭佃こよる口培文化記竃の掩迩㈹文化斤文化5む竃〔プンカ の発1●による国際文化交;竃の循遠(1)文化斤文{ヒ驚竃便)ノ 発億 にょ遮文化交濠の抱遺(1)文{U〒文f口弐便事類 ハッシノ に よ嶺刃陪文化交魂の推遠n>文1ヒ庁文∫ヒ烹衷優事裏1 二 よる 阻囎文化交濠の推通(1)文化∫〒文化交竃便事裏1文flヨル 国際 文化交孟の簿追(1)文化斤文化交,竃便事累1文IU〒コクサイ 文化 文えの橿違(1)文化斤文化克5[倹亭冥1文化行文化,プン力 叉滝 の推通ω文化斤刻ヒ〜〜え便事類、文化斤文「ヒ叉濃n⊇ウ九ウ の 権違(T)文化斤文化文;え便奉某1文rヒ斤文rヒ叉、竃優胃ノ 推違 (D文化庁文化文え便事茎1文1ヒ斤文1口凄便亭累 スイシン ( 1>文化斤文化3乙工庚事宴1文化斤文化交,蓋便事莫3 ・・ _、_[
一58・鱈一
分割・結含処理の題囲
亜1、1弓綱Q1
ひへ▼ 4
一
墾集素 .
難躰
の
別に
勘鴎芸の㎜︑
品i司 . 名1昨斑司 空白 名」肝固有名岡一地名一国
包}普幽一般
助i司一橿眠司 名詞一膏退名i昨サ変可竣 瑚吾格助詞 溺籾一一嚴 名▲吐昔遺名詞一一頒 名▲昨着遭名Jn一殴 名41卜昔蜘一サ変可佳 崩司一格堀司 名」昨青遠名同一サ変可能 褐助記号一括彊闇
。1,、←・!
PBeぱθ
鐵㊥、;繍,.__ごi
醐活用▲
o
五按一ラ行一一4
レ
▼
フフ
−
O泌x㎜c
σ欺}X〔㎜c o閣領,oo砲.o O晒X〔0000⊂
購x〔㎜c o噛ex㏄㎝c
o泌x㎜c o哺x㎜〕c
レ⊃一ド 岡 1!19 惚. ファイル名 酬o田oo」c
{こF
o蘭x.㎜∫
∨三〇ぱ渓1㎜e :}◎撒.㎜♪
1}o胎鯵紗贋鵬ヱ
ll{Lβ 〔 =㎜介 1亘一ドH 1!19
.一 .』㌧.
10日 1 和1 ④}
40t s〕1 ばn 刀1 α〕1 901
醜
本 化
ぼ る日文の発によ
ニッポ.ノ
功ノ
ハツソノ ヨル コクサイ レ H
本化 信 る殿日文の発に鉋国
》 o論 . ., ・ 匁●姐司
蒙白 石守固有名P 名醒卜管過秘 助詞一格助1司 名占肝昔退名遣1 瑚司一梧助1司 勤胴一一股 五般一ラ行一一般 名1砕蒼通櫛
ク ・
c別
9
イチ
r ,
ニノポン 劫
一螂ぷ42㊥41の
l rl》ご1眠1〔tI I 「 遠俸彫一一設 1㎞
咀 べ 検索
.オーター. 出規書字形 ,語彙寿迷.
辮等 イ夢 碑
斑日家 二,粒 相文化 プンカ 難の ノ 盤鮒 ハツシン 聴繧 二 、 謬購 , ●酋 _.
略. ぶ ‡燃
1結含 殿剰紡 験素 ㎏x 未
瘤雲一;i.一…i
om喧願 脱字 原変換 誤変換
∀ α喝れほ・A
難㌫.自
聯醇㊥㎜文化
正しL咄頑書字形
.。眺1
624蜘41亮借 評82田496θ3に 閲踊鰯頒よる
㎜19醐国階
. 醐活用型
レ
培秦素 . 田司
⌒
空自
▼
口
肇 霊の端に拒く
名冊編司・捲鮒 名肩鰍押餓
,・ 一蟹鍍時獲婿葡電籾 戴鯖電頗 ぷ脳螢
9邑ぐ■ ︑ ︼. ︷
』
_ ^ 一 _. _ _ r ^r一
=麟慈
㎞酬醐脚768薄
㎞の顧㎜文化
∨
宕塑L脳捨 6容■■』■ト
ハ,多ぴ ・・
= ヨ s
一1剛 寂媒醐に ▼ 号産B− 真 θ 出魂書字彫
蛭㎞ 未
べ1駄 未
劃司 corr㏄礎理
解析活用型 活用形
^c㎝螂廼埋
吟
出現発音形 or繧細 c,,博 1㎞ 吻 CD岡
一
一一、
灘覇一?
緬 て
1レコード・1!2 ・‥ 吐 《.・蒸 縮 4 レ
1 冑紀る 酋索対象コーパス【O呪Cαe】
拡大表示.文 コ::1
図63
文字修正処理の作業画面6,7,2,文字修正処理の種類
文字の修正型の種類には表27に示すものがある。文字修正した際には、文字修正テープ ルに、修正箇所などとともに記録される。
文字修正の記録はBCCWJのcorrectionタグに相当するものであり、XML出力時には correctタグとして出力される。
79
表27 文字修正処理の種類
型 説明
誤字 文字の誤り 脱字 文字の脱落 術字 余分な文字の挿入
誤変換 誤変換による単語単位での誤字 6,7,3,テーブル間の整合性について
文字修正処理における文字の追加・変更・削除は、対応する短単位テーブル、長単位テ
ーブル、文テーブル等にも影響を与えるため、これらのテーブルも更新する必要がある。
また、文字修正によって文字開始・終了位置が変更されることもあるため、この場合に もテーブル間の対応がとれるように文字開始・終了位置を更新する必要がある。文字修正 処理はこれらの対応が維持されるよう行われる。また処理の単純化と作業時のミスを避け るために、同一属性一括処理には対応していない。
なお、図64にて数字テーブルが処理対象に含まれていないのは、対応するレコードを数 字テーブルに持つ短単位についての文字修正は、大納言で許可しないようにしているから である。このような部分について文字修正処理をする場合は、対応するレコードを数字テ
ーブルから削除して、該当部分の数字テーブルと短単位テーブルの連動を解除する必要が ある。連動の解除は大納言の対話式数字変換処理を利用して行う。
﹈⁝︹ 証舞
曾
◎.︐
コーパスデータベース
ーr;;i−−−ー−卜−ーーーー−−−ト−ー−−ー−ーL
振り仮名テーブル
文字修正テーブル
短単位テーブル
畏単位テーブル
文字テーブル
ん, ノ
, . 「 ク ひらへ ぜ の ヨ
、・t ! , へ〜
A,イ ア 1
ご プ ロ
c、、ζ //ぺ
/