国立国語研究所学術情報リポジトリ
同形異語判別への仮名・漢字変換処理の応用
著者 斎藤 秀紀
雑誌名 研究報告集
巻 7
ページ 109‑134
発行年 1986‑03
シリーズ 国立国語研究所報告 ; 85
URL http://doi.org/10.15084/00001322
国立国語研究藤報告85 研究報告集7 (1986)
同形一語判別への仮名・漢字変換処理の応用
斎 藤 秀 紀
1. はじめに
国立国語研究所下下国研)では,国語政策を決定するうえで参考になる 資料を収集・作成するため,各種の用語用字調査を行ってきた。用語調査 は,昭和27年に実施された『現代新聞の用語の一例s〔文献7〕が最初であ る。これは,引き続き行われる,婦人雑誌〔文献8〕・総合雑誌〔文献9〕・
雑誌九十種〔文献11〕調査の試行をかねたものである。また,昭和41年に は,調査規模の拡大をはかるためコンピュ 一一タを導入,同年から開始される 新聞3紙(朝日・読売・毎日朝夕刊3紙1年分)〔文献13〕の大量処理に使用さ れた。以後コンピュータは,小・中・高教科書〔文献14〕,日独・大都市に おける書語の社会調査,文献調査,KWIC用例集の作成など,資料収集と言 語研究に利用されてきた。しかし,コンピュータを使用した初期の用語調査 は,人手を申心とした作業の延長上にあり,機能を十分に活用しているとは いいがたかった。特に,新聞調査では終了まで約9年を要しており,この点 からも基本処理に重点がおかれていたといえる。これは,漢字処理に対する 技術力の未戒熟さと,大量データ処理に対応可能な単語分割方法の確定に問 題があったためと思われる。そのほか,調査の中間に人の判断を挿入したこ
とも原因の一つにあげられる。
本稿では,昭和59,60年度文部省科学研究費「国定読本の用語の研究」に おける50万長単位語調査(第3期〜第6期)用に開発したシステム機能を中 心に述べ,人間一機門門の相補処理によって,調査期聞と経費の削減が可能 209
になることを示す。なお,OCR方式の利用上の問題点について,4以下に OCR方式に対する改善試案を示した。
システムは「言語処理におけるターンアラウンド・システム」〔文献1〕
の考え方を基本に次の二点を拡張した。第一は,岡語異語判別処理にかんす る部分であり,第二はデータの統計的性質をシステムの運用に応驚したこと
である。
第一の機能によって,岡語畑鼠半弓処理を中心に,仮名表記の辞書による 意味の確定,冤出し語と五十音配列用理論コードの併用など,付加情報の統 一処理への道をひらいた。第二の機能からは,作業二七の短縮である。これ は,tt付加情報の分離一括処理, OCR(Optical Character Reader:光学式 文字読み取り装置)用紙上の情報に対する複写機能,同一・語形の類型化によ る作業データの疑似的劇減である。また,本稿では,第一と第二の結合によ って将来拡張すべき機能,すなわち辞書の総合化,データ分類上の動的キー 指示,仮名・漢字変換処理の同語異語判捌処理への応用,について方向を明 確にした。ここで,同語異語判別処理とは,圏定読本に現れる表記形で,同 じ語か異なる語かを半捌する操作をいう。基本形は,音・形・義の三要素を 組み合わせ,8種の類型から同音か異音かの判別をはぶいた4種について処 理を行う。
岡三 同語 行く(いく)/(ゆく),夜(よ)/(よる)
熔湯 いま(名詞)/(副詞),か(終助詞)/(副助詞)/
(並立助詞)
異形 同語 あまり/あんまり,みな/みんな,木/き/キ 山鼠 麻(あさ)/朝,入る(いる)/居る/射る
2. OCR方式による処理の概要
コンピュータを使用した用語用字調査は,新聞を対象とし昭翻41年から本 格的に行われた。調査システムは,それまでの人手による調査の経験をもと にコンピュータ化した。人手による方法の利点は,コンピュータ導入以前の 110
用語調査法,組織運用に人手による作業形態を生かせることにある。また,
調査内容を熟知している作業者の確保,要員教育から業務への段階的移行,
コンピュータ導入の初期抵抗を柔らげる効果が得られる。しかし一方では,
人手を中心とした作業を,そのままコンピュータ処理へ移行させることは,
システム設計,人員配分の適正化など,効率面で満足できない点も少なくな い。原因は,調査の重要部分をコンピュータ入力前にすべて人手によって処 理するため,データ修正,入カデータ量の増加,入力原稿作成にともなう清 書・転記作業が全体の効率をさげるためである。当然,効率の低下は調査の 畏期化をまねき,運用経費の増加,要員の確保と異動にともなう業務の引き 継ぎ,コンピュータの切り替えで問題が発生する。OCR方式は,このよう
な問題に対し,調査期間の短縮と費用の削減をはかる目的で計画された。要 求した機能は次の4点である。
︶ ︶ ︶
19αり0
︶4
入力原稿に対する事前編集事項を少なくすること。
一次入力の対象となるデータ数の劇減により経費軽減が可能なこと。
入出力媒体と作業用綬票の共通化をはかり,中間で発生するデータと の照合が容易なこと。また転記・清書などの中間作業を省略できるこ
と。
入力データ,作業内容が直視でき,調査者にとって作業内容が確認し やすいこと。
4項目の要求事項の採用によって,富民調査で障害となっていた点は解決 される。国定読本調査の実用システムは,調査量50万長単位語に対し約800 万円,期間2年間で対応しなければならない。このことからも,従:来の方式 と比べ費用,期閥,必要人員など二分の一・Y/下におさえることが必要にな る。本システムで採血したOCR方式は,薦紙価格,保存媒体の耐久性,手 書き文字の作業者への教育,濁音,畢濁音,拗音,挑音,促音などに特殊表 現が必要になる欠点がある。しかし,以下に示した利点を織しており,前述 の条件を満たすためには有効な方式である。
OCR方或り利点. 1,
瑛
1)作業台帳,入出力媒体をOCR用紙によって共用化できるため,デー タ転記のさいの誤り防止と清書など中間作業の省略が可能。
2)OCR用紙ヘデータを直接記入することによって,データ入力件数と 入力経費の削減が可能。
3)作業対象になる任意の用語が,事前に分類・配列できるため,作業目 的甥の帳票編集により作業の効率化が可能。
4)OCR用紙によるデータ記入処理の分散と機械処理の簡素化によリシ ステムの非専門家への解放が可能。
5)人問一機械小間の相補処理による有機的システムへの拡張と運用の最
適イヒカミ司ら倉塗。
6)OCR用紙上のデー一一タおよび作業手続きの直接確認による機能変更,
システム管理の容易性,プログラム作成本数の削減が可能。
システムの作業工程を図1に示した。システムは大きく前処理部分と後処 理部分に分けられる。前部分は,デ・・一・タ作成・修正,単位切り処理を行う。
後部分では,単位切り済み用語に対する晃出し前づけ,同語激語最手,品 詞・注記(表3)の各処理である。ここで,二種の作業用紙は,単位切り処 理用OCR紙を「◎1」,後処理部分で使用する用紙を「02:と名づける。また
「03」は,KWIC用例出力用紙を,「04」用紙は,各種の語彙表を一括表現 する場合を想定している。処理の対象となるのは,01から03の範囲の処理で ある。以下にOCR用紙と図番号,作業内容を示す。
用紙名 el O2 03 04
図
番234
号作業内容 単位切り処理
見出し語,品詞・注記,同語異語覇溺処理
KWIC用例集
各種語彙表
Ol〜02の各作業は,用例作成に必要な文字の決定と単語分割(単位切り)
への準備が必要である。文と単語の分割符弩は,それぞれ「#」「/」記号を 使用する。指定記尋は「彬を入力原稿の事前編集で,「/」は01用紙の手書 112
丈タ ﹇本デ
コンピュ・一一夕処理
籔瑠紙本文印寧
人的処理
まきし ぢ りなぜ コ
「一一一一『一一 一一一一i
} ゲラ溺舐
Ol綴目
KWiCマスク
作 鋭 0囎紙読み込み
KWTC マスタ データ
02同語異詮吾寧il別 処理羅購紙離寧 G3KW{C邸字 04語懸薮印掌
I
L____ww_____一__」
,誤琵吾異註群=甥馨・欝i蚤夢ミ分祈処理
が I IR D4用9.E
02環紙醗み込み 憶報追加処理
02羅紙
1
in ew ww一一一一一一一m一一t一
図1 国定読本の用語調査作業工程
き部分で対応させる。「/」記号は,OCR用紙を読み込んだのち,コンピュ ータ処理によって本文デーータへ挿入,単位切りとKWIC形式へのデータ・
フォ 一tマット変換を行う。一用例単位は「勧記号で示した文長である。
KWIC形式に変換された用例は,単位切り用校正台帳,02作業帳票の二業 務で共用されるが,校正は周一語形群にまとめられたKWICの見出し語に 着冒し,目視による検査を主体とする。修正は,出典情報を手がかりに,該 当するOl用紙上で行い,誤りがなくなるまで修正・再入力をくりかえす。
一方,02用紙上の用例は,同語異語丁丁の付加情報の作業用に使用し,出 現形に対する冤出し語・品詞・注記,仮名表記データへの意味コードを KWICを参照しながら記入する。同形異語の半捌には,出現形が漢字の場 合は読み仮名,仮名表記では漢字を付加する。本システムでは,漢字の直 接付加に替えて,しかるべき辞書または半捌用リストを基準に,見出し語に つけられているコード番尋を用いた。見出し語と追記された意味コードは,
113
きゆ ヘ モ ヒ ぢ
謎∵㌧遥:効響1野焼㌍
l e, 誤睾い !曜 亀甥 }冒)躊匙魂 彗㌧診・pz㌢ 曝藁匙 、 や魯麟 ・ ・
///ノ/! ノ〆 // /♂ ノ / 、 、 . ・
1 〈t .、㌧ 玲 弘魂 ㌢ 〉ゲ叩、 鍵、l k 覧訟 いバ晦鱗裟い欝 \
/ / !/ 〆ノ/ ノ〆 /〆/./、:、 、 ・ ,
垂厚 蚕包iL ㌧ ㌦叩曇き舷: ζ9、 期1\いメ笠 k tiミ馬瀞 . /
〆〆 〆 // 〆//// ノ/ / \, /㌢
ご 隷 盛 畿乳 .t唆}罫 .,9 t ?く 竃 留贈 / , 醜窟爵綴 \
/ 〆 〆〆/ノ ゾ! ノノノ!/〆/ 、 膨〜嵐.粛 ・
∵∵∴∴ノ/∵ノ∵∴ツ欝∴浮ゾ、 忍:ご:
・轍≦窺賊難一難嶽謙譲綴織・㌔凝、轡職、 ピ \ご, \
シ ぷ ヘヘ ゾヘ ヘ ヘ ヘ ノへ も
/ 〆ゾ/〆ノノ/〆 /ノ.ノ欝欝,、ダ}ノ〆∵ ・1 ご〜艘・?
ヘ ノ ノ ア ヘ ト ジ ユ も ぢ へ
颪\紳け耐菖噴賦購璽濾擁 破獄㌔欝欝)・ \ :♂院ド 9ノ
d∀〆・∴〃 .一・4・1メ嫁ゾ㊧誌冠磁 ,鋪款、
・ .ド\tt.. tt / ㌧ /;
図2 巣位懸り処理用紙(el用紙)
01・◎2用紙共通情線(桁数.枝番号)1.
2.
3.
4.
帳票シーyケンス番暦(4。1)
OCR嗣紙の類し翻。標脱蕎,趣∫目,人力順序の確認用。
識別番響(3.0)
教科灘の期・学年・巻数。
出典タイトル(20.0)
識別番審および表題用 無類王D(2.0)
Ol・02の二種の数鑓で示されるOCR零紙の識携総懸。
01総捲武 (455字/」{ご)
5.
6.
本文データ(35字/1行,13行/頁)
単位切りの対象になる本文データ。
マ〜ク記入枠
印字された本文チータの真下にある単位切り処理記暑欄。
114
藪桝} ご
剛癒:\羅 、鯉∴攣
i・、聾 馨
一翼蹴ぎ嫌・・ 卵薯 ぎ\/;弄、1
ヒ鵯贈膿轍 蔑響の
ミ ・\\・
\鱒鱗き気騨懸 弾 ・
, ・〜噛穿1唾鐘乏㌧ 1
.tat A/猛悪
尺欝趣ザ博 蒙 鮮撚獣ヒ隔鞭
憾開門つ㌦罫 まぺ彗り娠 源
/撫筆e/ 職
み≒
蒋官讐
i, g .・., t .一 ・ , .,
ttt st
..ヤ/
餌門@ tN穿 ぐ
無灘樋魑贈 ヌ隔 t
図3
02爾紙(21行/頁)
7. 繊典購報(leO)
8.
9.
、・ / 堪 .E 添・ く/ ・ 嬬・・∴
劉 ㍉襲殿二目・槻B,ゼ・
鳶厚匡毒 戯敏/比いこ・財琉隷多窯
鴨拶
・ 軸懸凝犠、糊興 ぎ?・鳴 療拳 亀潮 終・ ・e・喉 ㌧ 魚沼♂・
、 ㌔ 〜八驚滝 葦
ゾ∫ 轡婦u潜戸嚇》\紬幽
熟聾罵〜贈窪・協 へ亀。τ詩 糠
・勢 嘱猿黍一弧い 詳い
讐 芝≧、♂へ 一\ 弓毫 ㌧ぐ 諏載 ハ {t垂恥ぎ /t 鄭./t斐撃詠
、 鼠妙凝}へ勲磐激 汗〆, ヌ蚤 秘乏レワい痒㌧ 欧 阿 げ㌧炉ハ聾
, 6 \1;/ 施ミ}晒6弧も 琶巣磯≧ず
毎1 、 tX・¥tt・・〈 /鵬い/tV , Sttt. ン
さ くぷザき ぐ駕〉 麟R晒ミ・・ 納贈も/ン
ピゲ鞍掌鏡乾/ tt、t/ ・ 醜 ジ。 ㌧ ㍉ き 〜 湾 ψ ㌧ ・lt{t t /:Ett3 tttt セ , 》di㌧・ v
昌 謬
\ゾ/ /
㌦鵠/ u蛛?、:し
凌湾pPダ tt ㌧ ぐ}o ㌧}t・いt・t 美
見出し語・品詞・注記用紙ぐ02用紙)
\
教科書の出典情報,期(1)・挙年(1)・巻数(1)・頁(3)・行(2)・単語番号②。
見蒸し語認入枠(13.0),晶講・注記記入枠(4.0)
手難き矯片仮名文字記入枠。
品詞・注記,同暫異議判硝驚識別番号。
羅綾データ (40字)
付加笛報・用例印字欄。
02薦紙で無用する縁懸機能
十坪 :用綴中の出現形を兄曝し言吾欄へ復写:。
:読み仮名が13字以上の場合13字日に挿入。1婿までを見出し論難t・省略。
空鑓:酪瞬に記入された侃報の復写。
相互に参照できるため,将来機械辞書の総合化をはかるうえで重要である。
02用紙における同語異語判別処理は,調査の中核であり効率化をいかに進め るかが調査進行のかぎになる。特に,作業量を減らすためには,岡形難語判 甥語数を全データ数から異なり語数に近づける方法が必要になる。その方法 として,本システムでは次の処理を行った。第一は,見出し語・晶詞・注記
115
lyj噺 猟嵐
し
磯 tt
一
ち ズ ノ ヘ サをペ ハぐ まノ
,s騨柵 瀞 。 D 硬 を
驚携 激 賊 馬興 / わ 費 》 \\
鱈 kk .締 t 蔓卿い、.L・・。・:・tl轡{ Pt職轟趨毫一 飛ヂ雛編灘駅聴畷贈バ1撤編・鰍細¥ 撃礁 .急紬醗遍 猟醜臨吻・ tS四榔騨齢痢紗〜〜仏い滅w脚・繍睡鍵姻殺贋四馴鯉鮮も鞍 ttハ蟄・tl 《亀簿專山巡 ㌧鉾馬吊目鵬鮒・、詠出脚目嘱・ } ≧誓〜ぬ変・担同軸 ぽ講♂勉膿卿㌻粉鰹へ臼 磯 け ・ 慧ぐ賦、 ,{t・ it,pete脇tt/・ttt・ゆ〜そ ≒{・1・t・・P・・t戦黙k瞬踊シ }ザ 「 ltt隔 } うζき纏 疹,乗 ・い哩柄《い 転逼亨▽轡鳳姻 ξ痴ヂ殿膨 う 服il r頻 嚇 な蝋酵㌍麟bt・ 汽・ 幽w宴⇔1メ纐ノ・欲 tt「 い ン で毫鼠レ館ぢ}、 曝娠蟻漏路竜幽揖評萄那飾い遷 い総監 輪ほいヒ⑲ミ野馬〃 バ・・鰍曝へ轡 どξ \ \1 罵 tt騨騨撫鱗蚤ente、撫覇・》・回・ いい t・tk・・4 s蝉拷 鼠甑嚇ttiぎ戸 給 〜いtt添?t/、ll+t・域廷鐸翼・静バv・・9Pt・/・鯉 眠 e ξい甥砂・}(載綜態脚嚇獣鋸摂vs .t t /}
q t}μ 麟モ昌掘墓,le鴨ぎ謹賂9/th・}z… 藁 志 ・㌧ vu9・S・ ・ k噸騨 ・ 穿し高彫囎 八/マ >tt悔 噂 vgdi卵鼠蛾N謡譲将脳 藪 L硫蝶 〃 無 舞重噛 い㈱瞭 取雪か癖bl》⇔ /ttt tt き一解越 肌ft#t紹 鞠紗N <就蚊 P{ 昌巨 ・郁 い一献》魏鰹 tt融い\ンダゼ ・影 窒ザ般巽㌦ 鮎蝋瞭画試紘華西・詑更・駆距い 博 更 斌藍く議ピ脅朔撤ミ掬 毫収月μ 量 ◎唆 \
王冠瞬ζ、晶晶・ハ愚。・腿い・諺 ・・… 補殺調・ 婚椙鰍畷♂\・婦
獄ヨ t tt, い齢績一員鎚t ,x.v・v F ・㌧も賦 軸 緯・い 訟」画渉t・ ilt脇tt u耗 ← s 搬鱗 畷\e ヴ zu脚昌蝋尉けい・縛tS ㍑ ・ t目㈹ t /l kt叩 k取t ず贈 い馬脳 、 費目翼ぞいti・.1 t/va di ・贈義い 斗》瑚 〜ゆ奴 〜a晒繍 , い {\.t t 覧 《§ ゾ騰♂、瓠旨帖瓢 {叫び μ熾 る冷 舛\頗 寒臨 黛〜 ,}妙㌧派勲辱 肇t砂ヂ 晦レ膚甑㌻ua・㌦買悩翼 臥いs 無鯉 臥tt 鯉 4・ tt奴1・ヒ 〉 /in t 罫1い 残燭 暁 /・/k〜9敏 be 身 4ケ い ・駅ハ へtt a/シ…肩・留 ξ瑠飢t/, Mマ,纏t ・ い顕ど鴇いt… .・ .・x・t・.W l a・ぬ晒・㌔鉄 Mt・ ws・ fttt・蜘購・/贈へ ピき・,/tt / 腕翻轟賦り醗触tt?搬魏tkty・ 紹げ∀いteい / F 姻叩細贈〔〜ttttい 野章四 隠ttt} 射 ゆ》上躯曝宴暫職贈奨騨か瑠膿 伽 ・ vakt ・・ い 甥妙v晒四 Slt? ・眼く㌧紹物 照 、 t/ 鰻菱漁鄭ウ眠監励聯〜{阪鵯 鯨脚{tt芦」 Ss s・遍隅\ 曾t騒・ 〜if t冨 い腱 t 懲ボ、\唱詠肇w鳩・u甑偽・外ぎ轟斜い.伽シ』 野衡鰹鰍賊ぐ断い 咳溜 〜段く偽
・ の多い ズ 畷as駅㌢・畷ハ彰y・fe購轡頑瓢 e鎮 あ峨妙・嬉聯ta ・t/ 」螂腿磁い・t abゾ集 γ罵戦 を け をゴロま タちぶポはセ く ぜラが あまやもが ゆちゴほミまほ ゆびミリ ずいいらぬる い りち
};1甕ll難鱗難懸1麟》llll撫1需1諮:
.耳淑樋髄 描沸纈榔寒魎い垂藤鞠醗耀騨も・・い職駅賊斗轡締 蛍晒へ縦β・t …tt 1(≧
3う謡も鋤膿 鴨サ棚. .wgv騨輔躍瓜警臓鄭擁ミ翼か織誌醜享い即ミ画》い脚凹砺幽眠簡贋ン・学ハ譜
・ 聾き償蝿燭/西強ノ一一〜》輝覗縄要躯品目頻蔽殉輔聴導鞭獣塑肺睡抑妙晦 砂ぐ凧φ 昏 。t匿 聾{繋森ぎ興賜眠艦無・〜ら織串喉鎌碑〆か ・卵亀、・無蝋鬼/敏耳臥ミ蝋硝磐t S敷認 隔}ぐい}t2 きヤqを轟嬢 鰍鵬騨鄭・ tr醗鰍嗣泌呼%鵬s・.E・ 恥寒囎鉱触破ヂ騰喚師燐t・s・V四煽鹸馴》㌦嚥尋 ,い講魏恥 蹄m漏唄垂輔ボ騨脚agel・・St・t tif・ vat/幽牌鞍靭城轡賦誕嚇・職櫓磁幽淑/施{融 \ミ・舅募〜門。バ懲懲・ア験駒鯨}い纏唖ゆtt鑑6勲贈.v…轟t±韻t・ ・・ttい醸岬搬婦額レ喫
\ / / ㌧ \ \ / \ ノ う \ / \ \ \
/ }
} 》 ㌧ ノtt /
図4K冊C用例(03用紙)
の記入量の削減と手書き文字の誤読率をさげるため,各記入欄に複写機能を 持たせた。第二は,KWIC用例を02用紙に印字するさい,作業に合った帳 票編集と出現形がtTF語群にまとめられるようはかった。第三は,作業台 帳・最終KWIC処理を同一一プPグラムで対応さぜたことである。
複写機能は,記入項ξ1数の削減が,また帳票編集は,作業効率と精度を向 上させ,同一鱗形群の集約は,実質的に作業を早める効果が得られる。作業 創暖および最終出力用KWICの共用方式は,プログラム本数の削減,操作,
運周管理を容易にする。さらにKWIC上のチータ修正は,キー語のみとす ることによって,作業に支障が生じない限り用例修正は省略できる。最終の 誤り修正は,すべての付加作業が終了した時点で各情報をKWICマスタフ
ァイルに追記,最終ファイルの一括再編成によって対応させる。最終KWIC 出力と修正は,同一プログラムによる反復処理をとるため,両処理の運用は 116
スパイラル形式になり,データは反復処理のなかで収東する。
以上が,OCR方式によるターンアラウンド処理を利用した用語調査シス テムの概要である。開発したプログラムは,入出力関係7本,データの併合 など3本,計10本である。入出力中心のシステム構成になったが,プログラ ムの設計・作成・運用の簡素化を目的とした当初の計画は達成されたと思わ
れる。
システム設計にあたって参加者全員による討議を行った。この作業が可能 になったのも,OCR用紙上にシステムの全体を明示させ,入力データ,調 査過程,出力処理を調査者に見せた結果と考えられる。このため,調査の最 終結果,入力データ,中間作業のおのおのが机上で検討でき,調査者の各作 業分握,システム内の位置,変更にともなう確認が明確になり,把握が容易 になった。システム全体の効率化を進める方法として重要な手1頃であったと 思われる。
3. 分離処理による処理の効率化
付加情報づけを行うには,事前に対象データを同一語形群に分類,環境を 均一化したうえで作業を進めることが,作業効果をあげるうえで重要であ る。しかし,同音言語判別情報の付加は,出現した用語のすべてを対象にし ており,判甥処理が調査全体の進行を決定していた。これは,岡語異語半弓 情報の作業効率の向上が,調査期間の短縮に不可欠であることを意味してい る。本システムでは,入力データの削減,中閥作業の短縮,プログラムのモ ジゴール化による作成本数を削減させるため,OCRによるターンアラウン
ド方式を導入した。
省力化の二次対応は,OCR用紙に記入された情報の複写機能と手書き文 字の記入作業の削減,特定用語の分離による品詞処理の半自動化である。判 別処理の効率からいえば,本来完全な自動処理にあるが,本システムでは,
人間一機械系の相互補足方式を基本にした。対応法は,出現した単語の度数 上位語を選択的に分離すること。品詞情報は,特定品詞をかりに付加し(表 117
1,表4)他の騒騒については,修正・補正処理で対応させたことである。
分離処理は,上位出現語の特定の数語によって全データの相当数が占有され る特性を利用するものである。
たとえば,第1期の国定読本(延べ31619語,助詞10663語,表1およびこ の数値は集計初期の値を使用しており最終結果と異なる場合がある)では,
上位5語で金データの約29. 9fO6を占めている。この数値をもとにすると,第 3期以降で処理すべき50万語については,上位5語で約15万語,1◎語で16.4 万語,20語で20. 9万語が対象になると推定される。すなわち分離処理によれ ば02用紙で直接処理すべきものは,それぞれ35万語,33.6万語,29万語にな り,実質的作業量の減少と調査期閥の短縮に結びつく。同様に,同表記異語 の「散らばり度Aも特定の品詞,用語に集中することが知られているため,
仮定的処理として付加情報を一義的に決定し,暖翠さをともなう語は,デー タの校正・修正段階で補正することにする。
以上の点をまとめると,分離処理すべき語を抽出する条件は,既知である データの語彙表から推定できること。抽出する上位語は,一一義的に付加情報 が決定できることを前提にする。遡こ,同一語形であるが同語異語判翔処理 で曖昧性が高く,複数の晶詞,または意味に分散される語は除外する。実際 に抽出した5語の分離対象語は,いずれも,語形変化のない語,読みが一義 的に決定できる語,これに近い条件を基準に選択した。しかし,データ配列 に,より詳細な条件が設定できれば,語の類型化から,さらに自動化を指向 した処理への道をひらくことになる。現行は,複数個の晶詞を持つ語に対し,
出現形の直前・直後の一単語をそれぞれ第二,第三キーとした。このキー語 によって,動じ環境の語を集め品詞決定の補助処理としている。そのほか,
分離処理で得られる効果には,作業台帳でOCR用紙の代替紙として低価格 用紙の利用,一括処理との斜月誓による入的労力と人件費の削減も含まれる。
また,本調査で記号系を不要語としたのも省力化の一つになる。
表1に見出し語として候補にあげた5語は,第1期の出現上位の同音同表 記(表4:出現形では片仮名,平仮名の10語分).、の出現頻度の高い語から恣 三18
表1分離処理対象語の候補(国定読本第1期調査表から選択)
N■賜・副蹴(出現面癖励劇出現予騰(異言護数)
12345 は(係助詞)
て(接続助詞)
を(椿助詞)
た(助i劾詞)
も (係助詞)
1552 〈4.91)
1495 (4.73)
1092 (3.45)
977・ (3. 09)
389 (1.23)
97.4
98. 5
99. 6
9Z 5
99. 7
24550 (639)
23650 〈355)
17250 ( 69)
15450 (387)
6150 ( 19)
十二詳ロ
55・5(綱i
87050 (1469)意的に選んだ。見出し語欄の傍報は, 付加された品詞の例である。畠現度数 は,第1期の延べ31619語に現れた倒語の出現度数と百分率である。偏り度,
賢聖予想数は,第3期以降の予想される調査量50万語に対する作業量の予測 で,第1期出現度数の百分率から推定した。獣身予想度数のカッコ内の数値 は,嗣表記異語の予想数で偏り度の首分値の差から求めた。この出組度数の なかには,それぞれ冤畠し語にづけて,指定した品詞にあたるもの以外の瞬 表記の語を含むため,伺表記母語を省いた指定の語の百分率を「偏り度」と
して示した。
表1の「は」の場合,第1期の出現度数は,1552語で,全体の4.9エ%を占 めている。特定の意味・品詞への集約,すなわち係助詞として97.4%,その ほか2.6%が他の品詞である。2.6%の内容は,仮名文字練習用(ひらがな
ドリル)1例,「葉llの仮名表記34例,漢字表記6例である(表4)。罎現予 想数のカッコ内の数値は,見出し語で出現が予想される総語数申,異なる意 味,または鼎詞・注記である。「出出し語」の例では,第1期,第2期以外 の50万語では,「は」については24550例,そのうち639語が助詞以外の語で あり,39語に1語の割合で修鑑処理を必要とすることを意味する。分離処理 では,とりあえず合併してある情報から,男揺として修正する部分に埋め込 まれている誤りデータの見過ごしが問題になる。一義的に付加した情報から 修正部分を抽出するさいの実用化の可否はこの部分にあり,さらにコンte ・一
一一^との縮補処理を充実させる必要がある。
119
4. OCR:方式に対する改善試案
4.1仮名・山詞変換処理の拡張と応用
試案は,データ入力に仮名・漢字変換処理を使うことによって,OCR方 式の問題点を一部改善できることを示す。改善案の第一は,仮名・漢字変換 処理にともなう,データ入力と単位切り処理,読み仮名の同語異既判溺情報 としての利用法,配列用理論コード機能の三点である。第二は,変換用辞書 のあり方である。ここで,読み情報を一次情報とし,二次情報を変換対象 語,双方を対応させる関係表を辞書とする。
変換方式を使って漢字入力を行う場合,漢字タブレットによる直接入力方 弐に比べ,原稿表記を仮:名またはPt・一一マ字で表現可能な「読み」に変換する 間接的な入力法をとらなければならない。変換方式による漢字入力は,一次 情報の「読み」を入力,辞書による変換をとおし「康稿表記」へ再変換する 二重処理を行っている。さらに,読みと原稿表記への二度の変換過程は,デ ータを正しく入力するために,それぞれの段階において人間の判断による同 語異語判別,変換された用語・原稿表記間の照合,入力データの検査を賠黙 に処理している。これは,一次入力情報の指定と同時に,「単位切り」,「漢 字の読み仮名付加」,「仮名表記の漢字付加」を変換処理で対応させているこ とになる。謡い替えると,これらの一連の処理は,OCR方式の01〜02用紙 作業を,仮名・漢字変換方式による入力処理で,吸収できる可能性があるこ
とを示している。
また,入力部分で単位切り,読み仮名などの情報づけは,OCR方式にお ける作業上の問題点を改善することができる。たとえば,02用紙上に印字さ れたKWICの配列がコード1頼である場含,異虚言温語は,異なった位置に 並び,用語の検索,異形問語処理ともに,02作業に対する作業を難しくす る。これに対し,漢字の五十音順配列では,◎2用紙で使用する作業用KWIC 用例の配列に,異なった語形が集められ02用紙の手書き文字の誤読問題,文 字記入量,システムに必要な作業目数を減らし,全調査に必要な経費を削減 120
させる。しかし,ζれらの問題をメーカから提供されている仮名・漢字変換 プログラムで対応させるためには,仮名・Pt 一マ字入力機能に,一次情報で ある読みと,変換された漢字ともに情報の保存が必要になる。保存および同 語言語半捌情報を得るための出力は,以下に示した形式になる。なお,斜線 は単位切り符暑である。
変換処理 1)変 換
2)無変換
原稿内容 出力形式
①漢 宇 仮名(漢字)/
②仮 名 漢字(仮名)/
③漢字(ルビ付き)仮名〔漢字〕/
①仮 名 仮名(仮名)/
②英数記号(ANK)ANK:(ANK)/
意 味 読み仮名づけ処理 岡語異語判甥処理 ルビによる処理 仮名処理 英数字記号処理 咄力形式」で示した表現は,辞書を使用した入力デ・・一一タの変換後の形で ある。見出し語に相当する部分は,指標形式で現し,カッコ内の表示は原稿 上の幽現形である。カッコ類の各記母の意味は,趨現形および読み仮名,同 語異語判別情報,仮名蓑現とルビの分離情報を示している。ここで,入カデ
ー・ ^を出力形式に変換するためには,仮名表記についても漢字変換が必要に なる。また,後処理方式では不要であった漢字の読み仮名,単位切り符畳の 原稿上への事前記入・編集など,人手を中心にした前処理方式に近い作業が 要求される。単位切りについても,現行方式の仮名・漢字変換方式は,複数 の単位についての認定方法が確立されていないため,岡一辞書で混在させる か,調査単位ごとに語変換用辞書を用意しなけれぽならない。この単語の二 重性は,入力処理と並行した,辞書の保守とシステム管理など,二重の対応 が必要になることを意味する。さらに,拡張機能を仮名・漢字変換処理で実 用化させるには,次の二つの閥題を解決しなければならない。第一は,辞書 に登録されている用語と読み仮名が一対一に対応しているため,同音異三門 劉への選択回数が増加することである。第二は,入力打鍵数の削減のために とられる,代表音訓による漢字選択では,正しい読みが措定できない場合が 生じることである。この二つの問題は,変換処理と付加情報の生成が漢字を 121
「正しく読む」ことを前提にしているため,入力用読みと出力される語につ いてN対1の基準化が必要になる。この点については,それぞれ露語として 辞書へ登録しなけれぽならない。態様に,漢字変換処理には,入力情報の保 存・併記題辞機能は含まれないため,辞書機能の変更,項冒の自由登録諸 機能の利用者への開放,支援プログラムの拡張が必須となる。メーカから提 供されているプログラムの変更と,利用者に対する辞書へのアクセス法の開 放には,プログラムの部品化による機能分割の適正化とユーティリティへの 基本的な考え方を変えることが必要である。
最後に,OCR方式と改良案との栢違を図5に示した。この図からも,現 行処理の心当部分は省略できることが明らかであり,薪システムへの移行に は,改良案の妥当性の確認が必要になる。日本語に対する同語素語判別を容 易にするためにも,入力デー・タと変換用辞書の在り方(仮名・漢字併用重力 機能も含む),漢字の多義性への対応,学習効果の硝究が今後の課題であ
る。
4.2 ソートキーの鋤的指示
データの分類処理(SORT)は,データをグループ化,または最終印字の ために配列する場合と,未知のデータの特性を抽出する試行的手段として使 用する二つが考えられる。コンピュータによる分類処理は,メーカから提供 されるプログラムの使用が多いが,利用にあたって次の条件を満たしていな けれぽならない。
1) データ中に分類基準となるキー項目が存在すること。
2) キー項鼠の属性・位置・桁数が明確に与えられていること。
現在使用しているソートプPグラムのパラメ・一一タは,対象になる全データ に一様に適用される。しかし,ソーート処理によってデータの構造を抽出する 1こは,キー項目はデーー定心造を間接的に表現していることが必要である。構 造の抽出は,データ虚血をキ 一ea対応させるさい,結果をある程度予測して キー:項目を設定し,最適配列が得られるまでキーの変更と多数回の試行を行 う。この点で,データ特性を無視したキー指定は,基本的に成立しないこと 122
・[亜ヨ
亙1 単位切り作業
II工 闘語異語判別 作 業
w[三ヨ1
OCR処理方式
本文印字
入 力 Z正・修正
単位切り用 O!騰氏印字
単位切り処理・
語形膜ソート jWIC用例印字 Z正・修正
付加情報作業用
@02帯紙印字
読み仮名・贔詞・注記 ェ語異語半捌情報
@ 校正・修正
各種語彙装作成
仮名・漢字変換処理方式
、入力
G単位切り処理 S同語異語‡捌
@情報付加 S変換用辞轡用語
@登録処理
五十音順ソート jWic絹例印字
@校正・修正
付加罪報作樂用
@02聯氏印寧
品謁・注記情報づけ
@校正・修正
各種語彙衰作成
図50CR方式と仮名・漢字変換方式の比較
になる。また,ソート処理において現在行われている文字列への一抵処理は 特殊であるといえる。
以上の各点を雷語処理用ソートプログラムに応用した場合,文脈のなかで 変化する語の意味・品詞ごとに,キー設定条件は異なることになり,従来の キー項目の設定方法に比べ,より自由度の高い指示機能が要求される。たと えぽ,レコード中の任意の項目に対するキー設定と,語頭・語尾・昇順・降 エ23
順, $ 一項目の優先順位の変更・解除な どの機能である(キー機能について は,データと辞書問の対応規則としての見方ができ,再検討の心要があるが 第一次検証ではこのまま使用する)。この処理は,ソートプログラムの固定 化されたキ 一一 9{目の揚定に,動的抱示プログラム開発の有効性を示下してい るものと思われる。ソートキ「の動的揚示は,データ自身が均一特陸を持つ 場合をはぶき,データ階層または特徴群単位にキーを指定し,編成効果を作 業に反映させる処理になる。しかし現行処理で,これらの機能をメーカ提供 のソートプログラムで対応させるには,データ配列単位にキー指示と配列後 の併合が必要になり,多数回のデータ処理が入ることになる。
キー項目の動的乙鳥は,実務段階でOCR O2用紙で使用することを前提に している。◎2用紙処理における出現形の読み仮名,品詞情報づけ作業は,そ れぞれの単語ごとに,前後の語環境からの意味の確定,語頭・語尾配列順序 など作業に与える効果が異なる。ソー一 5処理によるデータ配列順序の有効性 を作業効率に反映させるためには,事前ソートがデータ特性・構造を知る強 力な手段になる。また,データ構造の掘握は,大量データに対する必要部分 の抽出処理に対しても重要な機能となる。動的分類基準を与えるキー項目の 設定は,辞書形式からの引用を想定しているが,これによって分離処理用リ スト,仮名・漢字変換辞書との三種のリストの総合化の道がひらかれる。さ らに,レコード中のソートキー項旨の辞書からの引用は,ソート対象レコー ド長の短縮,物理的レコードを規定したキー指示から独立させる。動的キー 掲示の利用法は,基本実験の終了を待たなければならないが,ホスト・コン
ピュータ側での並行処理によるソーート時間の短縮,データベースへのデータ 構造罰記録,データベーースから磁気テープへのデータ排出処理に有効と思わ れる。
並列処理はホスト・コンピュータの記憶域管理方式の特性に三二を受け る。しかし,記憶管理が動的である場合は,キー単位ごとに実行領域を割り 当てることができ,疑似町並列処理によるソート時間が短縮される。同様 に,データベース処理も,入力データの特性にそった事前ソートが必要であ 224
るのに対し,複数のソ…一トキ 一一指定による単一処理が可能になる。また,デ
・・一^ベース申の講造化されたデータを標準形式で磁気テープに出力するさ い,データ特性の逆携定による分類処理によって,併合処理を省略できるこ
とになる。動的キー指示によって得られる,これらの機能は,従来のソート 処理に比べ,多様化を進めるためにも不可欠である。
4.3辞書の統合とデータ処理の蘇準化
国研における機械処理用辞書は,漢字に対する外字表現と解読用として,
単語用は五十音配列用の理論コード生成用に開発された。基本配列は,漢字 用が部首1順・代表音訓順の二種の配列法を,単語は読み仮名による五十音配 列,または漢字の代表音訓頓を採用している。その後漢字周辞書は,高速漢 字プリンタの導入,JISコードの二月彗によって,複数コードの変換用に拡張
されてきた。このコード変換用辞書は,データを長期的に利用するためデー タ内容を保証する重要な意味を持つことになる。また,データをバックアッ プするため,辞書には国論外字表現形式をメタコt一 ドとして位置づけ,検字 用辞書への対応用中間コードの役割りを与えてある。ここで検字用辞書は,
市販されている漢和辞書中,最大のものと,最小と思われるものを選び,と もに辞書で使用されている検字番号を利用できるようはかっている。一方,
コンピュータメーカから提供される辞書類は,国研で開発されたものと同類 の辞書が用意されているが,日本語入力用に使用される仮名・漢字変換用辞 書は,五十音配列用理論コード生成辞書と共用できることが多い。これら辞 書類は,今後のコンピュータ処理の中心的役割を果たしていくものと思われ るが,単語の読みを利用した五十音配列用辞書は,漢字の代表音訓に比べ,
より自然な語配列が可能になる。本システムにおける基本処理と省力化もこ れら辞書に負うところが多い。なお,辞書を使用する場合の効果は,次の二 点が考えられる。
1) データ処理の基準化。
2)辞書の使用による自動処理化。
国研で使用してきた機械辞書は,コード変換用,意味分類用を主な屠的に 125
していた。しかし,頻度表では最終結果を対象にするため,調査過程で得ら れる中問情報は無視されてきた。二次情報は,もとになる一次情報から作成 されるとすると,精度は,一次情報の性質・特性・調査目的によって大きく 変化する。中間情報を無視したデータ利用は,結果の精度を保証する場合問 題があることになる。度数をはじめとする詰問情報は,操作のための手続き 情報として,データ精度の確定に主導的支援を与える。その点で,データ処 理効率をあげるためには,既知のデータをもとにした統計値の引用が有効で あり,既知デーータから任意の段階の統計値を得られることが望ましいことに なる。このことから,情報の辞書からの引用には,辞書項臨は既知データの 調査経過を示す詳細値と,調査結果を含んでいることが必要である。辞書を 中心とした調査は,結果を辞書に還元する操作を挿入することによって,辞 書と入力データの整合性を高め,辞書の並行保守を容易にする。
以上の点から,辞書に対する基本事項は,外部利用者に対する資料として の性格,調査結果・経過の統計処理可能な環境の維持,人間一機械系のイツ タフエースとしての役謝を明確にすることが必要である。さらに,一次資料 から二次資料を作成する過程を利用者に正確に伝える手段と効果を検討しな ければならない。一次資料の短絡的使用を避けるためにも留意すべき点であ る。そのほか,仮名・漢字変換と同語異語半弓情報は,ともに仮名表記と漢 字表記の相互参照によって処理させるため,入力データと辞書嘉応ま,常に 一対一に対応していなけれぽならない。また,五十音配列用に使用する読み 仮名は,変換のさいの一一次入力情報を利用するため,辞書項目のすべてに読 み仮名が付加されていることが必要になる。入力データと辞書項目が一致し ない場合,辞書に登録されているすべてのデータへの対応が不能になり,そ の後の処理に問題を残すことになる。辞書は,利用者に処理申のデータ内容 を知らせる重要な手掛かりを与える。
現在,新コンピュータへの移行処置の中で,漢字辞書類の総合化を行って いる。統合は,コーF変換用,表記関係辞書,メーカ提供の辞書との項國の 照合,市販辞書の検字番号の登録の各作業である。最終目標は,漢字・単語 126
辞書の結合にある〔文献4〕が,一次作業で取容を予定している項目は以下 の通りである。
︶︶︶︶︶︶︶︶
以上の8項目は,
分けられる。コード変換用辞書は,蓄積されている各種データの新コンピュ ータへの移行と継続利用のための手段を提供し,属性はデータ配列・検字用 に使用される。度数は,国研で調査された漢字出現度数の結果である。特に 度数は,国定読本の用語調査における分離処理導入のもとになった。その点 で,用語・漢字辞書についても見出し語に付加された度数は,出現形ごとの 度数とともに「偏り度」を示す基本的な情報となる。出現形の度数は,集計 過程で得られる補助情報として統計処理のさい重要である。
4.4 データ・プログラムの仮想結合
最近のインテリジェント端末による分散処理め普及によって,OA(0餌 ce Automation)用プnグラムの利用が盛iんになっている。しかし, OA用 に開発されたプログラムは,それぞれ独立しており,本来同一思想のもとで 設計作成されていたにもかかわらず,ファイル間の互換性,付加のフnッピ ーディスクの容蟹不足による機能低下など,パッケージ間の整合性に問題が 多い。また,オンライン化されたシステムでは,ホスト側と端末側プログラ ムが重複していることも少なくない。プログラムの二1重性は,データ・プロ グラムの互換性,操作法の継続性,マニュアル類の利用,辞書,コ 一一ドにか んし溺々に運用管理しなけれぽならない。この点でOA用プμグラムは,非 127
漢字テレタイプ用盤内・盤外(外字)コード JISコード・区点情報
N本電気・日立コード
大漢和辞典・新字源・大字典検字門下 部首情報・総画情報
当用漢字・常用漢字・教育漢字・人名漢字識別情報 読み仮名
雑誌九十種・薪闘用字・教科書調査出現度数
コード変換に対するもの,漢字属性,調査結果の三種に
専門家の利用を前提に開発されていたにもかかわらず,暗に専門家による保 守・管理体制を要求していることになる。利用者は,開発段階にあるOA用 プログラムを使用するうえで不安定な状態に置かれているといってよい。利 用者への問題を解決するためには,多様化し発展段階にあるOA用プPグラ ムを,ホスト・コンピュータとの統一思想のもとで再編成する必要があると 思われる。
再編成は,端末装置の機能を中心としたホスト・コンピュータのブラック ボックス化であり,当面の改善方法として有力な手段である。この対応は,
データ,ファイル,機械処理用辞書,プログラム,オペレーーションの統一的 管理を可能にし,ホスト・端末プログラムの双方に梢補的かつ仮想化による 一元化を進める。データおよびプPtグラムにかんする仮想結合の与え方は,
端末側で作成されたデータ・プPtグラムの分散処理〔文献4〕の一形態とな るが,コンピュータ利用者の負担を軽くする。しかし,ホスト側プPグラム は,端末装置に比べ,より大きな機能を持っており,差を埋める手段として 端末側で使用するコマンド機能の補足が必要である。ホストと端末側機能の 複合化による疑似的拡張〔文献3〕は,端末側でも独立して保有すべきと思 われるが,コマンドの疑似的統合機能を含め,ホスト系のコマンドとの一体 化をはかるべきである。
プPグラムの疑似的結合は,プPtグラム問の回線使用の自動切り替えをと もなうが,データ転送のさい端末の利用状況とスケジ=…一リング調整の最適 化によって厩線使用の効率化が期待できる。ローカルエリアネットワークの 利用拡大とともに園線の問題は,システム全体の効率化に影響する。プログ ラム問の疑似的結合は,プログラムがディスプレイ上の各情報を通して密結 合を持つと同様,回線を通したプログラム間の結合も,データを介した疎結 合状態を持つのと岡様の効果がある。これは,両処理の疑似的結合が相似形 式であり,ともに同一効果が得られることを示している。プログラムの結合 用パラメータは,各プログラム機能を利用目的男聾に再調整しディスプレイ上 に表示する。パラメ・・一議は,プログラム機能の抽出,応答形式の取りまとめ 128
の過程で最適化される。
そのほか,光ディスクについては,関係形式デrタベースのバックアップ 用装置として,データベースは,、端末用簡易表操作プPtグラムの仮想ファイ ル化を計画している。ファイル,データベーース,光ディスク間の仮想化は,
端末用簡易表操作プPtグラムと関係形式のデータベースの間で一部実現して おり,暫コンピュータ導入の一環としてメーカから提供される予定である。、
OA化における仮想化の対象は,利用者の多い日本語ワードプロセウサにつ いても同様の対応が必要であり,端末側の代表的プログラムの一一・Jt化の方向 を明確にすべきと思われる。
5. おわりに
国定読本の用語の調査について,基本的な考え方と問題点に対する改良案 を述べた。限られた期間・経費で調査を進めるためには,費用対効果比,シ ステム効率を最大にすることが急務である。また,このことが調査完了のか ぎとなっていた。システムは,これらの条件を満足させることを前提に設計 された。設計時の条件の一つは,データ・プログラムともに外注によって達 成できる冤通しがついた。条件の第二は,ターンアラウンド処理と,後処理 方式の導入によって,読み仮名づけ,単位切り,品詞情報づけの効率化で対 応可能になった。これらの処理は,特定用語の分離一括処理,総合辞書によ る処理の基準化に負うところが多い。現在,システムの改善を行うため仮 名・漢字変換処理による単位切り,伺語異語養鯉処理への効果,ソートキー の動的指示,仮想ファイルの拡張など,新方式導入の妥当性について検討を 進めている。実用化には,まだ解決しなけれぽならない問題がある。
一つはソフトウェア機能に利用者の目的にそった拡張・変更への対応がな されていないことである。この問題は,提供されるソフトウェアが単ヅ処理 を目的に開発されており,端末・ホスト双方ともにプPtグラムは,個々に独 立して使用される前提で開発されてきたことが原因となっている。インテリ ジェント端末・分散処理下でのプログラムとしては,見直しの時期にあると 129
思われる。統一をはかるためには,プログラムの部品化と部晶の結合による 拡大機能を持つプPtグラムを作成し,疑似的結合の標準インタフェーースの設 定,処理結果と統討値の開放が必要になる。,
最後に,OCR方式のシステム設計にあたって,対象デーータ量を把握して おくことは,外注費用の算出など予算配分上重要である。しかし,第1期の 調査は,出版のための作業が行われており,事前調査による詳細データが得 られにくい状態にある。そこで,第1期作業の経験とサンプリングによる数 値をもとに,第3期以降のデータ量の予測を行った。
表2に示した,従来の用語調査方式で必要とするデータ入力量は,次のよ うになる。漢字を含んだ表記は,40%約20万語と予想されるため,入力原稿 上の文字数16字に対し320万字となる。以下同様に計算し記号系をはぶいた 総計では約604万字である(ただし同語異語不堪対象語と仮名表解語は璽思 している)。ターンアラウンド方式では,入力データを約150万字と見積った ため,両システム間の差は454万字になる。必要とする金額は,単価によっ て変動するが,差と同程度のひらきは出るものと思われる(OCR用紙価格 が高いため4万枚で約8◎万円の増額になる)。
各作業の必要工数は,単位切り処理に.94〜135入日(1人1日35〜50枚処 理すると仮定)程度と推定される。また02用紙では,同様の算定規準で480
〜685人日かかると予想した。総日数は,574〜820人日である。作業は,修 正処理のための諸作業を含んでいないが,29カ月〜41ヵ月(20日/月として 計算) を要することになる。これは,2人の作業者で15カ月から21ヵ月で対 応できることを示している。OCR方式は,従来方式による調査期間・費用 に対し,、推定50%〜7◎%が短縮でき,本システムの設計上下は達成されたと 思われる。また,試案4ユ「仮名・漢字変換処理め拡張と応用!で述べた方 法による場合,晶詞・注記処理は残るが,漢字を含んだ語への見出し語づけ 処理の4◎%,20万語(表2)にあたるものを02用紙からはぶくことができ る。これは,分離処理と合わせて全体で約60%,30万語が対象になる。試案 の実用化は,用紙・男帯の短縮ともに漢字部分の対応で十分効果は得られる 130
ことになる。
以上の各数:値は,算出基準が経験によっているため,正確な推定値を示し ていない可能性がある。システム設計に必要な値は,入力データ総数の5%
程度の誤差は許されるため,あえてこの数値を基本に算幽した。
〔謝辞〕システム設計にあたil }メンバの高梨信博氏には第1期からの各 種情報をまとめていただいた。記して謝意を表する。なお本稿は,文部省科 学研究費助成「国定読本の用語の研究」(一般研究A研究代表者飛田良文)
の一部である。
(1985. 6. 27)
参考文献 1)斎藤秀紀
2) ・・・…
3) … 一・・
4) ・・・…
5) ・・… イ色
6) ・・・…
7︶
8) ・・・…
9) ・・・…
10) 一・・…
11) ・・・…
(1976)「言譲処理におけるターンアラウンド・システムj『電子 計算機による国語覇究槻』 (国研報告59)63−111。
(1980)「分散処理システムへの試み」『電子計算機による国語研 究X』(圏研究吾67)73・一88。
(1983)『分散処理による大量日本語処理の効率化に関する研究3 (昭煽57年度科学研究費補助金 一般研究C研究成果報 告書)。
(1984)「会話処理によるファイル管理情報の生成」『研究報告集 5』(国研報告79)145一・162。
(1984)「H本語とパ・・一・ソナルコンピ= 一一タ」『電子逓僑学会誌a Vol.67, No. 4,57−103e
(1985)「漢字コードの拡張渋に関する試案」『丁丁報告集6』
(国研報告83)57一一103。
国立国語研究所(1952)『語彙調査一現代新聞の用語の一一例a(国遠報告2)。
12) ・一・…
13) ・・・…
(1953)『婦人雑誌の稽語』(国研報告4)o
(1957)『総合雑誌の周語(前編)』(国研報告12)。
(2958)『総合雑誌の用語(後編)』『国研報告13)Q
(1962)『現代雑誌九十種の用語建立(第一分越総記・語彙表)』
(国記報告21)。
(1963)『現代雑誌九十種の用語規掌(第二分羅漢字表)』(国研 報告22)。
(1973)『電子計算機による新聞の語彙語査(W)』(国研報告48)。
131
14) ・.....
15) ・・… +
16)
17)稲永紘之他
18>豊島正之
19)
20)
21)
22)
23)
24)
25)
林照郎他編 小川環樹他編 諸橋轍次編 上瞬万年他編
(1983)『高校数科書の藷彙調査』(国研報告・76)。
(1976)『現代新聞の漢字』(国研報告56)。
(1983)『電子計算機と国譲研究』。
(1982)「B本語処理のための機械辞書」「情報処理』Vol.23,
No. 2, 14e−146.
(1982)「文献学的研究の為の索引を電子計算機で作る上での諸 問題に獣て:『言言吾研究の中の計算機al(計算機利用書譜 学研究会編東大)41−52。
(1984)『例解薪国語辞典』第1刷(三省堂)。
(1985)『薪字源』230版(角川書:店)。
(1971)『大漢麹辞典』第3印刷(大修館書店)。
(1971)『大字典』第56版(講談社)。
『OCRターンアラウンド処理基本設計書』(国研一FS−OOI)。
『OCRターンアラウンド処理OCR帳票案』(国研一EM−010)。
石綿敏雄 (1984)「情報処理における最適化表現」『正書法。造語法の資料 と研究法一日本語の正書法及び造語法とそのあり方(中 間報告集)』(昭和58年文部省科学研究費補助金特定研究 (1)研究課題番号58107016研究代表者林大)90−102。
132
表2 第1期からの闇闇出現予想(延べ語数)
タ値
」鞭定 U
二幅 長長記尋
語名注己 虚誓口単三・均み蟻集 一読品編
計 推定全文字数
漢字表記 40%
(20万語)
3字
6 4 3
16字
320万字
仮名表記 50%
(25万語)
3字
4 3
10宇
250万字
記 号 2AO
(1万語)
1字
1
2字
2万字
惣
語 異 一翻撫
岡 品
3字
4 1
8字
32万字
表3 晶詞・注記の略号と番号
品一三一番引品詞睡一番号
〔名詞〕
課名 話手名 曲名 地名
〔予備〕
名詞 代名詞 形状詞 副詞 連体詞 接続詞 感動詞
〔助詞〕
格助詞 副助詞 係助詞
名手名名567 名状 体 助助助 課話人地000名代形謝連接感 柔柔係
12345678900000 12300000000012345 666 接続助詞並立助詞準体助詞 終助詞 間投助詞
〔動詞〕
四段 五段 上二段 上一段 下二段 下一段 力行変格 サ行変格 ナ行変格 ラ行変絡 形容詞 助動詞
助助助助投 二一二一変変変変 動 接並準終間 四五上上下下カサナラ形助
133