同形異語判別への仮名・漢字変換処理の応用

(1)

国立国語研究所学術情報リポジトリ

同形異語判別への仮名・漢字変換処理の応用

著者斎藤秀紀

雑誌名研究報告集

巻 7

ページ 109‑134

発行年 1986‑03

シリーズ国立国語研究所報告 ; 85

URL http://doi.org/10.15084/00001322

(2)

国立国語研究藤報告85 研究報告集7 （1986）

同形一語判別への仮名・漢字変換処理の応用

斎藤秀紀

1．はじめに

国立国語研究所下下国研）では，国語政策を決定するうえで参考になる資料を収集・作成するため，各種の用語用字調査を行ってきた。用語調査は，昭和27年に実施された『現代新聞の用語の一例s〔文献7〕が最初である。これは，引き続き行われる，婦人雑誌〔文献8〕・総合雑誌〔文献9〕・

雑誌九十種〔文献11〕調査の試行をかねたものである。また，昭和41年には，調査規模の拡大をはかるためコンピュ一一タを導入，同年から開始される新聞3紙（朝日・読売・毎日朝夕刊3紙1年分）〔文献13〕の大量処理に使用された。以後コンピュータは，小・中・高教科書〔文献14〕，日独・大都市における書語の社会調査，文献調査，KWIC用例集の作成など，資料収集と言語研究に利用されてきた。しかし，コンピュータを使用した初期の用語調査は，人手を申心とした作業の延長上にあり，機能を十分に活用しているとはいいがたかった。特に，新聞調査では終了まで約9年を要しており，この点からも基本処理に重点がおかれていたといえる。これは，漢字処理に対する技術力の未戒熟さと，大量データ処理に対応可能な単語分割方法の確定に問題があったためと思われる。そのほか，調査の中間に人の判断を挿入したこ

とも原因の一つにあげられる。

本稿では，昭和59，60年度文部省科学研究費「国定読本の用語の研究」における50万長単位語調査（第3期〜第6期）用に開発したシステム機能を中心に述べ，人間一機門門の相補処理によって，調査期聞と経費の削減が可能 209

(3)

になることを示す。なお，OCR方式の利用上の問題点について，4以下に OCR方式に対する改善試案を示した。

システムは「言語処理におけるターンアラウンド・システム」〔文献1〕

の考え方を基本に次の二点を拡張した。第一は，岡語異語判別処理にかんする部分であり，第二はデータの統計的性質をシステムの運用に応驚したこと

である。

第一の機能によって，岡語畑鼠半弓処理を中心に，仮名表記の辞書による意味の確定，冤出し語と五十音配列用理論コードの併用など，付加情報の統一処理への道をひらいた。第二の機能からは，作業二七の短縮である。これは，tt付加情報の分離一括処理， OCR（Optical Character Reader：光学式文字読み取り装置）用紙上の情報に対する複写機能，同一・語形の類型化による作業データの疑似的劇減である。また，本稿では，第一と第二の結合によって将来拡張すべき機能，すなわち辞書の総合化，データ分類上の動的キー指示，仮名・漢字変換処理の同語異語判捌処理への応用，について方向を明確にした。ここで，同語異語判別処理とは，圏定読本に現れる表記形で，同じ語か異なる語かを半捌する操作をいう。基本形は，音・形・義の三要素を組み合わせ，8種の類型から同音か異音かの判別をはぶいた4種について処理を行う。

岡三同語行く（いく）／（ゆく），夜（よ）／（よる）

熔湯いま（名詞）／（副詞），か（終助詞）／（副助詞）／

（並立助詞）

異形同語あまり／あんまり，みな／みんな，木／き／キ山鼠麻（あさ）／朝，入る（いる）／居る／射る

2． OCR方式による処理の概要

コンピュータを使用した用語用字調査は，新聞を対象とし昭翻41年から本格的に行われた。調査システムは，それまでの人手による調査の経験をもとにコンピュータ化した。人手による方法の利点は，コンピュータ導入以前の 110

(4)

用語調査法，組織運用に人手による作業形態を生かせることにある。また，

調査内容を熟知している作業者の確保，要員教育から業務への段階的移行，

コンピュータ導入の初期抵抗を柔らげる効果が得られる。しかし一方では，

人手を中心とした作業を，そのままコンピュータ処理へ移行させることは，

システム設計，人員配分の適正化など，効率面で満足できない点も少なくない。原因は，調査の重要部分をコンピュータ入力前にすべて人手によって処理するため，データ修正，入カデータ量の増加，入力原稿作成にともなう清書・転記作業が全体の効率をさげるためである。当然，効率の低下は調査の畏期化をまねき，運用経費の増加，要員の確保と異動にともなう業務の引き継ぎ，コンピュータの切り替えで問題が発生する。OCR方式は，このよう

な問題に対し，調査期間の短縮と費用の削減をはかる目的で計画された。要求した機能は次の4点である。

︶︶︶

19αり0

︶

4

入力原稿に対する事前編集事項を少なくすること。

一次入力の対象となるデータ数の劇減により経費軽減が可能なこと。

入出力媒体と作業用綬票の共通化をはかり，中間で発生するデータとの照合が容易なこと。また転記・清書などの中間作業を省略できるこ

と。

入力データ，作業内容が直視でき，調査者にとって作業内容が確認しやすいこと。

4項目の要求事項の採用によって，富民調査で障害となっていた点は解決される。国定読本調査の実用システムは，調査量50万長単位語に対し約800 万円，期間2年間で対応しなければならない。このことからも，従：来の方式と比べ費用，期閥，必要人員など二分の一・Y／下におさえることが必要になる。本システムで採血したOCR方式は，薦紙価格，保存媒体の耐久性，手書き文字の作業者への教育，濁音，畢濁音，拗音，挑音，促音などに特殊表現が必要になる欠点がある。しかし，以下に示した利点を織しており，前述の条件を満たすためには有効な方式である。

OCR方或り利点． 1，

瑛

(5)

1）作業台帳，入出力媒体をOCR用紙によって共用化できるため，データ転記のさいの誤り防止と清書など中間作業の省略が可能。

2）OCR用紙ヘデータを直接記入することによって，データ入力件数と入力経費の削減が可能。

3）作業対象になる任意の用語が，事前に分類・配列できるため，作業目的甥の帳票編集により作業の効率化が可能。

4）OCR用紙によるデータ記入処理の分散と機械処理の簡素化によリシステムの非専門家への解放が可能。

5）人問一機械小間の相補処理による有機的システムへの拡張と運用の最

適イヒカミ司ら倉塗。

6）OCR用紙上のデー一一タおよび作業手続きの直接確認による機能変更，

システム管理の容易性，プログラム作成本数の削減が可能。

システムの作業工程を図1に示した。システムは大きく前処理部分と後処理部分に分けられる。前部分は，デ・・一・タ作成・修正，単位切り処理を行う。

後部分では，単位切り済み用語に対する晃出し前づけ，同語激語最手，品詞・注記（表3）の各処理である。ここで，二種の作業用紙は，単位切り処理用OCR紙を「◎1」，後処理部分で使用する用紙を「02：と名づける。また

「03」は，KWIC用例出力用紙を，「04」用紙は，各種の語彙表を一括表現する場合を想定している。処理の対象となるのは，01から03の範囲の処理である。以下にOCR用紙と図番号，作業内容を示す。

用紙名 el O2 03 04

図

番234

号

作業内容単位切り処理

見出し語，品詞・注記，同語異語覇溺処理

KWIC用例集

各種語彙表

Ol〜02の各作業は，用例作成に必要な文字の決定と単語分割（単位切り）

への準備が必要である。文と単語の分割符弩は，それぞれ「＃」「／」記号を使用する。指定記尋は「彬を入力原稿の事前編集で，「／」は01用紙の手書 112

(6)

丈タ﹇本デ

コンピュ・一一夕処理

籔瑠紙本文印寧

人的処理

まきしぢりなぜコ

「一一一一『一一一一一一i

｝ゲラ溺舐

Ol綴目

KWiCマスク

作鋭 0囎紙読み込み

KWTC マスタデータ

02同語異詮吾寧il別処理羅購紙離寧 G3KW｛C邸字 04語懸薮印掌

I

L＿＿＿＿ww＿＿＿＿＿一＿＿」

，誤琵吾異註群＝甥馨・欝i蚤夢ミ分祈処理

が I I^R D4用9．E

02環紙醗み込み憶報追加処理

02羅紙

1

in ew ww一一一一一一一m一一t一

図1 国定読本の用語調査作業工程

き部分で対応させる。「／」記号は，OCR用紙を読み込んだのち，コンピュータ処理によって本文デーータへ挿入，単位切りとKWIC形式へのデータ・

フォ一tマット変換を行う。一用例単位は「勧記号で示した文長である。

KWIC形式に変換された用例は，単位切り用校正台帳，02作業帳票の二業務で共用されるが，校正は周一語形群にまとめられたKWICの見出し語に着冒し，目視による検査を主体とする。修正は，出典情報を手がかりに，該当するOl用紙上で行い，誤りがなくなるまで修正・再入力をくりかえす。

一方，02用紙上の用例は，同語異語丁丁の付加情報の作業用に使用し，出現形に対する冤出し語・品詞・注記，仮名表記データへの意味コードを KWICを参照しながら記入する。同形異語の半捌には，出現形が漢字の場合は読み仮名，仮名表記では漢字を付加する。本システムでは，漢字の直接付加に替えて，しかるべき辞書または半捌用リストを基準に，見出し語につけられているコード番尋を用いた。見出し語と追記された意味コードは，

113

(7)

きゆヘモヒぢ

謎∵㌧遥：効響1野焼㌍

l e，誤睾い！曜亀甥｝冒）躊匙魂彗㌧診・pz㌢曝藁匙、や魯麟・・

／／／ノ／！ノ〆／／／♂ ノ／、、．・

1 〈t ．、㌧玲弘魂㌢〉ゲ叩、鍵、l k 覧訟いバ晦鱗裟い欝＼

／／！／〆ノ／ノ〆／〆／．／、：、、・，

垂厚蚕包iL ㌧㌦叩曇き舷： ζ9、期1＼いメ笠 k tiミ馬瀞．／

〆〆〆／／〆／／／／ノ／／＼，／㌢

ご隷盛畿乳．t唆｝罫．，9 t ？く竃留贈／，醜窟爵綴＼

／〆〆〆／ノゾ！ノノノ！／〆／、膨〜嵐．粛・

∵∵∴∴ノ／∵ノ∵∴ツ欝∴浮ゾ、忍：ご：

・轍≦窺賊難一難嶽謙譲綴織・㌔凝、轡職、ピ＼ご，＼

シぷヘヘゾヘヘヘヘノへも

／〆ゾ／〆ノノ／〆／ノ．ノ欝欝，、ダ｝ノ〆∵ ・1 ご〜艘・？

ヘノノアヘトジユもぢへ

颪＼紳け耐菖噴賦購璽濾擁破獄㌔欝欝）・＼：♂院ド 9ノ

d∀〆・∴〃．一・4・1メ嫁ゾ㊧誌冠磁，鋪款、

・．ド＼tt．． tt ／㌧／；

図2 巣位懸り処理用紙（el用紙）

01・◎2用紙共通情線（桁数．枝番号）_1．

2．

3．

4．

帳票シーyケンス番暦（4。1）

OCR嗣紙の類し翻。標脱蕎，趣∫目，人力順序の確認用。

識別番響（3．0）

教科灘の期・学年・巻数。

出典タイトル（20．0）

識別番審および表題用無類王D（2．0）

Ol・02の二種の数鑓で示されるOCR零紙の識携総懸。

01総捲武（455字／」｛ご）

5．

6．

本文データ（35字／1行，13行／頁）

単位切りの対象になる本文データ。

マ〜ク記入枠

印字された本文チータの真下にある単位切り処理記暑欄。

114

(8)

藪桝｝ご

剛癒：＼羅、鯉∴攣

i・、聾馨

一翼蹴ぎ嫌・・卵薯ぎ＼／；弄、1

ヒ鵯贈膿轍蔑響の

ミ・＼＼・

＼鱒鱗き気騨懸弾・

，・〜噛穿1唾鐘乏㌧ 1

．tat A／猛悪

尺欝趣ザ博蒙鮮撚獣ヒ隔鞭

憾開門つ㌦罫まぺ彗り娠源

／撫筆e／職

み≒

蒋官讐

i， g ．・．， t ．一・，．，

ttt st

．．ヤ／

餌門@ tN穿ぐ

無灘樋魑贈ヌ隔 t

図3

02爾紙（21行／頁）

7．繊典購報（leO）

8．

9．

、・／堪．E 添・く／・嬬・・∴

劉㍉襲殿二目・槻B，ゼ・

鳶厚匡毒戯敏／比いこ・財琉隷多窯

鴨拶

・軸懸凝犠、糊興ぎ？・鳴療拳亀潮終・・e・喉㌧魚沼♂・

、㌔〜八驚滝葦

ゾ∫ 轡婦u潜戸嚇》＼紬幽

熟聾罵〜贈窪・協へ亀。τ詩糠

・勢嘱猿黍一弧い詳い

讐芝≧、♂へ一＼弓毫㌧ぐ諏載ハ｛t垂恥ぎ／t 鄭．／t斐撃詠

、鼠妙凝｝へ勲磐激汗〆，ヌ蚤秘乏レワい痒㌧欧阿げ㌧炉ハ聾

， 6 ＼1；／施ミ｝晒6弧も琶巣磯≧ず

毎1 、 tX・￥tt・・〈／鵬い／tV ， Sttt．ン

さくぷザきぐ駕〉麟R晒ミ・・納贈も／ン

ピゲ鞍掌鏡乾／ tt、t／・醜ジ。㌧㍉き〜湾 ψ ㌧・lt｛t t ／：Ett3 tttt セ，》di㌧・ v

昌謬

＼ゾ／／

㌦鵠／ u蛛?、：し

凌湾pPダ tt ㌧ぐ｝o ㌧｝t・いt・t 美

見出し語・品詞・注記用紙ぐ02用紙）

＼

教科書の出典情報，期（1）・挙年（1）・巻数（1）・頁（3）・行（2）・単語番号②。

見蒸し語認入枠（13．0），晶講・注記記入枠（4．0）

手難き矯片仮名文字記入枠。

品詞・注記，同暫異議判硝驚識別番号。

羅綾データ（40字）

付加笛報・用例印字欄。

02薦紙で無用する縁懸機能

十坪：用綴中の出現形を兄曝し言吾欄へ復写：。

：読み仮名が13字以上の場合13字日に挿入。1婿までを見出し論難t・省略。

空鑓：酪瞬に記入された侃報の復写。

相互に参照できるため，将来機械辞書の総合化をはかるうえで重要である。

02用紙における同語異語判別処理は，調査の中核であり効率化をいかに進めるかが調査進行のかぎになる。特に，作業量を減らすためには，岡形難語判甥語数を全データ数から異なり語数に近づける方法が必要になる。その方法として，本システムでは次の処理を行った。第一は，見出し語・晶詞・注記

115

(9)

lyj噺猟嵐

し

磯 tt

一

ちズノヘサをペハぐまノ

，s騨柵瀞。 D 硬を

驚携激賊馬興／わ費》＼＼

鱈 kk ．締 t 蔓卿い、．L・・。・：・tl轡｛ Pt職轟趨毫一飛ヂ雛編灘駅聴畷贈バ1撤編・鰍細￥撃礁．急紬醗遍猟醜臨吻・ tS四榔騨齢痢紗〜〜仏い滅w脚・繍睡鍵姻殺贋四馴鯉鮮も鞍 ttハ蟄・tl 《亀簿專山巡㌧鉾馬吊目鵬鮒・、詠出脚目嘱・｝ ≧誓〜ぬ変・担同軸ぽ講♂勉膿卿㌻粉鰹へ臼磯け・慧ぐ賦、，｛t・ it，pete脇tt／・ttt・ゆ〜そ ≒｛・1・t・・P・・t戦黙k瞬踊シ｝ザ「 ltt隔｝うζき纏疹，乗・い哩柄《い転逼亨▽轡鳳姻 ξ痴ヂ殿膨う服il r頻嚇な蝋酵㌍麟bt・汽・幽w宴⇔1メ纐ノ・欲 tt「いンで毫鼠レ館ぢ｝、曝娠蟻漏路竜幽揖評萄那飾い遷い総監輪ほいヒ⑲ミ野馬〃バ・・鰍曝へ轡どξ ＼＼1 罵 tt騨騨撫鱗蚤ente、撫覇・》・回・いい t・tk・・4 s蝉拷鼠甑嚇ttiぎ戸給〜いtt添？t／、ll＋t・域廷鐸翼・静バv・・9Pt・／・鯉眠 e ξい甥砂・｝（載綜態脚嚇獣鋸摂vs ．t t ／｝

q t｝μ 麟モ昌掘墓，le鴨ぎ謹賂9／th・｝z… 藁志・㌧ vu9・S・・ k噸騨・穿し高彫囎八／マ＞tt悔噂 vgdi卵鼠蛾N謡譲将脳藪 L硫蝶〃無舞重噛い㈱瞭取雪か癖bl》⇔ ／ttt tt き一解越肌ft＃t紹鞠紗N ＜就蚊 P｛昌巨・郁い一献》魏鰹 tt融い＼ンダゼ・影窒ザ般巽㌦鮎蝋瞭画試紘華西・詑更・駆距い博更斌藍く議ピ脅朔撤ミ掬毫収月μ 量 ◎唆＼

王冠瞬ζ、晶晶・ハ愚。・腿い・諺・・… 補殺調・婚椙鰍畷♂＼・婦

獄ヨ t tt，い齢績一員鎚t ，x．v・v F ・㌧も賦軸緯・い訟」画渉t・ ilt脇tt u耗 ← s 搬鱗畷＼e ヴ zu脚昌蝋尉けい・縛tS ㍑・ t目㈹ t ／l kt叩 k取t ず贈い馬脳、費目翼ぞいti・．1 t／va di ・贈義い斗》瑚〜ゆ奴〜a晒繍，い｛＼．t t 覧《§ ゾ騰♂、瓠旨帖瓢｛叫び μ熾る冷舛＼頗寒臨黛〜，｝妙㌧派勲辱肇t砂ヂ晦レ膚甑㌻ua・㌦買悩翼臥いs 無鯉臥tt 鯉 4・ tt奴1・ヒ〉／in t 罫1い残燭暁／・／k〜9敏 be 身 4ケい・駅ハへtt a／シ…肩・留 ξ瑠飢t／， Mマ，纏t ・い顕ど鴇いt… ．・．・x・t・．W l a・ぬ晒・㌔鉄 Mt・ ws・ fttt・蜘購・／贈へピき・，／tt ／腕翻轟賦り醗触tt？搬魏tkty・紹げ∀いteい／ F 姻叩細贈〔〜ttttい野章四隠ttt｝射ゆ》上躯曝宴暫職贈奨騨か瑠膿伽・ vakt ・・い甥妙v晒四 Slt？・眼く㌧紹物照、 t／鰻菱漁鄭ウ眠監励聯〜｛阪鵯鯨脚｛tt芦」 Ss s・遍隅＼曾t騒・〜if t冨い腱 t 懲ボ、＼唱詠肇w鳩・u甑偽・外ぎ轟斜い．伽シ』野衡鰹鰍賊ぐ断い咳溜〜段く偽

・の多いズ畷as駅㌢・畷ハ彰y・fe購轡頑瓢 e鎮あ峨妙・嬉聯ta ・t／」螂腿磁い・t abゾ集 γ罵戦をけをゴロまタちぶポはセくぜラがあまやもがゆちゴほミまほゆびミリずいいらぬるいりち

｝；1甕ll難鱗難懸1麟》llll撫1需1諮：

．耳淑樋髄描沸纈榔寒魎い垂藤鞠醗耀騨も・・い職駅賊斗轡締蛍晒へ縦β・t …tt 1（≧

3う謡も鋤膿鴨サ棚．．wgv騨輔躍瓜警臓鄭擁ミ翼か織誌醜享い即ミ画》い脚凹砺幽眠簡贋ン・学ハ譜

・聾き償蝿燭／西強ノ一一〜》輝覗縄要躯品目頻蔽殉輔聴導鞭獣塑肺睡抑妙晦砂ぐ凧φ 昏。t匿聾｛繋森ぎ興賜眠艦無・〜ら織串喉鎌碑〆か・卵亀、・無蝋鬼／敏耳臥ミ蝋硝磐t S敷認隔｝ぐい｝t2 きヤqを轟嬢鰍鵬騨鄭・ tr醗鰍嗣泌呼％鵬s・．E・恥寒囎鉱触破ヂ騰喚師燐t・s・V四煽鹸馴》㌦嚥尋，い講魏恥蹄m漏唄垂輔ボ騨脚agel・・St・t tif・ vat／幽牌鞍靭城轡賦誕嚇・職櫓磁幽淑／施｛融＼ミ・舅募〜門。バ懲懲・ア験駒鯨｝い纏唖ゆtt鑑6勲贈．v…轟t±韻t・・・ttい醸岬搬婦額レ喫

＼／／㌧＼＼／＼ノう＼／＼＼＼

／｝

｝》㌧ノtt ／

図4K冊C用例（03用紙）

の記入量の削減と手書き文字の誤読率をさげるため，各記入欄に複写機能を持たせた。第二は，KWIC用例を02用紙に印字するさい，作業に合った帳票編集と出現形がtTF語群にまとめられるようはかった。第三は，作業台帳・最終KWIC処理を同一一プPグラムで対応さぜたことである。

複写機能は，記入項ξ1数の削減が，また帳票編集は，作業効率と精度を向上させ，同一鱗形群の集約は，実質的に作業を早める効果が得られる。作業創暖および最終出力用KWICの共用方式は，プログラム本数の削減，操作，

運周管理を容易にする。さらにKWIC上のチータ修正は，キー語のみとすることによって，作業に支障が生じない限り用例修正は省略できる。最終の誤り修正は，すべての付加作業が終了した時点で各情報をKWICマスタフ

ァイルに追記，最終ファイルの一括再編成によって対応させる。最終KWIC 出力と修正は，同一プログラムによる反復処理をとるため，両処理の運用は 116

(10)

スパイラル形式になり，データは反復処理のなかで収東する。

以上が，OCR方式によるターンアラウンド処理を利用した用語調査システムの概要である。開発したプログラムは，入出力関係7本，データの併合など3本，計10本である。入出力中心のシステム構成になったが，プログラムの設計・作成・運用の簡素化を目的とした当初の計画は達成されたと思わ

れる。

システム設計にあたって参加者全員による討議を行った。この作業が可能になったのも，OCR用紙上にシステムの全体を明示させ，入力データ，調査過程，出力処理を調査者に見せた結果と考えられる。このため，調査の最終結果，入力データ，中間作業のおのおのが机上で検討でき，調査者の各作業分握，システム内の位置，変更にともなう確認が明確になり，把握が容易になった。システム全体の効率化を進める方法として重要な手1頃であったと思われる。

3．分離処理による処理の効率化

付加情報づけを行うには，事前に対象データを同一語形群に分類，環境を均一化したうえで作業を進めることが，作業効果をあげるうえで重要である。しかし，同音言語判別情報の付加は，出現した用語のすべてを対象にしており，判甥処理が調査全体の進行を決定していた。これは，岡語異語半弓情報の作業効率の向上が，調査期間の短縮に不可欠であることを意味している。本システムでは，入力データの削減，中閥作業の短縮，プログラムのモジゴール化による作成本数を削減させるため，OCRによるターンアラウン

ド方式を導入した。

省力化の二次対応は，OCR用紙に記入された情報の複写機能と手書き文字の記入作業の削減，特定用語の分離による品詞処理の半自動化である。判別処理の効率からいえば，本来完全な自動処理にあるが，本システムでは，

人間一機械系の相互補足方式を基本にした。対応法は，出現した単語の度数上位語を選択的に分離すること。品詞情報は，特定品詞をかりに付加し（表 117

(11)

1，表4）他の騒騒については，修正・補正処理で対応させたことである。

分離処理は，上位出現語の特定の数語によって全データの相当数が占有される特性を利用するものである。

たとえば，第1期の国定読本（延べ31619語，助詞10663語，表1およびこの数値は集計初期の値を使用しており最終結果と異なる場合がある）では，

上位5語で金データの約29． 9fO6を占めている。この数値をもとにすると，第 3期以降で処理すべき50万語については，上位5語で約15万語，1◎語で16．4 万語，20語で20． 9万語が対象になると推定される。すなわち分離処理によれば02用紙で直接処理すべきものは，それぞれ35万語，33．6万語，29万語になり，実質的作業量の減少と調査期閥の短縮に結びつく。同様に，同表記異語の「散らばり度Aも特定の品詞，用語に集中することが知られているため，

仮定的処理として付加情報を一義的に決定し，暖翠さをともなう語は，データの校正・修正段階で補正することにする。

以上の点をまとめると，分離処理すべき語を抽出する条件は，既知であるデータの語彙表から推定できること。抽出する上位語は，一一義的に付加情報が決定できることを前提にする。遡こ，同一語形であるが同語異語判翔処理で曖昧性が高く，複数の晶詞，または意味に分散される語は除外する。実際に抽出した5語の分離対象語は，いずれも，語形変化のない語，読みが一義的に決定できる語，これに近い条件を基準に選択した。しかし，データ配列に，より詳細な条件が設定できれば，語の類型化から，さらに自動化を指向した処理への道をひらくことになる。現行は，複数個の晶詞を持つ語に対し，

出現形の直前・直後の一単語をそれぞれ第二，第三キーとした。このキー語によって，動じ環境の語を集め品詞決定の補助処理としている。そのほか，

分離処理で得られる効果には，作業台帳でOCR用紙の代替紙として低価格用紙の利用，一括処理との斜月誓による入的労力と人件費の削減も含まれる。

また，本調査で記号系を不要語としたのも省力化の一つになる。

表1に見出し語として候補にあげた5語は，第1期の出現上位の同音同表記（表4：出現形では片仮名，平仮名の10語分）．、の出現頻度の高い語から恣三18

(12)

表1分離処理対象語の候補（国定読本第1期調査表から選択）

N■賜・副蹴（出現面癖励劇出現予騰（異言護数）

12345 ^{は（係助詞）}

て（接続助詞）

を（椿助詞）

た（助i劾詞）

も（係助詞）

1552 〈4．91）

1495 （4．73）

1092 （3．45）

977・（3． 09）

389 （1．23）

97．4

98． 5

99． 6

9Z 5

99． 7

24550 （639）

23650 〈355）

17250 （ 69）

15450 （387）

6150 （ 19）

十二詳ロ

55・5（綱i

87050 （1469）

意的に選んだ。見出し語欄の傍報は，付加された品詞の例である。畠現度数は，第1期の延べ31619語に現れた倒語の出現度数と百分率である。偏り度，

賢聖予想数は，第3期以降の予想される調査量50万語に対する作業量の予測で，第1期出現度数の百分率から推定した。獣身予想度数のカッコ内の数値は，嗣表記異語の予想数で偏り度の首分値の差から求めた。この出組度数のなかには，それぞれ冤畠し語にづけて，指定した品詞にあたるもの以外の瞬表記の語を含むため，伺表記母語を省いた指定の語の百分率を「偏り度」と

して示した。

表1の「は」の場合，第1期の出現度数は，1552語で，全体の4．9エ％を占めている。特定の意味・品詞への集約，すなわち係助詞として97．4％，そのほか2．6％が他の品詞である。2．6％の内容は，仮名文字練習用（ひらがな

ドリル）1例，「葉llの仮名表記34例，漢字表記6例である（表4）。罎現予想数のカッコ内の数値は，見出し語で出現が予想される総語数申，異なる意味，または鼎詞・注記である。「出出し語」の例では，第1期，第2期以外の50万語では，「は」については24550例，そのうち639語が助詞以外の語であり，39語に1語の割合で修鑑処理を必要とすることを意味する。分離処理では，とりあえず合併してある情報から，男揺として修正する部分に埋め込まれている誤りデータの見過ごしが問題になる。一義的に付加した情報から修正部分を抽出するさいの実用化の可否はこの部分にあり，さらにコンte ・一

一一^との縮補処理を充実させる必要がある。

119

(13)

4． OCR：方式に対する改善試案

4．1仮名・山詞変換処理の拡張と応用

試案は，データ入力に仮名・漢字変換処理を使うことによって，OCR方式の問題点を一部改善できることを示す。改善案の第一は，仮名・漢字変換処理にともなう，データ入力と単位切り処理，読み仮名の同語異既判溺情報としての利用法，配列用理論コード機能の三点である。第二は，変換用辞書のあり方である。ここで，読み情報を一次情報とし，二次情報を変換対象語，双方を対応させる関係表を辞書とする。

変換方式を使って漢字入力を行う場合，漢字タブレットによる直接入力方弐に比べ，原稿表記を仮：名またはPt・一一マ字で表現可能な「読み」に変換する間接的な入力法をとらなければならない。変換方式による漢字入力は，一次情報の「読み」を入力，辞書による変換をとおし「康稿表記」へ再変換する二重処理を行っている。さらに，読みと原稿表記への二度の変換過程は，データを正しく入力するために，それぞれの段階において人間の判断による同語異語判別，変換された用語・原稿表記間の照合，入力データの検査を賠黙に処理している。これは，一次入力情報の指定と同時に，「単位切り」，「漢字の読み仮名付加」，「仮名表記の漢字付加」を変換処理で対応させていることになる。謡い替えると，これらの一連の処理は，OCR方式の01〜02用紙作業を，仮名・漢字変換方式による入力処理で，吸収できる可能性があるこ

とを示している。

また，入力部分で単位切り，読み仮名などの情報づけは，OCR方式における作業上の問題点を改善することができる。たとえば，02用紙上に印字されたKWICの配列がコード1頼である場含，異虚言温語は，異なった位置に並び，用語の検索，異形問語処理ともに，02作業に対する作業を難しくする。これに対し，漢字の五十音順配列では，◎2用紙で使用する作業用KWIC 用例の配列に，異なった語形が集められ02用紙の手書き文字の誤読問題，文字記入量，システムに必要な作業目数を減らし，全調査に必要な経費を削減 120

(14)

させる。しかし，ζれらの問題をメーカから提供されている仮名・漢字変換プログラムで対応させるためには，仮名・Pt 一マ字入力機能に，一次情報である読みと，変換された漢字ともに情報の保存が必要になる。保存および同語言語半捌情報を得るための出力は，以下に示した形式になる。なお，斜線は単位切り符暑である。

変換処理 1）変換

2）無変換

原稿内容出力形式

①漢宇仮名（漢字）／

②仮名漢字（仮名）／

③漢字（ルビ付き）仮名〔漢字〕／

①仮名仮名（仮名）／

②英数記号（ANK）ANK：（ANK）／

意味読み仮名づけ処理岡語異語判甥処理ルビによる処理仮名処理英数字記号処理咄力形式」で示した表現は，辞書を使用した入力デ・・一一タの変換後の形である。見出し語に相当する部分は，指標形式で現し，カッコ内の表示は原稿上の幽現形である。カッコ類の各記母の意味は，趨現形および読み仮名，同語異語判別情報，仮名蓑現とルビの分離情報を示している。ここで，入カデ

ー・ ^を出力形式に変換するためには，仮名表記についても漢字変換が必要になる。また，後処理方式では不要であった漢字の読み仮名，単位切り符畳の原稿上への事前記入・編集など，人手を中心にした前処理方式に近い作業が要求される。単位切りについても，現行方式の仮名・漢字変換方式は，複数の単位についての認定方法が確立されていないため，岡一辞書で混在させるか，調査単位ごとに語変換用辞書を用意しなけれぽならない。この単語の二重性は，入力処理と並行した，辞書の保守とシステム管理など，二重の対応が必要になることを意味する。さらに，拡張機能を仮名・漢字変換処理で実用化させるには，次の二つの閥題を解決しなければならない。第一は，辞書に登録されている用語と読み仮名が一対一に対応しているため，同音異三門劉への選択回数が増加することである。第二は，入力打鍵数の削減のためにとられる，代表音訓による漢字選択では，正しい読みが措定できない場合が生じることである。この二つの問題は，変換処理と付加情報の生成が漢字を 121

(15)

「正しく読む」ことを前提にしているため，入力用読みと出力される語についてN対1の基準化が必要になる。この点については，それぞれ露語として辞書へ登録しなけれぽならない。態様に，漢字変換処理には，入力情報の保存・併記題辞機能は含まれないため，辞書機能の変更，項冒の自由登録諸機能の利用者への開放，支援プログラムの拡張が必須となる。メーカから提供されているプログラムの変更と，利用者に対する辞書へのアクセス法の開放には，プログラムの部品化による機能分割の適正化とユーティリティへの基本的な考え方を変えることが必要である。

最後に，OCR方式と改良案との栢違を図5に示した。この図からも，現行処理の心当部分は省略できることが明らかであり，薪システムへの移行には，改良案の妥当性の確認が必要になる。日本語に対する同語素語判別を容易にするためにも，入力デー・タと変換用辞書の在り方（仮名・漢字併用重力機能も含む），漢字の多義性への対応，学習効果の硝究が今後の課題であ

る。

4．2 ソートキーの鋤的指示

データの分類処理（SORT）は，データをグループ化，または最終印字のために配列する場合と，未知のデータの特性を抽出する試行的手段として使用する二つが考えられる。コンピュータによる分類処理は，メーカから提供されるプログラムの使用が多いが，利用にあたって次の条件を満たしていなけれぽならない。

1）データ中に分類基準となるキー項目が存在すること。

2）キー項鼠の属性・位置・桁数が明確に与えられていること。

現在使用しているソートプPグラムのパラメ・一一タは，対象になる全データに一様に適用される。しかし，ソーート処理によってデータの構造を抽出する 1こは，キー項目はデーー定心造を間接的に表現していることが必要である。構造の抽出は，データ虚血をキ一ea対応させるさい，結果をある程度予測してキー：項目を設定し，最適配列が得られるまでキーの変更と多数回の試行を行う。この点で，データ特性を無視したキー指定は，基本的に成立しないこと 122

(16)

・［亜ヨ

亙1 単位切り作業

II工闘語異語判別作業

w［三ヨ1

OCR処理方式

本文印字

入力 Z正・修正

単位切り用 O！騰氏印字

単位切り処理・

語形膜ソート jWIC用例印字 Z正・修正

付加情報作業用

@02帯紙印字

読み仮名・贔詞・注記ｪ語異語半捌情報

@ 校正・修正

各種語彙装作成

仮名・漢字変換処理方式

、入力

G単位切り処理 S同語異語‡捌

@情報付加 S変換用辞轡用語

@登録処理

五十音順ソート jWic絹例印字

@校正・修正

付加罪報作樂用

@02聯氏印寧

品謁・注記情報づけ

@校正・修正

各種語彙衰作成

図50CR方式と仮名・漢字変換方式の比較

になる。また，ソート処理において現在行われている文字列への一抵処理は特殊であるといえる。

以上の各点を雷語処理用ソートプログラムに応用した場合，文脈のなかで変化する語の意味・品詞ごとに，キー設定条件は異なることになり，従来のキー項目の設定方法に比べ，より自由度の高い指示機能が要求される。たとえぽ，レコード中の任意の項目に対するキー設定と，語頭・語尾・昇順・降エ23

(17)

順，＄一項目の優先順位の変更・解除などの機能である（キー機能については，データと辞書問の対応規則としての見方ができ，再検討の心要があるが第一次検証ではこのまま使用する）。この処理は，ソートプログラムの固定化されたキ一一 9｛目の揚定に，動的抱示プログラム開発の有効性を示下しているものと思われる。ソートキ「の動的揚示は，データ自身が均一特陸を持つ場合をはぶき，データ階層または特徴群単位にキーを指定し，編成効果を作業に反映させる処理になる。しかし現行処理で，これらの機能をメーカ提供のソートプログラムで対応させるには，データ配列単位にキー指示と配列後の併合が必要になり，多数回のデータ処理が入ることになる。

キー項目の動的乙鳥は，実務段階でOCR O2用紙で使用することを前提にしている。◎2用紙処理における出現形の読み仮名，品詞情報づけ作業は，それぞれの単語ごとに，前後の語環境からの意味の確定，語頭・語尾配列順序など作業に与える効果が異なる。ソー一 5処理によるデータ配列順序の有効性を作業効率に反映させるためには，事前ソートがデータ特性・構造を知る強力な手段になる。また，データ構造の掘握は，大量データに対する必要部分の抽出処理に対しても重要な機能となる。動的分類基準を与えるキー項目の設定は，辞書形式からの引用を想定しているが，これによって分離処理用リスト，仮名・漢字変換辞書との三種のリストの総合化の道がひらかれる。さらに，レコード中のソートキー項旨の辞書からの引用は，ソート対象レコード長の短縮，物理的レコードを規定したキー指示から独立させる。動的キー掲示の利用法は，基本実験の終了を待たなければならないが，ホスト・コン

ピュータ側での並行処理によるソーート時間の短縮，データベースへのデータ構造罰記録，データベーースから磁気テープへのデータ排出処理に有効と思われる。

並列処理はホスト・コンピュータの記憶域管理方式の特性に三二を受ける。しかし，記憶管理が動的である場合は，キー単位ごとに実行領域を割り当てることができ，疑似町並列処理によるソート時間が短縮される。同様に，データベース処理も，入力データの特性にそった事前ソートが必要であ 224

(18)

るのに対し，複数のソ…一トキ一一指定による単一処理が可能になる。また，デ

・・一^ベース申の講造化されたデータを標準形式で磁気テープに出力するさい，データ特性の逆携定による分類処理によって，併合処理を省略できるこ

とになる。動的キー指示によって得られる，これらの機能は，従来のソート処理に比べ，多様化を進めるためにも不可欠である。

4．3辞書の統合とデータ処理の蘇準化

国研における機械処理用辞書は，漢字に対する外字表現と解読用として，

単語用は五十音配列用の理論コード生成用に開発された。基本配列は，漢字用が部首1順・代表音訓順の二種の配列法を，単語は読み仮名による五十音配列，または漢字の代表音訓頓を採用している。その後漢字周辞書は，高速漢字プリンタの導入，JISコードの二月彗によって，複数コードの変換用に拡張

されてきた。このコード変換用辞書は，データを長期的に利用するためデータ内容を保証する重要な意味を持つことになる。また，データをバックアップするため，辞書には国論外字表現形式をメタコt一ドとして位置づけ，検字用辞書への対応用中間コードの役割りを与えてある。ここで検字用辞書は，

市販されている漢和辞書中，最大のものと，最小と思われるものを選び，ともに辞書で使用されている検字番号を利用できるようはかっている。一方，

コンピュータメーカから提供される辞書類は，国研で開発されたものと同類の辞書が用意されているが，日本語入力用に使用される仮名・漢字変換用辞書は，五十音配列用理論コード生成辞書と共用できることが多い。これら辞書類は，今後のコンピュータ処理の中心的役割を果たしていくものと思われるが，単語の読みを利用した五十音配列用辞書は，漢字の代表音訓に比べ，

より自然な語配列が可能になる。本システムにおける基本処理と省力化もこれら辞書に負うところが多い。なお，辞書を使用する場合の効果は，次の二点が考えられる。

1）データ処理の基準化。

2）辞書の使用による自動処理化。

国研で使用してきた機械辞書は，コード変換用，意味分類用を主な屠的に 125

(19)

していた。しかし，頻度表では最終結果を対象にするため，調査過程で得られる中問情報は無視されてきた。二次情報は，もとになる一次情報から作成されるとすると，精度は，一次情報の性質・特性・調査目的によって大きく変化する。中間情報を無視したデータ利用は，結果の精度を保証する場合問題があることになる。度数をはじめとする詰問情報は，操作のための手続き情報として，データ精度の確定に主導的支援を与える。その点で，データ処理効率をあげるためには，既知のデータをもとにした統計値の引用が有効であり，既知デーータから任意の段階の統計値を得られることが望ましいことになる。このことから，情報の辞書からの引用には，辞書項臨は既知データの調査経過を示す詳細値と，調査結果を含んでいることが必要である。辞書を中心とした調査は，結果を辞書に還元する操作を挿入することによって，辞書と入力データの整合性を高め，辞書の並行保守を容易にする。

以上の点から，辞書に対する基本事項は，外部利用者に対する資料としての性格，調査結果・経過の統計処理可能な環境の維持，人間一機械系のイツタフエースとしての役謝を明確にすることが必要である。さらに，一次資料から二次資料を作成する過程を利用者に正確に伝える手段と効果を検討しなければならない。一次資料の短絡的使用を避けるためにも留意すべき点である。そのほか，仮名・漢字変換と同語異語半弓情報は，ともに仮名表記と漢字表記の相互参照によって処理させるため，入力データと辞書嘉応ま，常に一対一に対応していなけれぽならない。また，五十音配列用に使用する読み仮名は，変換のさいの一一次入力情報を利用するため，辞書項目のすべてに読み仮名が付加されていることが必要になる。入力データと辞書項目が一致しない場合，辞書に登録されているすべてのデータへの対応が不能になり，その後の処理に問題を残すことになる。辞書は，利用者に処理申のデータ内容を知らせる重要な手掛かりを与える。

現在，新コンピュータへの移行処置の中で，漢字辞書類の総合化を行っている。統合は，コーF変換用，表記関係辞書，メーカ提供の辞書との項國の照合，市販辞書の検字番号の登録の各作業である。最終目標は，漢字・単語 126

(20)

辞書の結合にある〔文献4〕が，一次作業で取容を予定している項目は以下の通りである。

︶︶︶︶︶︶︶︶

以上の8項目は，

分けられる。コード変換用辞書は，蓄積されている各種データの新コンピュータへの移行と継続利用のための手段を提供し，属性はデータ配列・検字用に使用される。度数は，国研で調査された漢字出現度数の結果である。特に度数は，国定読本の用語調査における分離処理導入のもとになった。その点で，用語・漢字辞書についても見出し語に付加された度数は，出現形ごとの度数とともに「偏り度」を示す基本的な情報となる。出現形の度数は，集計過程で得られる補助情報として統計処理のさい重要である。

4．4 データ・プログラムの仮想結合

最近のインテリジェント端末による分散処理め普及によって，OA（0餌 ce Automation）用プnグラムの利用が盛iんになっている。しかし， OA用に開発されたプログラムは，それぞれ独立しており，本来同一思想のもとで設計作成されていたにもかかわらず，ファイル間の互換性，付加のフnッピーディスクの容蟹不足による機能低下など，パッケージ間の整合性に問題が多い。また，オンライン化されたシステムでは，ホスト側と端末側プログラムが重複していることも少なくない。プログラムの二1重性は，データ・プログラムの互換性，操作法の継続性，マニュアル類の利用，辞書，コ一一ドにかんし溺々に運用管理しなけれぽならない。この点でOA用プμグラムは，非 127

漢字テレタイプ用盤内・盤外（外字）コード JISコード・区点情報

N本電気・日立コード

大漢和辞典・新字源・大字典検字門下部首情報・総画情報

当用漢字・常用漢字・教育漢字・人名漢字識別情報読み仮名

雑誌九十種・薪闘用字・教科書調査出現度数

コード変換に対するもの，漢字属性，調査結果の三種に

(21)

専門家の利用を前提に開発されていたにもかかわらず，暗に専門家による保守・管理体制を要求していることになる。利用者は，開発段階にあるOA用プログラムを使用するうえで不安定な状態に置かれているといってよい。利用者への問題を解決するためには，多様化し発展段階にあるOA用プPグラムを，ホスト・コンピュータとの統一思想のもとで再編成する必要があると思われる。

再編成は，端末装置の機能を中心としたホスト・コンピュータのブラックボックス化であり，当面の改善方法として有力な手段である。この対応は，

データ，ファイル，機械処理用辞書，プログラム，オペレーーションの統一的管理を可能にし，ホスト・端末プログラムの双方に梢補的かつ仮想化による一元化を進める。データおよびプPtグラムにかんする仮想結合の与え方は，

端末側で作成されたデータ・プPtグラムの分散処理〔文献4〕の一形態となるが，コンピュータ利用者の負担を軽くする。しかし，ホスト側プPグラムは，端末装置に比べ，より大きな機能を持っており，差を埋める手段として端末側で使用するコマンド機能の補足が必要である。ホストと端末側機能の複合化による疑似的拡張〔文献3〕は，端末側でも独立して保有すべきと思われるが，コマンドの疑似的統合機能を含め，ホスト系のコマンドとの一体化をはかるべきである。

プPグラムの疑似的結合は，プPtグラム問の回線使用の自動切り替えをともなうが，データ転送のさい端末の利用状況とスケジ＝…一リング調整の最適化によって厩線使用の効率化が期待できる。ローカルエリアネットワークの利用拡大とともに園線の問題は，システム全体の効率化に影響する。プログラム問の疑似的結合は，プログラムがディスプレイ上の各情報を通して密結合を持つと同様，回線を通したプログラム間の結合も，データを介した疎結合状態を持つのと岡様の効果がある。これは，両処理の疑似的結合が相似形式であり，ともに同一効果が得られることを示している。プログラムの結合用パラメータは，各プログラム機能を利用目的男聾に再調整しディスプレイ上に表示する。パラメ・・一議は，プログラム機能の抽出，応答形式の取りまとめ 128

(22)

の過程で最適化される。

そのほか，光ディスクについては，関係形式デrタベースのバックアップ用装置として，データベースは，、端末用簡易表操作プPtグラムの仮想ファイル化を計画している。ファイル，データベーース，光ディスク間の仮想化は，

端末用簡易表操作プPtグラムと関係形式のデータベースの間で一部実現しており，暫コンピュータ導入の一環としてメーカから提供される予定である。、

OA化における仮想化の対象は，利用者の多い日本語ワードプロセウサについても同様の対応が必要であり，端末側の代表的プログラムの一一・Jt化の方向を明確にすべきと思われる。

5．おわりに

国定読本の用語の調査について，基本的な考え方と問題点に対する改良案を述べた。限られた期間・経費で調査を進めるためには，費用対効果比，システム効率を最大にすることが急務である。また，このことが調査完了のかぎとなっていた。システムは，これらの条件を満足させることを前提に設計された。設計時の条件の一つは，データ・プログラムともに外注によって達成できる冤通しがついた。条件の第二は，ターンアラウンド処理と，後処理方式の導入によって，読み仮名づけ，単位切り，品詞情報づけの効率化で対応可能になった。これらの処理は，特定用語の分離一括処理，総合辞書による処理の基準化に負うところが多い。現在，システムの改善を行うため仮名・漢字変換処理による単位切り，伺語異語養鯉処理への効果，ソートキーの動的指示，仮想ファイルの拡張など，新方式導入の妥当性について検討を進めている。実用化には，まだ解決しなけれぽならない問題がある。

一つはソフトウェア機能に利用者の目的にそった拡張・変更への対応がなされていないことである。この問題は，提供されるソフトウェアが単ヅ処理を目的に開発されており，端末・ホスト双方ともにプPtグラムは，個々に独立して使用される前提で開発されてきたことが原因となっている。インテリジェント端末・分散処理下でのプログラムとしては，見直しの時期にあると 129

(23)

思われる。統一をはかるためには，プログラムの部品化と部晶の結合による拡大機能を持つプPtグラムを作成し，疑似的結合の標準インタフェーースの設定，処理結果と統討値の開放が必要になる。，

最後に，OCR方式のシステム設計にあたって，対象デーータ量を把握しておくことは，外注費用の算出など予算配分上重要である。しかし，第1期の調査は，出版のための作業が行われており，事前調査による詳細データが得られにくい状態にある。そこで，第1期作業の経験とサンプリングによる数値をもとに，第3期以降のデータ量の予測を行った。

表2に示した，従来の用語調査方式で必要とするデータ入力量は，次のようになる。漢字を含んだ表記は，40％約20万語と予想されるため，入力原稿上の文字数16字に対し320万字となる。以下同様に計算し記号系をはぶいた総計では約604万字である（ただし同語異語不堪対象語と仮名表解語は璽思している）。ターンアラウンド方式では，入力データを約150万字と見積ったため，両システム間の差は454万字になる。必要とする金額は，単価によって変動するが，差と同程度のひらきは出るものと思われる（OCR用紙価格が高いため4万枚で約8◎万円の増額になる）。

各作業の必要工数は，単位切り処理に．94〜135入日（1人1日35〜50枚処理すると仮定）程度と推定される。また02用紙では，同様の算定規準で480

〜685人日かかると予想した。総日数は，574〜820人日である。作業は，修正処理のための諸作業を含んでいないが，29カ月〜41ヵ月（20日／月として計算）を要することになる。これは，2人の作業者で15カ月から21ヵ月で対応できることを示している。OCR方式は，従来方式による調査期間・費用に対し，、推定50％〜7◎％が短縮でき，本システムの設計上下は達成されたと思われる。また，試案4ユ「仮名・漢字変換処理め拡張と応用！で述べた方法による場合，晶詞・注記処理は残るが，漢字を含んだ語への見出し語づけ処理の4◎％，20万語（表2）にあたるものを02用紙からはぶくことができる。これは，分離処理と合わせて全体で約60％，30万語が対象になる。試案の実用化は，用紙・男帯の短縮ともに漢字部分の対応で十分効果は得られる 130

(24)

ことになる。

以上の各数：値は，算出基準が経験によっているため，正確な推定値を示していない可能性がある。システム設計に必要な値は，入力データ総数の5％

程度の誤差は許されるため，あえてこの数値を基本に算幽した。

〔謝辞〕システム設計にあたil ｝メンバの高梨信博氏には第1期からの各種情報をまとめていただいた。記して謝意を表する。なお本稿は，文部省科学研究費助成「国定読本の用語の研究」（一般研究A研究代表者飛田良文）

の一部である。

（1985． 6． 27）

参考文献 1）斎藤秀紀

2）・・・…

3） … 一・・

4）・・・…

5）・・… イ色

6）・・・…

7︶

8）・・・…

9）・・・…

10）一・・…

11）・・・…

（1976）「言譲処理におけるターンアラウンド・システムj『電子計算機による国語覇究槻』（国研報告59）63−111。

（1980）「分散処理システムへの試み」『電子計算機による国語研究X』（圏研究吾67）73・一88。

（1983）『分散処理による大量日本語処理の効率化に関する研究3 （昭煽57年度科学研究費補助金一般研究C研究成果報告書）。

（1984）「会話処理によるファイル管理情報の生成」『研究報告集 5』（国研報告79）145一・162。

（1984）「H本語とパ・・一・ソナルコンピ＝一一タ」『電子逓僑学会誌a Vol．67， No． 4，57−103e

（1985）「漢字コードの拡張渋に関する試案」『丁丁報告集6』

（国研報告83）57一一103。

国立国語研究所（1952）『語彙調査一現代新聞の用語の一一例a（国遠報告2）。

12）・一・…

13）・・・…

（1953）『婦人雑誌の稽語』（国研報告4）o

（1957）『総合雑誌の周語（前編）』（国研報告12）。

（2958）『総合雑誌の用語（後編）』『国研報告13）Q

（1962）『現代雑誌九十種の用語建立（第一分越総記・語彙表）』

（国記報告21）。

（1963）『現代雑誌九十種の用語規掌（第二分羅漢字表）』（国研報告22）。

（1973）『電子計算機による新聞の語彙語査（W）』（国研報告48）。

131

(25)

14）・．．．．．

15）・・… ＋

16）

17）稲永紘之他

18＞豊島正之

19）

20）

21）

22）

23）

24）

25）

林照郎他編小川環樹他編諸橋轍次編上瞬万年他編

（1983）『高校数科書の藷彙調査』（国研報告・76）。

（1976）『現代新聞の漢字』（国研報告56）。

（1983）『電子計算機と国譲研究』。

（1982）「B本語処理のための機械辞書」「情報処理』Vol．23，

No． 2， 14e−146．

（1982）「文献学的研究の為の索引を電子計算機で作る上での諸問題に獣て：『言言吾研究の中の計算機al（計算機利用書譜学研究会編東大）41−52。

（1984）『例解薪国語辞典』第1刷（三省堂）。

（1985）『薪字源』230版（角川書：店）。

（1971）『大漢麹辞典』第3印刷（大修館書店）。

（1971）『大字典』第56版（講談社）。

『OCRターンアラウンド処理基本設計書』（国研一FS−OOI）。

『OCRターンアラウンド処理OCR帳票案』（国研一EM−010）。

石綿敏雄（1984）「情報処理における最適化表現」『正書法。造語法の資料と研究法一日本語の正書法及び造語法とそのあり方（中間報告集）』（昭和58年文部省科学研究費補助金特定研究（1）研究課題番号58107016研究代表者林大）90−102。

132

(26)

表2 第1期からの闇闇出現予想（延べ語数）

タ値

」

鞭定 U

二幅長長記尋

語名注己虚誓口単三・

均み蟻集一読品編

計推定全文字数

漢字表記 40％

（20万語）

3字

6 4 3

16字

320万字

仮名表記 50％

（25万語）

3字

4 3

10宇

250万字

記号 2AO

（1万語）

1字

1

2字

2万字

惣

語異一

翻撫

岡品

3字

4 1

8字

32万字

表3 晶詞・注記の略号と番号

品一三一番引品詞睡一番号

〔名詞〕

課名話手名曲名地名

〔予備〕

名詞代名詞形状詞副詞連体詞接続詞感動詞

〔助詞〕

格助詞副助詞係助詞

名手名名567 名状体助助助課話人地000名代形謝連接感柔柔係

12345678900000 12300000000012345 666 ^接続助詞^並立助詞

準体助詞終助詞間投助詞

〔動詞〕

四段五段上二段上一段下二段下一段力行変格サ行変格ナ行変格ラ行変絡形容詞助動詞

助助助助投二一二一変変変変動接並準終間四五上上下下カサナラ形助

133

同形異語判別への仮名・漢字変換処理の応用