国立国語研究所学術情報リポジトリ
新聞漢字調査の機械処理システム
著者 野村 雅昭
雑誌名 電子計算機による国語研究
巻 3
ページ 146‑164
発行年 1971‑03
シリーズ 国立国語研究所報告 ; 39
URL http://doi.org/10.15084/00001009
新聞漢字調査め機械処理システム
野 村 雅 昭
1. はじめに
この調査は,昭和42年度より,第三資料硫究室が行なっている,「薪聞語彙 調査に伴う漢宇および表記の既究」の一部をなすものである。漠宇に関する調 査・研究は,42年度からはじめられ,44年度までに,ほぼ3分の1の量のデー タについて,電子計算機による処理および漢字テレタイプ(略称 漢テレ)に よる印字を終えた。ついで,同年から,人手による作業をすすめて,:本45年度 には,中閥報告を発表すべく,現在,まとめの作業が進行中である。集計の結 果については,すでに,その一部を発表したもののもあり,近く発表予定の報 告(国研資料集8『現代新聞の漢字調査(中間報告)』)にすべてが収められて いるので,ここでは,主として,電子計算機による処理方法を中心にして述べ ることにする。中間集計までの処理システムは,43年1月に起案されたものを もとにして,その後,多少の修正を加えながら,現在にいたっている。その一 部については,すでに述べたこともある(2)が,ここで,あらためて,全体の処 理手順および個々の処理方法の概容について,解説をくわえることにする。
2.全体の流れ
この調査の最初の入カデータとなるのは,語彙調査の処理過程で作成され る,磁気テープ・ファイルである。このファイルは,長単位(3)とよばれる語の
(1)「新聞使用漢字の試行的分析」 (『電子計算機による圏語研究』国研報告34)
r旧聞の漢字と雑誌の漢字」 (『国研LDP 6』)
(2)「漢字調査の機械処理について」 (掴研LDP I』)
一 146 一
すべてを含み,それぞれに,出典と層別の情報を持っている。さらlt,それぞ れの長単位語の第1宇目が漢字の場合は,それに読みがなとしての代表音がつ けられており,変則的ではあるが,全ンコードが五十音順に配列されている。
(ただし,今回の中間集計では,別途の事情から,この配列惰報を利用するこ とはなかった。)そして,このファイルは,長単位語の度数カウントのひとつ 手前のファイルであり,汎用性の強いものである。
長単位五十音順ファイル フit ・一マッb
代表音 (20)
出典情報
(12)
層別情報 (8)
長単位見出し語 (4e)
E/1
この長単位ファイルから,漢宇調査に必要なレコードを抜き出し,漢字配列 に必要な情報を書きこみ,度数カ
ウントをするとともに,見出し漢 字,用語例のアウト・プットをす
るというのが,本システムの概略 である。このシステムで作成した プUグラムを機能によって分類す ると,つぎの4種類になるQ 1.漢宇データ抽出プログラム
漢字データ袖出
図1 作業の流れ(略図)
ew 幣 憂 憂
一
列情報書きこみ
一
数カウント
↓
語例表作成
一
数表作成
2.配列情報書きこみプログラム(部首コード・代表音コード)
3.度:数カウントプログラム
4.印字処理プログラム(漢テレ・ラインプリンタ使用)
以上のほか,ソート。プログラムは,ナービス・ルーチンを利用し,それにと もなう,マー一・ y・プログラムは,すべて,当方で作成した。このシステム全体 の流れは,ec 2に示したとおりである。このほかに,人手による処理作業もあ るわけだが,ここでは,省略する。
(3)文締から付属語を除いたものと,ほぼ同じ。詳しくは,穿電畢計算機による薪聞 の語彙調査』 (国研報告 37)を参照。
一 147 一
START
ト
長単.泣
三瓦・..i.・覇凋資
首蔽
図2 漢字表作成システム・フロー
婿
漢字を含む長皐位 語から漢字を抜き 出して漢字1宇ご とのレコーFを窪る
. 見錘.1し漢㌻
漢テレ隈ソート
蔀 酋コード テrブル
晃嶺し漢字.iご..
配粥摘穀1を書 きこ雪.・
漢字ゴ1:
テーブル
見串し漢字
五・.1.・音瀬ソート
二言綱 台帳
・︐︐
撃rあゲ憎町
ナ
コ一
レた嘘⇔し鮮
爵けカ﹂
晃庸し漢字とそiL を禽む矯語倒を漢 テレで印字する
1
趨語側の度数をカ ウントしIB典情報 をラインプ弓ンタ で好ち出す
見串し漢字 部勇擁1ソート
漢字の度数をカ ウントし度数搬 壕を作る
数幌度古 歪
tt
.1漢テレ・ライン ブtlンクをilEfi;
して層弱度数つ き1う三字表を岸る
層溺にデー.クを 房類して層別度 数瀬表を惚る
漢窪二度数表 層溺漢字衷
一 148 一
3. 見出し漢字の抽出 1
このプログラムは,上述の長単位五十音順ファイルを,1レコ・一一ドずつ読み こんで,漢宇を含む語については,漢字1宇ずつについて,それを見出し漢字 として,1レコードを作成するものである。長単位語を1回忌つ読んで,それ が漢字であるかいなかを判別するのは,漢テレコードでは漢字が1箇所に集ま.
っていないため,多少の手つづきを要するが,漢字以外のすべての字種を判別 するのにくらべれば,そうめんどうではない。ただジなにをもって漢字と定義 するかによって,多少,選択の手つづきは変わってくる。この調査では,漢字 としてあつかうのは,便宜上, 駄漢和辞典』 (諸橋轍次著 約50,000字辮 収)に,字母としてのせられでいるものということにしてある。実際には,同 辞典にない漢字もかなり出現しているが,おおむね字体の異同などによるもの
で譲宇かいゆ㊧糠惑うやなケー,禍ほと曜酔マた・t.
実際の斬聞紙面k ,漢字がどのように用いられているがという観点から,こ のプログラムで漢字として処理するものを分類すると,つぎめ3類になる。
1.普通に使用される漢字 、. 「 1 ド 2.因・圃など,記号約に使用される漢字
3.○と々
1は,普通の記事や見出しな:どに使われるものが大部分をしめる。各種の表や 広告などの中には,記号的な使い方がされているものもあるが,それらもここ に含めて,特に区劉はしない◎2はンテレビ・ラジオの番組欄などに現われる もので,記号としての機能が強いものであるが,1のグ7tZ・一一プと同様にあつか
う。ただし,度数カゥン5の際には,記号的に使用されたものが,全体のうち どれだけあるかは,区別できるようにする。3は,普通には,漢字と考えられ ないし,前述の規則からもはずれるものであるが,漢字の用法をみる場合に参 考となる可能性もあるので,この段階では,一応,漢字として処理して,用語 例はアウトプットする。ただし,度数カウント、の際には,対象から除く。な お,○は〜・二・三…などの漢数字とともに用いられた場合のみをどり,その 一 149 一
ほかの符号的な用法の場合は,とらない。
ところで,本研究所の漢テレは,盤面2,400宇(600トップキー),そのうち 漢字は,2,108字である。したがって,それ以外の漢字(盤外字)が出現した 場合には,なんらかの処理法を考える挙要がある。 (それについては,あとで も多少ふれるが,詳しくは,下記の論文(4)を参照されたい。)そこで,漢テレ による入力という観点からいえば,上託の漢字として処理するものは,4つの タイプに分けて考えられる。
1.普通の用法の盤内字(○・々を含む)
2.記号的用法の 〃 3.普通の用法の盤外字 4.記号的用法の 〃
たとえば,実際の紙面に現われたものを,漢テレでインプットする場合にどう なるかを,上のタイプに従って示せば,つぎのようになる。
1. 打ち上げ一一 2. 因一一一一→卜 3. :夏目漱:石一
4. 圃一
漢テレ
→打ち上げ
一一
w1天○一夏1]◇開合右 、
一一一ィ ◇身野ρ
因は天気予報,圖は埼玉県のことで,番組欄で記号的に使われたものである。
このように,盤内にない記号が現われた場合は,烈マークで示し,漢字の場合 には,『1と○の聞に,その漢字をはさんで,3漢テレ字母で示す。したがっ て,lilマークを読みこんだ場合は,つぎの字が漢字であるかいなかを判定し,
漢字の場合は,その漢字と○の2字分を見出し漢字キリアにうつす。また,
「漱」と「埼」は盤外掌で,盤外字は,◇マークを打ったあと,盤内の2字の 漢字の組み合わせで,これを表わすことになっている。 (漱篇◇開合,埼=◇
三野)したがって,◇マークを判定した場合は,それに続く2字(◇を含めて
(4)松ホ昭「騒研用漢字テレタイプと同機利用の言語情報処理」
る国語研究』困研報告 31)
一 150 一
(『電子計箕機によ
図3 漢字データ抽出ブXック・チャー5
ひ s rixRT
REAP.
NO
1莫ti;=カ・?
YES
1 O
壽詫内;莫{:3t;カ・?
¥ES
豊簿i勺渉〜壕二
処理ルーチン
盤外漢字 処理ルーチン
YES
記号的用法字か2
NO
ll己・り・1.i…1漂ざ1 二
ICL)]llノレーチン
見出しi蒐f茎つき レコード{賊
wRITE
END
一 151 一
:3字)を見出し漢字エリアに移動することになる。
このようvaして・騨蝉を1字ずつ読んでは・漢郭享ごとに・麟位語 を絹語例としたレコードを作成する。つまり,「打ち上げ」からは,2レコー
ド,「夏目◇開合石」からは,4tz b 一一ドといった具合になる。この処理が終 わ・たあとの・各レコーゆフ・汐・トは・つぎのよう甑・ている・
見出し漢字抽出データフdi 一マット
,見吊し漢字 (8)
出典情報
(12)
層別情報
(8)
長単位用語例
(4e)
E/1
1・一打ち一1.・lt・ ・234 耳?ゲi
◇開喬 夏目◇開合石 ﹁璽濯
二身野○ 馴身野○
壌
1
4.醗列情報の書きこみ
以上のような方法によって作成した,見出し漢字抽画ずみデータを,同じ見 出し漢字ごとに集めるわけであるが,このまま計算機に配列をさせると,それ ぞれ一箇所には集まるが,漢テレ コードによって配列されるため,全体として は,人間にとって意味のない並び方になってしまう。そこで,まず,それぞれ の漢字に,部首理論コードをつけることにする。部首理論コードとは,盤外字 の処理のところで少しふれたが,「大漢和辞典」の通し番号にしたがい,ノソ シフトの盤内漢字2字の組み合わせによって,ほぼ部首順の配列になるように 工夫されたものである(5)。盤外漢字:の場合は,◇マークのあとに,その2字を
.打つわけであるが,盤内漢字の場合にも,この理論コードを書きこんでやれば よい。そのために.は,まず,全部のレコードを漢テレコード順にソートしてお き,盤内字については,同じく漢テレコ・一一ド順に配列してある,部酋テーブル
(5)前注(4)論文を参照。
一 152 一.
を参照しながら,理論コードを書きこんでいく。このコードによって,ソート をすれば,ほぼ康興字典順の配列とひとしくなるわけである。
部首テーブノレ フit.一マット
・㌦〆づ
ト〜.︑畢ソ
2
部ドfコート (4)
漢宇部首コー一1
〈2) 1 (4)
漢字
(2)
噸易一卜列
通し番号 漢テレコード 部首コード 1 − IL 計計 0101
2 TQL 〃形0103
3 7ぎ 、一 ,、 〃型 e10S
lG万E∫
計建010G73 ilコ 8/ 形奥 0341
SG 鵬 一 形加 034C
ここで,ひとつめんどうな閣題がある。それは, 「大漢和辞典」には,正規 の通し番号のほかに,!(ダッシュ)のついた番号の宇があることと,字体の 相違などのため,同辞典には収録していない字が少なからず出現することであ る・たとえば1「‡」の部でいえば・「圧(4879ノ)」.「塁(5316ノ」●贈
(5448ノ)」には,ノがつい七おり,「墨」・「堕」は,この字体では,岡辞典 に載っていない。このような字は,同じ部首の最後の字の通し番号のつぎの番 号を順に当てることによって処理しているが,このため,普通の漢和辞典とこ
となる配列が生じる。たとえtls t C普通ならば,
土一〉圧→塁→堕→塩:→増→墨
のように配列されるところが,このコードでは,
土→塩→圧→塁→増→墨→堕:
¢ようになってしまう。実際には,同じ部首に属する宇が,そう多く出現する ものばかりではないから,それほどの不便は生じていないが,将来,なんらか 一153一
の解決をはかる必要がある。
上のような欠陥を補う意味と,部首順の配列がアルバイターなどの作業者に は引きにくいことをも考慮して,さらに,五十音順の配列が可能なように,代 表者コードを書ぎこむことにした。この代表音コ・一一ドは,語彙調査で,長単位 語をほぼ五十音順に配列するために,長単位語の第1字目が漢字である場合,
その漢字の代表的な音を,実際の読み方とは関係なく,一義的に書きこむため のものである(6)。この中には,いわゆる音(訓に対する)だけでなく,音が一 般的に用いられないものは,訓を代表音としているものもある。 (たとえば,
稲→いね,鹿→しか)そして,盤内子平すべてに代表音テーブルが作成されて いるQ
漢字音テーブル フォーマット 漢 字
(2)
代表音
(8)
E/1
漢 字(2)
代表音
(8)
E/王
漢テレコード 代表音コード 曲 00 きょくア 計 01 けいアア 巾 02 きんアア
この代表音を書きこむことによって,盤内漢字は,すべて,五十音順に配列 される。ソートのときに,第1it 一を代表音コードに,第ニキ 一一を野物コード にすれば,盤内漢字が五十音順に配列され(同音の場合は,部首順),そのあ とに盤外漢字が部首順に並ぶということになっている。この盤外漢字が最後に くることと,語の配列のために作られたので,濁音が清音になっていること が,この処理の閣題点であるが,それについては,最後の章で,ふたたびふれ
る。
(6)くわしくは,つぎの論文を参照。国中章夫「電子計算機によるワードリスト作成 上の一問題」 (『電子計算機による国語研究』国研報告 31)
一 154 一
図4 配列惰報書きこみブロック・チャート
START
READ
先行デーータと Fil一・見出しか?
NO ES
︑
テーブル・セツ.i・
ルーチン
盤タト漢字浄? YES
N,O
喜麟コー 1・
テーブル
音隣コー}ご 融きこみルーチン
盤外灘:
処理ルーチン
.漢繍 テーブル
代願コード 書きこみSV一チン
WRITE
露ND・
ご
一155一
5.用語例表の作成・
以上のような配列情報を書きこんだファイルを,つぎのような優先順位によ って,ソートする。
1.代表音コード 2.部首コード
3.用語{列(漢テL/コーード)
4.出典情報
5。層琵}lj・清幸浸
これによって,同一漢字を用語例中に持つレ コードが,一箇燐に集まり,漢 字および用語例の度数カウントが可能になる。ただし,漢字の度数カウント は,全体のもののみを行ない,層別の度数カウントは,後述の別途の処理によ る。このソ・一一・ Fを終えたファイルを用語例台帳とよぶ。そのフit 一一マットは,
つぎのとおりである。
罵語例台帳 フォーマット 見出し漢字
(8) 代表音
(8)
出典情報
(12)
鷹別情報
(8)
騨需馴量
愛奥裁(SP) あいアア 出典情報 騒劉清報 愛:・清物言吾(SP)…(SP) /
1
この台帳をもとにして,各漢宇と用語例の度数および出典・騒別の情報がわ かるような表を,ラインプリンタで打ち出す。これに.よって,各漢字の用法や 記聞点を調べる必要がある場合には,原データにもどることが可能になる。こ の表を出典表とよぶ。また,見出し漢字と絹語例は,紙テープにアウトプット して,漢テレで印字する。これを用語例表とよぶ。出典表と用語例表は,ペー ジで対応するようになっているので,用語例表から出典表へさかのぼって,各 種の情報を参照しうる。出典表および用語例表のフrk 一マットは,図6のとお
りである。
一 156 一
図5 幾典表作成プロツク・チャー一 F
STARIIr
, 初期1霞セット
jV一チン
RhAl)
死較ル.一一チン
スイッチ.一入え ルーチン
炭数カウント ルーデン
豊ーー旨旨1ーーーー−ーーー
嚇 陶 n【
「曹一一 柳一一一}一 『一一『 「
I l 1
唇 1 題 I
l,一一・Ol
lt ES
l113一..・繍;講か?
¥ES
阿…1.!.1典か?:
Y・ ES
NO
N・O レ 匹 蕃 藍 駈 躍 屡 8 1 韮 露 薯 8 匿 一 1 一 一 鐸 一 覇 匡 一 韮 一 鐸
データ移動 ノレーチン
ブヲン}・Tjラン ルーチン
し_____ __ ____一__」
END,
瘤甕竃ーーー整.一8ーー4聖誕一画曇ーーーー1謬一1ーー匪量藍蔭−崖肇曇塞艦一 繍﹁
葡 騨 繭 陶
ラ・《ン.プ1}ンタ ブ1)ント
YIIS
インタラプト・潔タン セッ}?
NO
昆出し漢守:儒綱 漢テレ用工熱ット
XV RITE
﹁ーーーー︑;︐一︐還
一 輔 一朝 一 麟
1)ランダンブ リランカウン}
HLT
し碗v嶺簡画隔輸隔一輌_一一_榊嶋__一齢一嗣_縣一_ 」
一 157 一
1謝Q◎一
図6 用語例表・出典表フA一一一マット 〔愛〕あい 愛 愛:党精神 肝入 愛京子 愛知 愛知県 愛知累体育館 愛知漿知事選 愛知県内 愛知漿本部 愛知化 愛知機 愛知長窩 愛知工場
8ぺ一 i7 10 Ae ・一ジ 11ページ V−N.rtw.NJVt−nv]V..一tav.
218 L Cl 04518=re706 26327tnO705 KO 40298=0310
YOREI−DOSU 6
218LOオ AO 56625==08Dl Cl 06990r:0910 18503==1216 、∫1 00665篇0910 §4559==050ユ 1〈O. 04987=rO501 46293=0505YOREL−90SU 11
2三8LOオ6,2GO7 Cl 01721=0910YOREI−DOSU 1
218LOオ8LE54) Jl 80677==OIOIYOREI−DOSU 1
218LOオ#V Jl 43488=:0501YOREI−DOSU 1 218LOオDZBZ
J1 8G677二==0101YOREI−DOSU 1
218L49 AO 53449==0310 1〈O 06380=:0310 18350==0310YOREI−DOSU 4
218L7E Cl 02028r=0310 62987==0310 Jl OOI35 rmO310 4621sr:031e K二〇 33705= 0301 57226=;0310YOREI−DOSU 10
PAGE 10 26327=0705 59787==1216 65124rce901 48956m 1216 83546==0506 80677一一〇IO12 37521== 0316 64907=0310 778S7==03iO 82696m=0310 71175===0310
6. 度数カウント
度数カウントのために,用語例台帳の各レコードから,驚語例を切りおとし たものを取り出す。そして,見出し漢字によって,部首順にソートする。部首 順にソートするのは,盤内字をあやまって盤外字として打鍵したものや異形同 字などを発見しやすいからである。異形二字とは,「鴎一鴎,鑛一鉱,挿一 揺」などの類をいう。これらは,漢テレの盤内になくても,邑智として打鍵す ることが可能であるが,今回の調査では,原データ→清書→パンチという作業 の流れ(Cなっているため,正確を期しがたいので,集計の際には,合わせるこ とにした。 (用語例表では,別字として処理してある。)
度数カウントは,つぎのように行なう。1レコード読むごとに,:金体の度数 を1ずつ加える。それと周時に,層別の情報によって,計算機内のカウント・
エリアの,該当するところにも1ずつ加える。 (原則として,1レコードは,
出現頻度1回に相当するが,ma一一文中に,同じ語が2回以上出現する場合も,
1レコードになっている。その場合は,文内度数の情報によって加算する。)
ここでいう磨周とは,語彙調査のG種(文種別)層別とT種(話題溺)層別の 二つを組み合わせたもの(7>で,加算のときに,その指示を与えてやる。その結 果,撃墜と12の層劉の度数がカウントされるわけである。さらに,記号的用法 のものは,全体の度数にも加えながら,別途に集計をする。こうして,出現し た漢字の異なり数だけのレコ日曜ドができあがることになる。これを度数台帳と よぶ。フォーマットは,つぎのようになっている。
度数台帳 フォーマット 晃出し漢字
(6)
代表音
(8) 層 別 漫数
(84) =一 (7×12)
全体度数
(7)
誘響蝶
今回の漢宇調査では,用語例表の点検によって発見されたエラー(打鍵ミ ス・清書ミス・層別の誤判定など)による度数の異動は,すべて,eの台帳で
(7)前注(1) 「薪聞使用漢字の試行的分析」を参照。
一 159 一
修正することになっている。この台帳は,ノンパッチになっており,サービ ス・ルーチンなどによる修正もしゃすくしてある。この台帳を,代表音コー ド,あるいは全体度数によってソートすれば,五十音順,出現度数順の度数台 帳ができるわけである。
この出現度数順の度数台鰻によって,層別累積度数表が作成される。 (部首 順あるいは五十音順台帳でもよいが,度数順のほうが,ソートの時闘が短くて すむ。)まず,台帳の1字分のレコードを,各層ごとに分割して,層を識別す
るコードをつける。ある層の出現度数が0の場合は,レコードを作らない。全 体度数についても,1レコードを作成するとすれば,1レコードから,(12−
n)十1のレコードができるわけで,総計は,各騒ごとの異なり字数の総和に 全体の異なり字数を加えたものと等しくなる。 (nは,出現度数0の層の数。
0≦n<12)これを度数順にソートしたのが騒別度数台媛である。これを入力 デrタとして,必要とする層の情報をパラメータで指示し,度数順に加算しな がら,、ラインプリンタでアウトプットすれば,層別累積度数表ができるわけで ある。また,見出し漢字を漢テレで印字することも可能である。
層別度数台帳 フit 一マット
膳六感継馬構層1総数金幣数}引
7.度数表の作成
各種順に配列された台帳を1レコードずつ読みこんで,ラインプリンタで打 ち出す。フォーマットは,1レ コード1行ですむ。見出し漢字の部分は,紙テ ープにアウトプットして,漢テレで印字する。プログラムの指示によって,ラ インプリンタのフォーマットに合わせて,印字紙の紙幅・行数とも一致させら れるので,あとで,入手で書きこむなり貼りつけるなりすることが三三であ
る。ただし,盤外漢字は,コード・ブックによって,人問が翻訳しなければな らない。出現異なり字数の約3分の1が盤外字なので,この手聞は,かなりた いへんである。
一 160 一
図7 度数表作成システム・フロー
,度,数カウント
㌃膳首1瞭 度、数台帳
4噛﹁FJく少
ρ.㌦p︑も計
Fて
修正必要か2 YES
NO
ゴ疏一霧雪 ソー1・
度数}縫
各種頃 度数台;蹟
1支数表プリント
f t一一一一一
兄出し字穿btし
漢テL・}lilt3・;
層溺レ・二・こ一聖
データ分1翼
1
一「=用槽一一一㎜♂
建
;濫}};綴}1欝、1姦・
度数泌
震潅璽ilゴ[ソーート
溺溺,度数ジξ プリン}・
溜 溺
」蕉数!填漢字彰ξ
一 161 一
図8 度数カウントブロック・チャーF
srrART
1初均猿配セツ ト ルーチン
READ
.先行データと YES
I i・」・.一漢㌻か?
NO
デー.一タ:移動
ルーチ.ン
﹁く難
呼琴
X
﹂
ン
チ
ルー 斑
父ク
1窯:数力II多争:
YES
詑.琴・flts摺法字か2
日目 li己・号爵り用注ミ字
度数加算
プリント ルーチン
END
一 162 一
8.おわりに
以上に述べた処理システムは,今回の中間集計のために作成したもので,数 多くの問題点をかかえたまま,作業を強行やたうらみがある。最終集計のため の処理では,そうした不備をいくら牟でも少なくすることが必要である。そこ で,いくつかの問題点を指摘するとともi/Usその対策を考えてみることにす
る。
さきにも多少ふれたが,まず,見出し漢字の配列の問題がある。部首順配列 における筆画数順の問題は,テーブルに情報を入れておけば,解決する。ま た,五十音順配列で,盤外字が最後に集まる問題は,全体の処理を行なう前 eこ,盤外字だけをアウトプットして,テーブルに追加することができれば,解 決する。清濁の間題は,読みがなをさしかえてやればよい。 (ついでに一言す
るならば,代表音は,いわゆる音と訓の2種類あったほうがよい。)さらに,
当用漢字・教育漢字などの情報も入れておけば,計算機内での集計が簡単にで きるようになる。そうした要求を満たすためには,結局,漢字調査専耀の総合 漢字テーブルとでもいうべきものが必要となる。現在,その作成のための準備 をすすめているがX詳細については,別の機会に述べることにする。
つぎは,データの修正の問題である。今回は,度数に関する修正は,すべて 計算機内で処理でき たが,用語例の修正は,すべて人手で行なわなければなら なかった。これは,語彙調査のシステムと漢字調査のそれとがうまくかみ合っ ていないことにも原因がある。それを解決するためには,まず,漢字を用いて 表記された長単位語をすべてアウトプットしたものを点検し,エラーを修正し て再入力するしか方法がない。さもなければ,漢テレによる再出力を断念し て,すべて人手で行なわなければならない。それには,駈要時間,人手によっ て起こるミスなどの得失を十分に検討しなければならず,一一概K論じるわけに はいかない◎
また,今の問題とも関連するが,長単位語を含んだファイルのソートが,漢 fレコード順と五十音順の2回あって,それに処理の大部分の時閥を費さなけ 一163一
ればならないことがあげられる。それをいくらかでも短縮するため,1レコー ドの長さをできるだけ切りつめたが,たいした効果はあがらなかった。 (長単 位語の配列情報を落としたのは,そのためである。)これは,用語例表を漢テ
レでアクトプットしょうとするかぎり避けられない問題である。上に述べたよ うに,はじめに漢字表記語をアウトプットして,出典・層別の情報を修正した あと,用語洌を切り離して,度数カウントの処理のみを行なうことにすれば,
所要時間は,かなり短縮されることになる。
そのほか,細かい閥題はかなりあるが,大部分は,実際の処理で改善するこ とができる。残りのデータの処理を,いかに効率よく精度を高めることができ るかは,今後の表記調査にも深いかかわりを持っている。現在の問題点の多く は,語彙調査のシステムがほぼ完成した段階から,漢字調査のシステム設計が はじめられたことに.起因するものである。根:本的にはプ語彙調査のシステムの 中に,表記調査,漢字調査をどう位置づけるかということの検討が最後に残さ れた閥題であるといえよう。
(45. 10. 31)
一 164 一