• 検索結果がありません。

新聞漢字調査の機械処理システム

N/A
N/A
Protected

Academic year: 2021

シェア "新聞漢字調査の機械処理システム"

Copied!
20
0
0

読み込み中.... (全文を見る)

全文

(1)

国立国語研究所学術情報リポジトリ

新聞漢字調査の機械処理システム

著者 野村 雅昭

雑誌名 電子計算機による国語研究

巻 3

ページ 146‑164

発行年 1971‑03

シリーズ 国立国語研究所報告 ; 39

URL http://doi.org/10.15084/00001009

(2)

新聞漢字調査め機械処理システム

野 村 雅 昭

1. はじめに

 この調査は,昭和42年度より,第三資料硫究室が行なっている,「薪聞語彙 調査に伴う漢宇および表記の既究」の一部をなすものである。漠宇に関する調 査・研究は,42年度からはじめられ,44年度までに,ほぼ3分の1の量のデー タについて,電子計算機による処理および漢字テレタイプ(略称 漢テレ)に よる印字を終えた。ついで,同年から,人手による作業をすすめて,:本45年度 には,中閥報告を発表すべく,現在,まとめの作業が進行中である。集計の結 果については,すでに,その一部を発表したもののもあり,近く発表予定の報 告(国研資料集8『現代新聞の漢字調査(中間報告)』)にすべてが収められて いるので,ここでは,主として,電子計算機による処理方法を中心にして述べ ることにする。中間集計までの処理システムは,43年1月に起案されたものを もとにして,その後,多少の修正を加えながら,現在にいたっている。その一 部については,すでに述べたこともある(2)が,ここで,あらためて,全体の処 理手順および個々の処理方法の概容について,解説をくわえることにする。

2.全体の流れ

 この調査の最初の入カデータとなるのは,語彙調査の処理過程で作成され る,磁気テープ・ファイルである。このファイルは,長単位(3)とよばれる語の

(1)「新聞使用漢字の試行的分析」 (『電子計算機による圏語研究』国研報告34)

  r旧聞の漢字と雑誌の漢字」 (『国研LDP 6』)

(2)「漢字調査の機械処理について」 (掴研LDP I』)

      一 146 一

(3)

すべてを含み,それぞれに,出典と層別の情報を持っている。さらlt,それぞ れの長単位語の第1宇目が漢字の場合は,それに読みがなとしての代表音がつ けられており,変則的ではあるが,全ンコードが五十音順に配列されている。

(ただし,今回の中間集計では,別途の事情から,この配列惰報を利用するこ とはなかった。)そして,このファイルは,長単位語の度数カウントのひとつ 手前のファイルであり,汎用性の強いものである。

長単位五十音順ファイル フit ・一マッb

代表音 (20)

出典情報

 (12)

層別情報  (8)

長単位見出し語   (4e)

E/1

この長単位ファイルから,漢宇調査に必要なレコードを抜き出し,漢字配列 に必要な情報を書きこみ,度数カ

ウントをするとともに,見出し漢 字,用語例のアウト・プットをす

るというのが,本システムの概略 である。このシステムで作成した プUグラムを機能によって分類す ると,つぎの4種類になるQ  1.漢宇データ抽出プログラム

漢字データ袖出

図1 作業の流れ(略図)

ew 幣 憂 憂

列情報書きこみ

数カウント

 ↓

語例表作成

数表作成

 2.配列情報書きこみプログラム(部首コード・代表音コード)

 3.度:数カウントプログラム

 4.印字処理プログラム(漢テレ・ラインプリンタ使用)

以上のほか,ソート。プログラムは,ナービス・ルーチンを利用し,それにと もなう,マー一・ y・プログラムは,すべて,当方で作成した。このシステム全体 の流れは,ec 2に示したとおりである。このほかに,人手による処理作業もあ るわけだが,ここでは,省略する。

(3)文締から付属語を除いたものと,ほぼ同じ。詳しくは,穿電畢計算機による薪聞   の語彙調査』 (国研報告 37)を参照。

      一 147 一

(4)

START

長単.泣

三瓦・..i.・覇凋資

 首蔽

図2 漢字表作成システム・フロー

婿

漢字を含む長皐位 語から漢字を抜き 出して漢字1宇ご とのレコーFを窪る

.   見錘.1し漢㌻

  漢テレ隈ソート

蔀 酋コード テrブル

晃嶺し漢字.iご..

配粥摘穀1を書 きこ雪.・

漢字ゴ1:

テーブル

 見串し漢字

五・.1.・音瀬ソート

二言綱 台帳

・︐

撃rあゲ憎

た嘘⇔し鮮

爵けカ﹂

晃庸し漢字とそiL を禽む矯語倒を漢 テレで印字する

1

趨語側の度数をカ ウントしIB典情報 をラインプ弓ンタ で好ち出す

見串し漢字 部勇擁1ソート

漢字の度数をカ ウントし度数搬 壕を作る

数幌度古

tt

.1漢テレ・ライン ブtlンクをilEfi;

 して層弱度数つ  き1う三字表を岸る

層溺にデー.クを 房類して層別度 数瀬表を惚る

漢窪二度数表 層溺漢字衷

一 148 一

(5)

3. 見出し漢字の抽出 1

 このプログラムは,上述の長単位五十音順ファイルを,1レコ・一一ドずつ読み こんで,漢宇を含む語については,漢字1宇ずつについて,それを見出し漢字 として,1レコードを作成するものである。長単位語を1回忌つ読んで,それ が漢字であるかいなかを判別するのは,漢テレコードでは漢字が1箇所に集ま.

っていないため,多少の手つづきを要するが,漢字以外のすべての字種を判別 するのにくらべれば,そうめんどうではない。ただジなにをもって漢字と定義 するかによって,多少,選択の手つづきは変わってくる。この調査では,漢字 としてあつかうのは,便宜上, 駄漢和辞典』 (諸橋轍次著 約50,000字辮 収)に,字母としてのせられでいるものということにしてある。実際には,同 辞典にない漢字もかなり出現しているが,おおむね字体の異同などによるもの

で譲宇かいゆ㊧糠惑うやなケー,禍ほと曜酔マた・t.

 実際の斬聞紙面k ,漢字がどのように用いられているがという観点から,こ のプログラムで漢字として処理するものを分類すると,つぎめ3類になる。

  1.普通に使用される漢字   、.      「  1 ド   2.因・圃など,記号約に使用される漢字

  3.○と々

1は,普通の記事や見出しな:どに使われるものが大部分をしめる。各種の表や 広告などの中には,記号的な使い方がされているものもあるが,それらもここ に含めて,特に区劉はしない◎2はンテレビ・ラジオの番組欄などに現われる もので,記号としての機能が強いものであるが,1のグ7tZ・一一プと同様にあつか

う。ただし,度数カゥン5の際には,記号的に使用されたものが,全体のうち どれだけあるかは,区別できるようにする。3は,普通には,漢字と考えられ ないし,前述の規則からもはずれるものであるが,漢字の用法をみる場合に参 考となる可能性もあるので,この段階では,一応,漢字として処理して,用語 例はアウトプットする。ただし,度数カウント、の際には,対象から除く。な お,○は〜・二・三…などの漢数字とともに用いられた場合のみをどり,その        一 149 一

(6)

ほかの符号的な用法の場合は,とらない。

 ところで,本研究所の漢テレは,盤面2,400宇(600トップキー),そのうち 漢字は,2,108字である。したがって,それ以外の漢字(盤外字)が出現した 場合には,なんらかの処理法を考える挙要がある。 (それについては,あとで も多少ふれるが,詳しくは,下記の論文(4)を参照されたい。)そこで,漢テレ による入力という観点からいえば,上託の漢字として処理するものは,4つの タイプに分けて考えられる。

  1.普通の用法の盤内字(○・々を含む)

  2.記号的用法の 〃   3.普通の用法の盤外字   4.記号的用法の 〃

たとえば,実際の紙面に現われたものを,漢テレでインプットする場合にどう なるかを,上のタイプに従って示せば,つぎのようになる。

1. 打ち上げ一一 2. 因一一一一→卜 3. :夏目漱:石一

4. 圃一

漢テレ

→打ち上げ

一一

w1天○

一夏1]◇開合右  、

一一一ィ  ◇身野ρ

因は天気予報,圖は埼玉県のことで,番組欄で記号的に使われたものである。

このように,盤内にない記号が現われた場合は,烈マークで示し,漢字の場合 には,『1と○の聞に,その漢字をはさんで,3漢テレ字母で示す。したがっ て,lilマークを読みこんだ場合は,つぎの字が漢字であるかいなかを判定し,

漢字の場合は,その漢字と○の2字分を見出し漢字キリアにうつす。また,

「漱」と「埼」は盤外掌で,盤外字は,◇マークを打ったあと,盤内の2字の 漢字の組み合わせで,これを表わすことになっている。 (漱篇◇開合,埼=◇

三野)したがって,◇マークを判定した場合は,それに続く2字(◇を含めて

(4)松ホ昭「騒研用漢字テレタイプと同機利用の言語情報処理」

  る国語研究』困研報告 31)

      一 150 一

(『電子計箕機によ

(7)

図3 漢字データ抽出ブXック・チャー5

   ひ       s rixRT

REAP.

NO

1莫ti;=カ・?

YES

       1 O

壽詫内;莫{:3t;カ・?

   ¥ES

豊簿i勺渉〜壕二

処理ルーチン

盤外漢字 処理ルーチン

       YES

記号的用法字か2

NO

ll己・り・1.i…1漂ざ1 二

ICL)]llノレーチン

見出しi蒐f茎つき レコード{賊

wRITE

END

一 151 一

(8)

:3字)を見出し漢字エリアに移動することになる。

このようvaして・騨蝉を1字ずつ読んでは・漢郭享ごとに・麟位語 を絹語例としたレコードを作成する。つまり,「打ち上げ」からは,2レコー

ド,「夏目◇開合石」からは,4tz b 一一ドといった具合になる。この処理が終 わ・たあとの・各レコーゆフ・汐・トは・つぎのよう甑・ている・

         見出し漢字抽出データフdi 一マット

,見吊し漢字   (8)

出典情報

 (12)

層別情報

 (8)

長単位用語例

  (4e)

E/1

1・一打ち一1.・lt・ ・234

?ゲi

◇開喬 夏目◇開合石 ﹁璽濯

二身野○ 馴身野○

1

4.醗列情報の書きこみ

 以上のような方法によって作成した,見出し漢字抽画ずみデータを,同じ見 出し漢字ごとに集めるわけであるが,このまま計算機に配列をさせると,それ ぞれ一箇所には集まるが,漢テレ コードによって配列されるため,全体として は,人間にとって意味のない並び方になってしまう。そこで,まず,それぞれ の漢字に,部首理論コードをつけることにする。部首理論コードとは,盤外字 の処理のところで少しふれたが,「大漢和辞典」の通し番号にしたがい,ノソ シフトの盤内漢字2字の組み合わせによって,ほぼ部首順の配列になるように 工夫されたものである(5)。盤外漢字:の場合は,◇マークのあとに,その2字を

.打つわけであるが,盤内漢字の場合にも,この理論コードを書きこんでやれば よい。そのために.は,まず,全部のレコードを漢テレコード順にソートしてお き,盤内字については,同じく漢テレコ・一一ド順に配列してある,部酋テーブル

(5)前注(4)論文を参照。

一 152 一.

(9)

を参照しながら,理論コードを書きこんでいく。このコードによって,ソート をすれば,ほぼ康興字典順の配列とひとしくなるわけである。

 部首テーブノレ フit.一マット

・㌦〆づ

ト〜.︑畢ソ

2

部ドfコート  (4)

漢宇部首コー一1

〈2) 1 (4)

漢字

(2)

噸易一卜列

  通し番号  漢テレコード 部首コード    1  − IL      計計 0101

   2 TQL     〃形0103

   3    7ぎ  、一  ,、      〃型  e10S

  lG万E∫  

計建010G

  73    ilコ  8/       形奥  0341

  SG 鵬 一      形加 034C

 ここで,ひとつめんどうな閣題がある。それは, 「大漢和辞典」には,正規 の通し番号のほかに,!(ダッシュ)のついた番号の宇があることと,字体の 相違などのため,同辞典には収録していない字が少なからず出現することであ る・たとえば1「‡」の部でいえば・「圧(4879ノ)」.「塁(5316ノ」●贈

(5448ノ)」には,ノがつい七おり,「墨」・「堕」は,この字体では,岡辞典 に載っていない。このような字は,同じ部首の最後の字の通し番号のつぎの番 号を順に当てることによって処理しているが,このため,普通の漢和辞典とこ

となる配列が生じる。たとえtls t C普通ならば,

  土一〉圧→塁→堕→塩:→増→墨

のように配列されるところが,このコードでは,

  土→塩→圧→塁→増→墨→堕:

¢ようになってしまう。実際には,同じ部首に属する宇が,そう多く出現する ものばかりではないから,それほどの不便は生じていないが,将来,なんらか        一153一

(10)

の解決をはかる必要がある。

 上のような欠陥を補う意味と,部首順の配列がアルバイターなどの作業者に は引きにくいことをも考慮して,さらに,五十音順の配列が可能なように,代 表者コードを書ぎこむことにした。この代表音コ・一一ドは,語彙調査で,長単位 語をほぼ五十音順に配列するために,長単位語の第1字目が漢字である場合,

その漢字の代表的な音を,実際の読み方とは関係なく,一義的に書きこむため のものである(6)。この中には,いわゆる音(訓に対する)だけでなく,音が一 般的に用いられないものは,訓を代表音としているものもある。 (たとえば,

稲→いね,鹿→しか)そして,盤内子平すべてに代表音テーブルが作成されて いるQ

   漢字音テーブル フォーマット 漢 字

(2)

代表音

(8)

E/1

漢 字

(2)

代表音

(8)

E/王

 漢テレコード 代表音コード 曲   00    きょくア 計   01     けいアア 巾   02    きんアア

 この代表音を書きこむことによって,盤内漢字は,すべて,五十音順に配列 される。ソートのときに,第1it 一を代表音コードに,第ニキ 一一を野物コード にすれば,盤内漢字が五十音順に配列され(同音の場合は,部首順),そのあ とに盤外漢字が部首順に並ぶということになっている。この盤外漢字が最後に くることと,語の配列のために作られたので,濁音が清音になっていること が,この処理の閣題点であるが,それについては,最後の章で,ふたたびふれ

る。

(6)くわしくは,つぎの論文を参照。国中章夫「電子計算機によるワードリスト作成  上の一問題」 (『電子計算機による国語研究』国研報告 31)

      一 154 一

(11)

図4 配列惰報書きこみブロック・チャート

START

READ

先行デーータと Fil一・見出しか?

   NO ES

テーブル・セツ.i・

ルーチン

盤タト漢字浄? YES

   N,O

喜麟コー 1・

テーブル

音隣コー}ご 融きこみルーチン

盤外灘:

処理ルーチン

.漢繍 テーブル

代願コード 書きこみSV一チン

WRITE

露ND・

一155一

(12)

5.用語例表の作成・

 以上のような配列情報を書きこんだファイルを,つぎのような優先順位によ って,ソートする。

  1.代表音コード   2.部首コード

  3.用語{列(漢テL/コーード)

  4.出典情報

  5。層琵}lj・清幸浸

 これによって,同一漢字を用語例中に持つレ コードが,一箇燐に集まり,漢 字および用語例の度数カウントが可能になる。ただし,漢字の度数カウント は,全体のもののみを行ない,層別の度数カウントは,後述の別途の処理によ る。このソ・一一・ Fを終えたファイルを用語例台帳とよぶ。そのフit 一一マットは,

つぎのとおりである。

罵語例台帳 フォーマット 見出し漢字

 (8) 代表音

(8)

出典情報

 (12)

鷹別情報

 (8)

騨需馴量

愛奥裁(SP) あいアア 出典情報 騒劉清報 愛:・清物言吾(SP)…(SP) /

         1

 この台帳をもとにして,各漢宇と用語例の度数および出典・騒別の情報がわ かるような表を,ラインプリンタで打ち出す。これに.よって,各漢字の用法や 記聞点を調べる必要がある場合には,原データにもどることが可能になる。こ の表を出典表とよぶ。また,見出し漢字と絹語例は,紙テープにアウトプット して,漢テレで印字する。これを用語例表とよぶ。出典表と用語例表は,ペー ジで対応するようになっているので,用語例表から出典表へさかのぼって,各 種の情報を参照しうる。出典表および用語例表のフrk 一マットは,図6のとお

りである。

       一 156 一

(13)

図5 幾典表作成プロツク・チャー一 F

STARIIr

      , 初期1霞セット

jV一チン

RhAl)

死較ル.一一チン

スイッチ.一入え ルーチン

炭数カウント ルーデン

豊ーー旨旨1ーーーー−ーーー

n

「曹一一 柳一一一}一 『一一『

I      l 1

唇      1 題      I

l,一一・Ol

lt ES

l113一..・繍;講か?

¥ES

阿…1.!.1典か?:

Y・ ES

NO

N・O  匹 蕃  藍   駈    躍    屡     8      1      韮       露        薯         8         匿      一       1      一       一       鐸      一       覇      匡       一       韮      一       鐸

データ移動 ノレーチン

ブヲン}・Tjラン ルーチン

し_____ __  ____一__」

END,

瘤甕竃ーーー整.一8ーー4聖誕一画曇ーーーー1謬一1ーー匪量藍蔭−崖肇曇塞艦一       繍﹁       

ラ・《ン.プ1}ンタ ブ1)ント

        YIIS

インタラプト・潔タン   セッ}?

NO

昆出し漢守:儒綱 漢テレ用工熱ット

XV RITE

﹁ーーーー︑;︐一︐還

1)ランダンブ リランカウン}

HLT

し碗v嶺簡画隔輸隔一輌_一一_榊嶋__一齢一嗣_縣一_

一 157 一

(14)

1謝Q◎一

図6 用語例表・出典表フA一一一マット 〔愛〕あい 愛:党精神 肝入 愛京子 愛知 愛知県 愛知累体育館 愛知漿知事選 愛知県内 愛知漿本部 愛知化 愛知機 愛知長窩 愛知工場

8ぺ一 i7 10 Ae ・一ジ 11ページ V−N.rtw.NJVt−nv]V..一tav.

218 L   Cl 04518=re706 26327tnO705   KO 40298=0310

 YOREI−DOSU 6

218LOオ   AO 56625==08Dl   Cl 06990r:0910 18503==1216   、∫1  00665篇0910  §4559==050ユ   1〈O. 04987=rO501 46293=0505

 YOREL−90SU 11

2三8LOオ6,2GO7   Cl 01721=0910

 YOREI−DOSU 1

218LOオ8LE54)   Jl 80677==OIOI

 YOREI−DOSU 1

218LOオ#V   Jl 43488=:0501

 YOREI−DOSU 1 218LOオDZBZ

  J1  8G677二==0101

 YOREI−DOSU 1

218L49   AO 53449==0310   1〈O 06380=:0310 18350==0310

 YOREI−DOSU 4

218L7E   Cl 02028r=0310 62987==0310   Jl OOI35 rmO310 4621sr:031e   K二〇  33705= 0301  57226=;0310

 YOREI−DOSU 10

       PAGE 10 26327=0705 59787==1216 65124rce901 48956m 1216 83546==0506 80677一一〇IO12 37521== 0316 64907=0310 778S7==03iO 82696m=0310 71175===0310

(15)

6. 度数カウント

 度数カウントのために,用語例台帳の各レコードから,驚語例を切りおとし たものを取り出す。そして,見出し漢字によって,部首順にソートする。部首 順にソートするのは,盤内字をあやまって盤外字として打鍵したものや異形同 字などを発見しやすいからである。異形二字とは,「鴎一鴎,鑛一鉱,挿一 揺」などの類をいう。これらは,漢テレの盤内になくても,邑智として打鍵す ることが可能であるが,今回の調査では,原データ→清書→パンチという作業 の流れ(Cなっているため,正確を期しがたいので,集計の際には,合わせるこ とにした。 (用語例表では,別字として処理してある。)

 度数カウントは,つぎのように行なう。1レコード読むごとに,:金体の度数 を1ずつ加える。それと周時に,層別の情報によって,計算機内のカウント・

エリアの,該当するところにも1ずつ加える。 (原則として,1レコードは,

出現頻度1回に相当するが,ma一一文中に,同じ語が2回以上出現する場合も,

1レコードになっている。その場合は,文内度数の情報によって加算する。)

ここでいう磨周とは,語彙調査のG種(文種別)層別とT種(話題溺)層別の 二つを組み合わせたもの(7>で,加算のときに,その指示を与えてやる。その結 果,撃墜と12の層劉の度数がカウントされるわけである。さらに,記号的用法 のものは,全体の度数にも加えながら,別途に集計をする。こうして,出現し た漢字の異なり数だけのレコ日曜ドができあがることになる。これを度数台帳と よぶ。フォーマットは,つぎのようになっている。

度数台帳 フォーマット 晃出し漢字

 (6)

代表音

(8) 層 別 漫数

(84) =一 (7×12)

全体度数

 (7)

誘響蝶

 今回の漢宇調査では,用語例表の点検によって発見されたエラー(打鍵ミ ス・清書ミス・層別の誤判定など)による度数の異動は,すべて,eの台帳で

(7)前注(1) 「薪聞使用漢字の試行的分析」を参照。

      一 159 一

(16)

修正することになっている。この台帳は,ノンパッチになっており,サービ ス・ルーチンなどによる修正もしゃすくしてある。この台帳を,代表音コー ド,あるいは全体度数によってソートすれば,五十音順,出現度数順の度数台 帳ができるわけである。

 この出現度数順の度数台鰻によって,層別累積度数表が作成される。 (部首 順あるいは五十音順台帳でもよいが,度数順のほうが,ソートの時闘が短くて すむ。)まず,台帳の1字分のレコードを,各層ごとに分割して,層を識別す

るコードをつける。ある層の出現度数が0の場合は,レコードを作らない。全 体度数についても,1レコードを作成するとすれば,1レコードから,(12−

n)十1のレコードができるわけで,総計は,各騒ごとの異なり字数の総和に 全体の異なり字数を加えたものと等しくなる。 (nは,出現度数0の層の数。

0≦n<12)これを度数順にソートしたのが騒別度数台媛である。これを入力 デrタとして,必要とする層の情報をパラメータで指示し,度数順に加算しな がら,、ラインプリンタでアウトプットすれば,層別累積度数表ができるわけで ある。また,見出し漢字を漢テレで印字することも可能である。

   層別度数台帳 フit 一マット

膳六感継馬構層1総数金幣数}引

7.度数表の作成

 各種順に配列された台帳を1レコードずつ読みこんで,ラインプリンタで打 ち出す。フォーマットは,1レ コード1行ですむ。見出し漢字の部分は,紙テ ープにアウトプットして,漢テレで印字する。プログラムの指示によって,ラ インプリンタのフォーマットに合わせて,印字紙の紙幅・行数とも一致させら れるので,あとで,入手で書きこむなり貼りつけるなりすることが三三であ

る。ただし,盤外漢字は,コード・ブックによって,人問が翻訳しなければな らない。出現異なり字数の約3分の1が盤外字なので,この手聞は,かなりた いへんである。

       一 160 一

(17)

図7 度数表作成システム・フロー

,度,数カウント

㌃膳首1瞭 度、数台帳

4噛﹁FJく少

ρ.㌦p︑も計

Fて

修正必要か2 YES

   NO

ゴ疏一霧雪    ソー1・

度数}縫

各種頃 度数台;蹟

1支数表プリント

   f    t一一一一一

兄出し字穿btし

漢テL・}lilt3・;

層溺レ・二・こ一聖

データ分1翼

     1

一「=用槽一一一㎜♂

 建

;濫}};綴}1欝、1姦・

度数泌

震潅璽ilゴ[ソーート

溺溺,度数ジξ プリン}・

溜   溺

」蕉数!填漢字彰ξ

一 161 一

(18)

図8 度数カウントブロック・チャーF

       srrART

1初均猿配セツ ト ルーチン

READ

.先行データと    YES

I i・」・.一漢㌻か?

   NO

デー.一タ:移動

ルーチ.ン

﹁く

X

父ク

1窯:数力II多争:

       YES

詑.琴・flts摺法字か2

日目 li己・号爵り用注ミ字

度数加算

プリント ルーチン

END

一 162 一

(19)

8.おわりに

 以上に述べた処理システムは,今回の中間集計のために作成したもので,数 多くの問題点をかかえたまま,作業を強行やたうらみがある。最終集計のため の処理では,そうした不備をいくら牟でも少なくすることが必要である。そこ で,いくつかの問題点を指摘するとともi/Usその対策を考えてみることにす

る。

 さきにも多少ふれたが,まず,見出し漢字の配列の問題がある。部首順配列 における筆画数順の問題は,テーブルに情報を入れておけば,解決する。ま た,五十音順配列で,盤外字が最後に集まる問題は,全体の処理を行なう前 eこ,盤外字だけをアウトプットして,テーブルに追加することができれば,解 決する。清濁の間題は,読みがなをさしかえてやればよい。 (ついでに一言す

るならば,代表音は,いわゆる音と訓の2種類あったほうがよい。)さらに,

当用漢字・教育漢字などの情報も入れておけば,計算機内での集計が簡単にで きるようになる。そうした要求を満たすためには,結局,漢字調査専耀の総合 漢字テーブルとでもいうべきものが必要となる。現在,その作成のための準備 をすすめているがX詳細については,別の機会に述べることにする。

 つぎは,データの修正の問題である。今回は,度数に関する修正は,すべて 計算機内で処理でき たが,用語例の修正は,すべて人手で行なわなければなら なかった。これは,語彙調査のシステムと漢字調査のそれとがうまくかみ合っ ていないことにも原因がある。それを解決するためには,まず,漢字を用いて 表記された長単位語をすべてアウトプットしたものを点検し,エラーを修正し て再入力するしか方法がない。さもなければ,漢テレによる再出力を断念し て,すべて人手で行なわなければならない。それには,駈要時間,人手によっ て起こるミスなどの得失を十分に検討しなければならず,一一概K論じるわけに はいかない◎

 また,今の問題とも関連するが,長単位語を含んだファイルのソートが,漢 fレコード順と五十音順の2回あって,それに処理の大部分の時閥を費さなけ        一163一

(20)

ればならないことがあげられる。それをいくらかでも短縮するため,1レコー ドの長さをできるだけ切りつめたが,たいした効果はあがらなかった。 (長単 位語の配列情報を落としたのは,そのためである。)これは,用語例表を漢テ

レでアクトプットしょうとするかぎり避けられない問題である。上に述べたよ うに,はじめに漢字表記語をアウトプットして,出典・層別の情報を修正した あと,用語洌を切り離して,度数カウントの処理のみを行なうことにすれば,

所要時間は,かなり短縮されることになる。

 そのほか,細かい閥題はかなりあるが,大部分は,実際の処理で改善するこ とができる。残りのデータの処理を,いかに効率よく精度を高めることができ るかは,今後の表記調査にも深いかかわりを持っている。現在の問題点の多く は,語彙調査のシステムがほぼ完成した段階から,漢字調査のシステム設計が はじめられたことに.起因するものである。根:本的にはプ語彙調査のシステムの 中に,表記調査,漢字調査をどう位置づけるかということの検討が最後に残さ れた閥題であるといえよう。

       (45. 10. 31)

一 164 一

参照

関連したドキュメント

参考資料12 グループ・インタビュー調査 管理者向け依頼文書 P30 参考資料13 グループ・インタビュー調査 協力者向け依頼文書 P32

昭和三十三年に和島誠一による調査が行われ、厚さ二メートル以上に及ぶハマグリとマガキからな

・如何なる事情が有ったにせよ、発電部長またはその 上位職が、安全協定や法令を軽視し、原子炉スクラ

②障害児の障害の程度に応じて厚生労働大臣が定める区分 における区分1以上に該当するお子さんで、『行動援護調 査項目』 資料4)

★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..

1970 年代後半から 80 年代にかけて,湾奥部の新浜湖や内湾の小櫃川河口域での調査

2. 2. - - 18 18 3号機 3号機 トーラス室調査 トーラス室調査

(79) 不当廉売された調査対象貨物の輸入の事実の有無を調査するための調査対象貨物と比較す