• 検索結果がありません。

雑誌名 電子計算機による国語研究

N/A
N/A
Protected

Academic year: 2021

シェア "雑誌名 電子計算機による国語研究"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

国立国語研究所学術情報リポジトリ

国語研究のための索引作成システム : 新システム の基本思想を中心として

著者 ?岡 昭夫

雑誌名 電子計算機による国語研究

巻 8

ページ 1‑17

発行年 1977‑02

シリーズ 国立国語研究所報告 ; 59

URL http://doi.org/10.15084/00001044

(2)

国語研究のための索引作成システム

一新システムの基本思想を中心として一一一 霧 岡 昭 夫

1. まえがき

 これまでに,挺の中には多くの総索引が作られている。その大半は,日本古 典などの文学作品の語をカードに書き写して並びかえるという,手作業によっ て作られたものである。しかしこの十年来,電子計算機を利用して索引を作る 方法が開発され発達して来ているので,われわれ国立国語研究所では,これを 改良して書語研究に便利な索引や検索用言語デーータを作ることを考えたのであ る。そしていくつかのシステムが作られてきたが,今回,田中章夫,土屋信

一一・AC中野洋と本稿筆者の四人の共同研究により新しい用語索引作成システムが 完成した。そこで,この索引システムの内容を報告するとともに,ここに至る

までの経過と今後の見通しについて述べることにした。

2.これまでの索引システム

○国立国語研究所での索引作成システム

 前節で書いたように,国立国語研究所では,これまでにさまざまな索引シス テムとそれによる総索引を作成してきた。われわれは,雷語研究のためには,

文脈付き索引(検索すべき語瓢key wordが文脈中==in contexにあるので,

XWIC索引と呼ぶ)が便利であると考え,この方式を持つ索引を多く作ってき た。今圓新たに作成したものを含め,現在までの索引作成システムは,入出力 の方法という点で,つぎのように分類される。

①漢字テレタイプ入力(漢字かな)→漢字テレタイプ出力(漢字かな)(滋)

②フレキソ入力(ロ ・一マ字)→ラインプリンタ出力(ローマ宇)(注2)

       一1一

(3)

③フレキソ入力(片かな)→ラインプリンタ出力(片かな)(注3)

④漢字テレタイプ入力(漢字かな)→ラインプリンタ出力(片かな)(注4)

⑤漢字テレタイプ入力(漢字かな)→高速漢字プリンタ(漢字かな)・ライン  プリンタ出力(片かな・Pt一マ字)

 電子計算機を利用しての索引作りは,まず①から始まった。日本語は漢字か な交り文が一般的であり,それを処理することを最初に考えたわけである。そ して,このシステムを使って芥川龍之介の「くもの糸」の索引が作られた。し かし,このシステムは,出力機である漢字テレタイプ印字機の印字速度が遅い

(120字/分)ので,短編作品の索引は作れても,中編・長編のものとなると 非常に時間がかかって実用的でない。

 そこで,出力を高速(90000〜100000字/分)のラインプリンタ(電子計算 機の印字機)による②③④のシステムが作られたのである。②③では入力機に

フレキソ(英数:字・片かなタイプライタに紙テープさん孔機の付いたもの)を 用い,片かなで入力すれば片かな索引に(③),ロ 一一マ字で入力すればPt・一

マ字索引(②)になるようになっている。また,④のシステムは,漢字(よ みがな付き)とかなで漢字テレタイプによって入力し,ラインプリンタにより 片かな索引を作るものである。これは,漢字かなで入力してあるので,漢字テ レタイプで印字することもできるが,前に述べた理由からほとんど行われてい ない。③のシステムでは,主として日本古典の「「ma子方言an『浮世風呂』『浮世 床g『心中天の網島』『今昔物語集26巻・30巻』『当世書生気質譲などの索引が 作られた。また,④のシステムでは,昭禰41年度から昭和48年度にかけて行わ れた「現代新聞の語彙調査」の長単位カナKWICが出力されたほか,昭和48 年度から行われている「漱石・鴫外の用語研究」のために,「e三四郎di『行人』

『硝子戸の中s『夢十拠『高瀬舟』『青年gのKWIC索引も作られた。②のシ ステムは入出力fOX P 一一マ字ということから日本語への応用という点で利用度が 低いが,現在『夢十夜』ローマ字索引が出来ているほか『星の王子さま』など 外国語の索引がいくつか作られている。

       一 2 一

(4)

 ②③④のシステムではラインプリンタによる出力方式をとったために出力時 澗は短くなった。しかし,②e&・pa 一マ字文しか適用できないし,③④は片かな 出力のため読みにくく,同形見出しの識励もやっかいである。そこで,最近醐 発された高速漢字プリンタ(50000〜100000字/分)を用いて漢字かなまじり文 を高速出力するシステムの閉門にかかったのである。

 高速漢掌プリンタを嵐力に利用するだけならぽ①や④のシステムの出力部分 を変えればよい。しかし,どうせ雷語データを作るならば,索引作りばかりで なく,さまざまな言語研究に使えるデータを作っておこうということと,さま ざまな形のデータを扱える汎用性のある処理システムにしておこうということ になって,⑤の新システムの開発が始められた。このシステムにおける,書語

データ作成のための前処理(プレエディット)については本稿(次節)で,ま たそのデータを処理するプログラムシステムについては中野洋論文(本集16ペ ージ以下)において書かれている。

 このシステムによって作成された(作成されつつある)KWIC索引をはじめ とした言語データはつぎのとおりである(語数は概数。*印は第一次出カー mini KWICによる校正用出力,*二三は処理途中の未完成昂)。

 森 鶴外『寒山拾得譲(4100語)

  〃  『雁』(50000語)

  〃  『山回大夫』*(16000語)

  〃  『渋江抽斎s**(150000語)

 夏目漱石『草枕」*(58000語)

  〃  『坊っちゃん』*(55000語)

  〃  『こころ毒**(15eOOO語)

 なお,昭禰49年度から嗣始された「高校教科書の用語調査」のシステムもこ のシステムを基礎としたものである(教科書調査のシステムについては別な機 会に発表が行われる予定)。

0国立国語研究所外の索引作成システム        一3一

(5)

 電子計算機を用いて索引を作る実験や作業は現在では非常に多くのところで 行われている。それらの多くは特徴のある興味深いものであるが,言語研究を 呂的とした索引はそれほど多くはないように思われる。まとまった作品の索引 では,『平家物語総索引』(金田一一・春彦・清水功・近藤正美編・1973.学習研究社 刊)があるが,これは従来の手作業方式の一部を電子計算機(HITAC 10)に やらせるようにしたものである。そのほか植村俊亮「漢字かなまじり文KWIC」

(il情報処理10−5di 1969 op)で発表されたシステムおよびそれによる新聞長 単位60万語のKWIC索引がある。また, KWIC索引を利用して分析した結 果が「放送用語のK:W王C索引」(管野謙f文研月報虚昭秘6年6月)にあげら れている。

(注1)斎藤秀紀作成。「電子計算機と漢テレによる用語総索引の作成」(『電子計箕 面に.よる国語研究』1968)

(注2) 斎藤秀紀作成。および江川清作滅:。

(注3)土屋信nd作成。「カナ入力による臼塞語文総索引の作戒」(『電子計算機によ  る国語研究W』1972)

(注4)石綿敏雄作成。「直上用語調査の絹例印字プログラムt℃OBOL−KW1C 」  (『電子計箕機による国語研究霊』1971)

3.新しい索引作成システム  3・1言語研究の方向

 電子計算機は,入力するデータとそれを処理するシステムとがしつかりして いさえずれば,われわれの必要とする形式・内容をもった言語データ(索引を 含めて)を,恵実に作ってくれる。したがって,われわれが言語データを作る には,どのような言語研究をするか,そのためにどのような形式・内容をもっ た言語データにするか,そしてそれにはどんな情報を付加する必要があるか,

ということを検討することが必要になる。

 今われわれが考えている研究は,音素・文字・語(自立語・付属語・旧記成 要素など,さまざまなレベルがある)・文節・句・節・文・文章といったいろ       一 4 一

(6)

いうな雷語単位について,用法(出現環境・出現率など)を考察して行く計画

である。

 文字の幽現環境(例えば連続確率など)や出現率などは,一文字が一単位と なっている原文データの磁気テープ(MT)ファイルがあればそれをもとにし て電子計算機で自動的に調査することができる。音素については漢字かなまじ り文においては漢字にふりがなを付けておけば,それをもとにして自動的に全 文かなのデi一・一口が得られるから,あとは文字の場合と同じように調査をするこ

とができる。語や文節の研究には,文章から語,文節の単位で用例が得られる ように単位切りをする必要があるが,これについては次項で述べる。文や文章 の研究は,音素・文字・語・文節などをもとにしたやり方,本文から直接デー タ(文の種類わけなど)を得るやり方といった,さまざまな調査方法を考えて

いる。(注5)

 以上の研究は大きくわけると,MTファイルをもとにして電子計算機で検索

・カウントなどを処理して行うものと,電子計算機で編集し,漢字プリンタで プリントアウトしたKW王C索引によるものとになる。そして従来・語彙調査 は前者を中心に,索引作りは後者を中心に行われていたように感じられる。本

システムは,どちらにも使える,というよりも文章を材料にした総合的言語研 究ができるように開発されたものである。

(淫5) これまで,このシステムで作られたデ・・一斗を傭いた研究は次のものが発表に  なっている。

○露岡昭央「電子計算機による代表構文作成の}試み」(「ことばの研究5』1974)

○縷岡昭夫「文節タイプ連続の研究」(『電子計算機による国語研究畷』1974)

 ○米田正人「(t文の長さ の統計学的一一考察」『電子計算機による国語研究珊』

 1974)

3・2 単位切り

今までの索引は,ほとんど一種類の単位を用いて作られている。カードに転        一 5 一

(7)

写する手作業方式では単位の種類をふやせば,それだけ作業が増大するから,

複数の単位を用いることはまずなかった。電子計算機を用いた索引作りも,ほ とんど単一の単位で行われてぎた。国立国語研究所で作られた索引の単位はこ れまでに行われた用語調査で用いられた単位がそのまま用いられることが多か った。それらは次のようなものである。

●α単位(鼠立国語硬究所報告4『婦人雑誌の用語』1953.19ページ以降参照>

eβ単位(国立国語研究衡報告21『現代雑誌九十種の用語用字』1962.6ペー  ジ以降参照)

●長単位(園立国語平綴所報告37響電子計算機による新聞の語彙調査』1970.

 13ページ以降参照)

●短単位(国立国語研究所報告37。15ページ以降参照)

 このうち,たとえば前節で示した作贔のうち,『高瀬舟』『青年alなどは短 単位で単位切りがなされているが,それは次のようになっている(単位の切れ 欝は/で示す)。

 /高瀬舟/は/京都/の/高瀬川/を/上下/する/小舟/で/ある/。/

 徳川/時代/に/京都/の/罪人/が/遠島/を/申し/渡さ/れる/と/

 ………(『高瀬舟』より)

 /純一/は/立ち留まつ/て/名前/を/読ん/で/見/た/。/自分/の  /捜す/大石/蝉太郎/と/いふ/名/は/上/から/二三/人/E/に/

 書い/て/ある/ので,/すぐ/に/見附かつ/た/。/…(『青年』より〉

 しかし,今までの単位は,もともと語数カウントを中心とする語彙調査のた めに考えられたものであるので,ことばを探す場合には都合の悪いことが少な くない。たとえぽ,上にあげた配高瀬舟』や『青年』の索引からは,「高瀬舟」

の「舟(ブネ,またはフネ)」,「高瀬川」の「川(ガワ,またはカワ)」や「立 ちま留った」の「留まつ(ドマツ,またはトマル)」などの語を検索すること が困難である。

 また,本研究は前項で述べたとおり,さまざまな聖運単位について研究をす        一6一

(8)

る計画なので,一種類の単位では不足であるG

 そこで,今國開発した新システムでは,C単位, L単位, S単位の三種類の 単位を用いることができるようになっている。

〔C単位〕

 C単位は,文節に相当するもの,および記暑(連続した記暑は全体で一単 位)である。文節の認定は,大すじ次のように定めた(本稿では切れ囲を/で

表す)。

(1)スペース(一字分以上の空白)で切る。

②助詞・助動詞のあとで切る。助詞助動詞は『現代語の助詞・助動詞S (国立  国語研究所報告3)によるほか,「じゃ」「にゃj「ちまう」「ちやう」「てる」

 「とる」や,形容詞型活用語・形容動詞型活用語の連用形の直後の「ある」

 「ござる」を加える。「一一の〜」の形の体言句で,新潮国語辞典で一語扱い  にされているもの(「板の閥」「菜の花」など)・は,「の」の後を切らない。

(3)助詞・助動詞を伴わないで,主語,連用修飾語,連体修飾語,接続語,独立  語となっている自立語は一一単位。体言の連体修飾はみとめないが,時間,場  所,肩書きなどで,下位・上位のものの並列は切り離す(/5月/1H/正  午に/ /東京都/北区/酉ケ丘の/)。

〔L単位〕

 L単位は,C単位(文節および記号連続)を,次のように切り離したもので ある(本稿では切れ目を1で表す)。

(1)記母は一個につき一L単位。

②助詞・助動詞(それらが連続している場合はその先頭のもの)の前で切る。

 助詞・助動詞はC単位の(2)で述べたとおりである。

㈲副詞語尾・形容動詞語尾は語幹から切り離さない(/はっきりと/ /すぐ  に/ /静かだ/ /立派です/ c£/友達1と/ /人間1だ/ /う  さぎ1です/)。

〔S単位〕

       一 7 一

(9)

 S単位は,L単位を,現代語で意味を担う最小の雷語単位(最小単位)(注6)

の一〜二回結合によって分割したものである。その切り方のあらましは次のよ うになっている(本稿では切れ轡を/で表す)。

{1>助詞・助動詞は一語一単位とする。C単位で切られなかった「菜の花」 「板  の間」などの「の」も一S単位にする。しかし,「この」「その」「どの」な  どの「の」は切り離さずに全体で一単位とする。

②稲吾の自立語は一要素を一単位とする。ただし,名詞・副詞・形容動詞語幹  は二要素結合までを一単位とする幟7)。(1走り/こむl l雨あがり1)

㈲漢語(注8)の自立語は,二要素(漢字二字)の結合までを一単位とする。(1社  会/主義塁 1駐在/員1)

(4>外来語の自立語は,一要素(原語で一単語)を一単位とする。ただし,「ネ  クタイ」 「クーデター」など,日本語で一単語と考えられ,分割できないも  のは切らない。(1ウォーミング/アップl lアンダー/ショット1)

㈲稀吾要素と漢語要素の混種語である自立語は,(3)と同様に二要素結合を一環  位とする(1重箱l l場所1)。それ以外の混種語は種によって切り離し,

 それぞれの中を(2)〜(4)にしたがって処理する。ただし,「デモる」「タクる」

 などの活用語尾は切り離さない。 (1ナイPン/ザイルl l水割り/ウィ  スキー1)

(6)動詞型活用の接辞(「…がる」「…めく」など)や,形容詞型活用¢)接辞  (「…がましい」「…っぽい」など)は一要素を一単位とする。また,形容詞  ・形容動詞の語幹に付く「さ」「み」「げ」も一単位とする。名詞性接辞は一  要素として,②〜㈲の中で処理されるので,外来語,および用書の中では一  単位(1プレ/オリンピックl lお/美しい1)となるが,体言の中では  一次結合は切らない(1お足l lお体l cf.1お/父さん1)。

〈7)サ変動詞「する・ずる」は一S単位とする(1びっくり/するl l心配/

 する1)。同じ位置に来る「できる」「いたす」なども同様に処置する。ただ  し,一字漢字に付いた「す・する・ずる・じる」などは切らない(1愛する        一 8 一

(10)

 l l信じる1)。

(8)形容動詞語尾は語幹から切り離す。(1静か/なl l立派/な1)

{9}副詞語尾「に」「と」は前と切り離さない(1舗にl lじっと1>。ただ  し,「に」「と」を切り離して単独でも副詞として用いられるもの,三音節以  上の擬音語・擬態語などに付く「に」「と」は切り離す(1調合/にl lす  ぐ/に箋 1ぐらり/と韮)。

鯛岡音・類音の反復形である副詞・擬音語・擬態語は,反復部分が三音節以上  の場合切り離す。(1のっし/のっしl lのらり/くらり1)

{11)独立して用いられないものを含むもの,切るべき位置のわからないもの(略  称も含む)などは,二要素以上でも一一一・ S単位とする。 (1けだものl l都

 歯内l l有頂天l lPTAl lべ平連1)

112閲有名詞(人名・地名)は一要素を一単位とする。 (1森/鶴外l l東京  /都1)

〈13)数(算用数字・漢数字・ローマ字のほか「幾度」「何人」の「幾」「何」など  を含むは)一字一単位とする(1一/回l l百/人1)。ただし,一,二,

 ・・…ナ……というように数え進むことのできないもの,位取りを表す十,百,

 千,万,億……などは前と切り離さない(1一量l lふたりl l五十万

 /円1)。

 単取切りの作業は,本文のC単位の切れ厨に黒鉛筆で/(スラッシュ)を入 れて漕ぎ,それが済んだもののL単位:の切れ闘に青鉛筆で/を入れ,最後にS 単位の切れ目に赤鉛筆で/を入れるという,三段階方式をとって行われる。な お,復合してできた接続詞(例えば「それに反して」 「そのほか」など)や,

連体詞(例えば「こういつた」「そうした」など)のようなものはその認定が 人によって,また時によってゆれるおそれがあるので,今までに述べたCLS 単位で切れるものは切っておき,あとから連語コードを付けていくようにし た。例えば,「それに反して」の場合は,/それ1に/反し1て/と切ってお いて,それぞれに接続詞の連語コードを付けておくのである(連語コードにっ        一9一

(11)

いそは次項でのべる)。連語が多く集まれば,それを全部電子計算機に登録し て自動的に連語コードを付けることも可能になる。

 以上のような規則で処理したものは次のようになる。

 /唐1の/貞an 1の/頃1だ/と/言ふ1から/,/西洋iは/七/世紀1  の/初/日本1は/年号1と/云ふ/もの1の/やっと/出来/掛かつ1た  /時1で/ある/。/……(『寒山拾得』より)

/親譲り1の/無/鉄砲/で/小供1の/時1から/損1ばかり/し1て/

居る/。/小学/校1に/居る/時分/学校1の/二/階1から/飛び/降  り1て/一/週間1程/腰1を/抜かし1た/事1が/ある/。/……(『坊

 っちゃん』より)

 上の単位切りで,/はC単位の切れ目であると同時にL単位,S単位の切れ 譲でもあり,1はし単位,S単位の切れ園でもある。したがって/をCLS,

1をLS,/をSと表わすとgy寒康捻得』と『坊っちゃん』は,

〔寒山拾得〕C

CLS唐

 LSの CLS貞観  LSの

CLS頃

 LSだ

  Sと

CLS言ふ

 LSから

L3﹈﹈コ﹈ ﹈ ﹈﹈

S﹈﹈﹈﹈﹈﹈﹈﹈﹈ 〔坊っちゃん〕C

CLS親譲り  LSの

CLS無

  S鉄砲   Sで

CLS小供  LSの

CLS時

 LSから

L﹈﹈

﹈﹈﹈﹈ S33﹈﹈﹈3﹈3︺

ということになる。Cから次のCの前までがC単位, しから次のしの前までが し単位ということになる。

 (注6) 国立国語研究所報告22参照

 (注7)体言類を二要素の結合を一単位としたのは,

       一10一

「屋根」「場合」「割合」「仕

(12)

事」など,二要素の結合全体で一語のように使われるものが少なくないという理由  からである。しかし,そのために「食べすぎる」は「食べ/すぎる」と切れるのに  「食べすぎ」は切れないので「食べすぎ」から「すぎ」が検索できないという問題  がある。

(注8)本稿にいう漢語,外来語には,それぞれ柚製漢語,門別英語などを含める。

 3・3  イ寸力庭情報

 このシステムは,多種の情報を処理する能力が備えられている。それらは,

つぎのようになっている。

 C 親譲り 〔おやゆずり〕 (S1)   L の (WR)

   V V一一Nr一一 V . . V

 単出(読語単出(語

 位 現S 

み  種  位現S種

 情  語単   が     ・     情 語単  ・  報  形位   な    晶     報 形位 晶      )     .    詞        )  詞

 単位清報は,C, L, S単位の先頭,すなわち黒い/の直後の語にはCと書 き,L, S単位:の先頭,すなわち青い/の直後の語にはしと書き, S単位の先 頭すなわち赤い/の直後の語にはSと書いておく。この情報をもとに,C単位 のデータ,L単位のデータ, S単位のデータが自動的に出来る。

 出現語形のあとに,読み仮名が必要な場合は〔〕の中にひらがなで書き入 れる(注9)。そしてすべての畠現語形のあと()内に語種,品詞の情報を書き 入れ,またその晶詞が動詞や動詞型活用の接辞(「がる」「めく」など)である 場合は活用型,活用行の情報も付け,複数のS単位が複合して他の品詞となっ ているものには,それぞれに連語コードも付ける (連語コードの付け方は14 ページ参照)。付加情報は,表1に示したようなものがある(注10>。

 単位切りの済んだ原文に書き込む空白はほとんどないから,単位切り作業と 情報付加作業の間に原稿用紙に清書する作業がはいる。清書は出現語形一S単 位ごとに一行ずつ書き,13ページの例のような形で情報を付ける。先に単位 切りの例としてあげた『寒山拾得』と「坊っちゃん』の漢字テレタイプさん孔       一11一

(13)

表1 付加情報コード表 1ケタ目

語種コード S和語 T漢語 u外来語 V混種語 W語種不要

X数字 Y記号 Z語種不明

%情報無視

2 ケ タ 目 3ケ・劇・ケ用 品詞コーード

1純名詞 2倥番)

3サ変動詞語幹

4ヲ歪多容動言司語幹(派生形を含む)

5形容詞語韓(派生形を含む)

6名言司性接辞, 助数言母

7数詞 8固麿名詞 A接続詞9代名詞 B感動詞C巖欄 D連体詞E動詞

+動詞性接辞 一形容詞姓接辞 M口譜形容詞 N文語形容詞

P助動言灘,形容動言司語尾 Q(窒番)

R助詞

X算驚数字,ローーマ数字

 明視

 旧︑ ξ︑ 耳奮⁝号詞報品品梼

YZ%

活用コード F四段・五段  活稽 G上一段濤周 H上二段活周 1下一段活用

」下ご段活需 K変格活用 V融合形,変  則活用 Z活用不明

(活用形)

(活稽行)

ワわあ行 ああ行 かか行 がが行 ささ行 ざざ行

たた行 だだ直 なな行 はは行 ばば行 ばば行 まま行 やや行 らら行 わわ行

ん景観

3あるいは 5ケタ濤 連語コード ササ変動詞の一部 ケ形容動詞の一鵠 灘固有名詞の・一部

セ接続詞の一部 力感動詞の一部 フ副詞の一部

レ連・体詞の一部

ド動詞の一一部

ヨ形餐詞の一一:部

注 0すべての語に,語種コード・晶詞コードがつく。活用コードがつくのは動詞と    動詞性接辞だけである。連語コードは必要な時に,人問又は機械によっ℃つけ    られる。

  ○語種コーードのW(語種不要)は,品詞が,助詞・助動詞・固有名詞である場合    に付ける。

  ○品詞コードの4,5に語幹とあるが,もともとは活虜語の語幹であるが転成名    詞の一部となっているものも含む。

一12一

(14)

用原稿はつぎのようになっている(実際にはこの他にページ情報,行情報,段 落先頭情報,本文外の語の情報といったシフトコードが書かれるが,これにつ いては中野論文25ページ参照)。

  「寒山拾tgdi C唐〔とう〕 (T1)

しの(WR)

C貞観〔じょうがん〕 (T1)

しの(WR)

C頃〔ころ〕 (S1)

しだ(WP)

Sと(WR)

C書ふ〔いふ〕 (SEFをま)

しから(WR)

C, (Y Y)

C西洋〔せし、よう〕  (T1)

Lは(WR>

C七〔なな〕 (X7)

S世紀〔せいき〕 (T1)

しの(WR)

C初〔はじめ〕 (S1)

C闘本〔にっぽん〕 (W8)

Lは(WR)

C年母〔ねんこう〕 (T1)

しと(WR)

C云ふ〔いふ〕 (SEFは)

Cもの(S1)

しの(WR)

     甜坊っちゃんS

  C親譲り〔おやゆずり〕 (S1)

  しの(WR)

  C無〔む〕 (T6)

  S鉄砲〔てっぽう〕 (T1)

  Sで(WR)

  C小智〔こども〕 (Sl)

  しの(WR)

  ℃時…〔とき〕 (S1)

  しから(WR)

  C損〔そん〕 (T1)

  しばかり(WR)

  Cし(SEKさ)

  して(WR)

  C居る〔いる〕 (SEIあ)

  Co (Y Y)

  C小学〔しょうがつ〕 (T1)

  S校〔こう〕 (T6〕

  Cに(WR>

  C居る〔いる〕 (SEIあ)

  C時分〔じぶん〕 (Tl)

  C学校〔がっこう〕 (T1)

  しの(WR)

  C二〔に〕 (X7)

一13一

(15)

Cやっと (SC)       S階〔かい〕 (T6)

C出来〔でき〕 (SEIか)     しから(WR)

S掛かっ〔かかっ〕 (SEFら)   C飛び〔とび〕 (SEFば)

した(WP)       S降り〔おり〕(SEIら)

 S単位がいくつか集まって別な贔詞となっている連語の処理は,たとえぽ,

「とはいうものの」という接続詞や「非常識だ」という形容動詞の場合,つぎ の左側の入力原稿のように情報を付けておけば,右側のように処理されるよう になっている。

 (入力原稿)

Cと(WRセ)

Lは(WRセ)

Cいう (SEFアセ)

しものの(WRセ)

C非〔ひ〕 (T6ケ)

S常識(じょうしき〕

Sだ(WPケ)

(Tlケ)

(S単位) (L単位》 (C単位)  (連語)

ピ』と… Vとは. 艪ィう

は.一...・t一・一tttttは/

霧霧/うものの

@  1

 以上のようにプレエディットした原稿を漢字テレタイプで紙テープにさん孔 して電子計算機処理にまわすのである。電子計算機の処理システムについては 中野論文で述べられている。

(注9)作業では読み仮名を現代仮名つかいで入れた。それは,ルビの付いていない 本文の場合,作業者への負担がより軽いと考えたからである。

(注10) これらの情報のうち,語種・品詞・活用コードは,「新聞の語数調査紅』

 (国立国語研究所報告38,11ペーージ)に発表されたものを基本にした。

4. あとがき

 今まで述べてきたことにより,暫しく開発されたシステムと,それによって 作られた言語データが,他のシステム,データとどう違うかということが明ら       一14一

(16)

かになった。

 これだげのシステムがでぎたのは,電子計算機・漢字プリンタなど機械類の 発達と,電子計算機による言語処理の研究の成果があったからである。

 今後望まれるのは,これらのデータを蓄積し,それをもとに単位切りや情報 付加の作業を自動的に行う方式(「一貫処理システム」と名付けている)の実 用化によって,人手作業を軽減することと,入力のスヒ。一ド化・簡単化一た とえば光学文字読取装置の実用化など一といったことである。これらも現代 の技術開発の状況を見るとそう遠い将来ではないようである。

農πい

嚢二鄭1=

幅一二)〈一刷れる 山師一に一 削策一に一 新蜜・を・艘 園倉め⇔一・

.ヒげる一一た巳ノー

.1「げ轟一kり一 紀跨一と一 町一しに…』:・一

,己一観…は一 蹴う一■ζ・一

与へ脚・の.幽 瞬.配.

L看一ft一 婦一を・

堰gt一て一

あっらゆ ド 慧:lii・

擬∵

西べ聖一は一・

置・三t・「kV酌ζ扁

欝んる一{一 葦柵;楚・・て、卜¶其ヒ

なめうり 熱=1;㌻

鷲=

〜〉ぞ〜一@ r

      〔国乱鳩信⊃

 lll:ll l論:===1灘、搬;2姦,=あ:1畠∵r鉾∵旨  螺1鷲箒====膿:潔i,,r. ;L二溢二:1『=。慧腔  lll爺耗ごミ仙腸:;纈跳$蝋三管二獣姦ll三無ll  瓢1:跳躍=lll謬1狸適」撫壌∴1;.で  :贈譲1:髄二二二灘1糊魏二溢=1:慧=1紅三  謂1;1ご}三三2::=膿寵茸1銭=舗=1=:徽,ゴ:71∫集  駅,:1:爆睡=二=ll腿鵬三濃瓢=;1隠1∵ll  瀦器lll欝==二=誰脇1懲二=二:二:1::慧二憶

噸撫烈羅iiili羅繰繋1

讃濫雛羅1;{i議門門:霧

i鎌懸灘戴1謙諜∴凝:

iiiii黙i能i輔lii灘隷裟ll;{;;

i;撚ii蒸騰{1叢鎌製三;{l

 l:竃:姫こに:二::1;灘:に肇;1=瓢1二三  1鯛ll瀦1二ニコ;::{溜;説二∵ll二1::謝,漂  1:1獄ll雛:=:;:童心∵謂:獄1二野=霞:1;二〇

      伊oD1

一25一

(17)

ぢ喧弓▼.▽

ワβ剛ワ51∂〜予O噌弓﹁4

宰﹁−..7一図噂弓胃りδJj 冨..晒︷濫ド訟醒ム﹁詠口州⁝甲齢心証納掃り.し 一μ⁝二臨み二楓二い

卸3﹂ふ .U 禔x繍        るるる

承ふふ示ふふふふふふふ筋へへへへ

いいいいいいいいいいいヨ張云

一37945轟37工552!3三〇770藷4730034019279!鳶鳶2隻5a1

868707555377昌O轟33063536露58霊37674187439巳792

22a332332.﹂223333333333323333a332323332巳223

64=5123814018a4轟930762?5272⁝08332258露463宝⁝ 0:011!!..O⁝0110e1000じOOOOOOOOO=G:σ01100コ9:0窪

CGCGCCCCCCCCCCCCCCCCCSGGCGCCCCCCCCCCCCCCCC

坊oSbん}

SEFS一一 018a380$EF9一禰 0:018ioSEF9田田 020§920$El:9一一 058e47gSEF9一一 028a360sEFs−u一一 olsa36esEFg一一一一 oas40seS巳F9一一 〇a78290sEFg一一 oo?ae60SEF9一一 0390270SEf;9一一一 O1S3990S旺戸9一禰 GI5轟310Tε「=9嘩榊 G431580TEF9一・一・ e2SSa20TffFs一一 ea3rg3soTεF$一一 〇3go轟70TEFS一一・03eri170SEF9一一 02Ssg3eSEi:9一一 05373SO$巳1.;9一噌 03欝9〜,tO

$f三i:9一一 〇48ユ79GSEI:9一一 OleOREe

sL, 1:s一・一 o:・ 06r 1・ e

S巳i.「9一一幽 00ユ3690

5薮!:9一一t 麟轟63e30

$£三i g一一O5863島GSEf:9−H e3:3[{60

S[三F9鴨一 〇4DOO410SEF9一一 〇三326了OS巳ド9一 05!1430SEF9一一 05S3CJ#o

$旺拶9一一 〇〇◎402〔}

sEFg一一一 ・033aarJeSffi 9一一 022128CSU:s一一 orJSss. re

$巳F$一一 〇4鳶0120$EFSr− o轟oo880SEF9一・一一 019eS70

s呈3一一一一 〇玉e昌巳Gs−g一一一 ol.a6so

sw e一一 oa 一」 s2soSEIe一一 e3539iO

oe67 .繕蜘腰聚に及けん まふふと,いかんLl..藪ふ鯵琢弾ずるかい. 云ふ入って「テかんとr 致ふと塔へて髭kVJ, 云ふし乏か.まへ」 「 曇へ.する詩り.大嘗.く 去へんの諺粟ξ…睡りて 三…へaLeうE.文竿士と 云へく撃つ准.礒瞬ζ.輩へやあう」鵬龍め 景へ.滝づらξし把it, 浅へ匿いてレ人が角ガ 云ぶて琵超ら尋盤茱と: 云.」」,鍵儒艮叢したζ 三歩IPだ. シ?ツの i…みより小鳥な貰旺と 三…へ儲だよって1斗にも 露はノず5,余粛な弩}壱 c#1ガ,一翻然とは今 謡σない,画τうまく 答びEあげてサ・うと簾 藁びしウー棚上念して ζ二cr鯉}筏を勘当す蔚ζ 」,o琵て炉詣だ、濤なζ wJと見えて.1)つと 茜ぴトンフ.㌣ドンナと oふ右、㌧tjれ「d}sの む・1,i:1rightと いふノ蛤ま7た.踊と いふへ泊ヅPtるいと いふ牝質窟し鐵無品と いふ創さんのア}ノλど いふ正費蕊掻いk.樗と いふか,辞表駐出uと いふ留のlll(F瀕跨擶と いふったつてる,みと い5・.跳野だは.どう いふ膳芳う苔へ驚. ゴ いへて自分のし衛可1が ゑヘへ,公然とas葡Jf 云へてもいか5飼9る 云へ

かせリ︐万のにひ虫の入入演・見か艇ツOヨ・ど5はどを6壮麗ぞす曙つ■方轡わ崇混てか人 は話ク浮ろξ跳這議山一 ︐とだ渥蘭ま㍗も試崔つか鱒■鈍融.て取下ガ﹁う簸ててrも

だ理 いにくけうしししかい壱認ら財三な口5か㊤兜おいいい よ叡.揺いう臣またてらて齋曝蒔が四も才公ζはだつ駆込が 大山八﹁ ︐塒だに ︐僕フ鐡入入の暦学のツ豪ぢ疋 れ¢ン人擾んの大早うだてんう級とのシτ口恥有赴凝る番田ていかリ搾﹂5罵っん︐.もら弼く 講実ラ冷・をれ中にの中クへやさ.る学轟藻・がれ烈しr居.6い引鷺あのしだ軍難中かと欺な食 5らら謹5 か電算位なてはばばはの﹂と蓬諸断ぽ急ずに髭篭落胤魏々ζ麟萸か堪4︐.モ猪なの右7﹁な奉な

1.1;

vl

一;

st.

s..L.

謹う蒋い蒼い働ぐ…雪i島署空51胸鍔i朗け 〔坊つ右plの

29? 03 あなたガ池顛愈ら♂し浅セうと受け

29? 05 疑ぐ=〉て垂.謝りな躍らり;蔦.働け

398 08 してやるんだフノ,口外しkいと八け

359 霊ユ i交番を1サるのノ,い」 「工乱研鑓に懸

36a Oユ な瞬範生が,・i・五六の中 生と紐み

30:』O轟 ヲ,の連中は鱗りr]心て歴たガ払趣ざ

3G7 i4 毒い.ヲ。くな1ノれtlち晒ふ嵐に穂落

294 04 ちP虫の気rlttlい㌣elフ寝切.ζ,気の

355 0G  しなり.押し鶏されなりしてほみ

305 14 【 :シ㍗ツ舜痘.こん毒逢中が寄り

324 11 ノ }う.晴蝦の』乱殴5化嵩.jjξり

272 10 い1 髭畢ガ6「峻厳には凝つなウ

327 15 んな紀縫とないて『もよゴ,らう」昆に

巳55 11 c.},ノ5建議の芝i疹 気,丸!ljL「沢由

261 07 はも組=.し尋、寒ξ彦一仔翫フ為. 誓くc

3a7 10 て,三夢ξつづttて繕・5. Vll・IKて

3Lt 3 05 憂へ下りてL_5.窯.♪5なりi二に

3SO 11 た}Tikゴ∫,諭.うtVlレ.三黛こぢ寒い入に

246 11 てさとりてt雛.,た.Lん4gkに

266 08 に艶ll..りしV:,なフ」.かう軒葭葭ξうに

301 !3 はないと思ってたか.うSkり君に

336 1ユ 取り君にもう5なりσ心月}さんにる

:]56 09 ,りこ=}9二り購喪量茎ll;掛け「ぐi1.つζ、

3t;? 03 ゐδ蔭1よ舗る珍5しいものゼ、あ仰

J91 G3 お賢の鮪の.して『.ぼノSりと訴れて,

3i9 !4 寧歳  こ便ってる,腫の色は少ぐ

309 …G ら毒り君ぐ.u謡ll)L/sう三…?凝ら

〔.…0! …O .語1へ行くξ:.うらなり葛が肪く『

a5【] oLt 半官色のレるい男がE怨,λ暇義の

218 06・るんてすと繋へて雲狂る,そ耗以kR

3t露 01 のない寒く「白く7Uる]nnだ)f,捉瀞

:138 03 の遜い人IJ筋電.ぐるもんだが艶「弩聖よ

Lt!a し}j )5なりの磁ら軽子二丁サ負ぺろプノら印

3〔,9 …e .Usれフi,かう云つ鳥蒼白い顔を箇

256 0ア 9−caの樫範になれ⑳,一跡の鱒畏と

=iOs O4 サ,どう」)mebべく寛プくの騰簿需鷺

283 12 2}の朕¢oがってる.陶鰯を搾ると

284 09 霧隠入ってるみらLtrc・E.あれには

2B9 05 めたと濠ふのか万殉7わかうない.

280  06  し、と琴iし、屯5r そし、つur. どたりζ

2t2 玉4 凝鍛ぬのL)て,鎖とむ腔を突いて.

28〜 …1 8}れは一匹て懲り赴から,劉のILIN

.?eo3 e

古つ た,霜《丈夫かいと券シセヅこ=監2を;箏       e合つ 衛頭も襲・\選って茂吉にサる1筆な賓b

Gつ た茜λ三かう曇tがと耽ない,.λかζん       e合つ てないから,今夜健駄6だ」「壱aぢ

台つ z;ub.止uとi…ったら、 thtL「ない芳

合つ て捲る.丁r隠構廓駕躊なのは沿筑の

台つ てけくすくリムふSUtj電し、、載場へ出       e台つ た疫瞳プ蓼崇彪なんて、入をL麗にし

台つ 『ζ長 ,蘭アi贈らtit)アXAIjurど声を       醇.命つ て㌃峡一立てて鳴り昏胆話儲ない.轟

白つ てYuK転こ難3・かも護}れない. Sjlu工       堺.謎つ X・,弔い簸に郎殿歩てもしないと鰯嚢

猛つ (るんだ.よく睦をつく男だ.紀て中       o.陛つ たか,評んな臨門賎逃入って行く.中

逢つ L夢1雑やビ疎画匙人賦舷奴鉦と響つ桜

雲つ 7こ豊u暦こよ,騒斐気へし見ると菰一頭に尋冨

賦つ.k,∂疑恩‡ゑ讃や醗かていざと極為る

珪つ たと碧フたら.サく解窟りて,躰気の

逢フ てaSPIは転い,臼分の好きな{拭け覧       o.逡つ て群どて6長く綬隔菅う匿ない、掩う

逢つ てttら婚酌て,ジ≡つ張り7L二【4・CJe)、弓て       縫翫つ て詳しい雛栂憾賑いて見なかつ奄のだ

1.蚤フ て話をす壱アμ∫鰯硬薦.轟糎の西紀け饗       f旨い 正餐霞∫脅して葛て,菰倥になるん竃

購い k/ )」 nlの骨の様に槻いて.たら凝5と       砂縫い . 「康給上不紹爵蔦から,秘ノ1羅や膨

蒼い 薗 目鼻くし奄.お範は即夜稲置畿引       曾暖い 顔血して鶏壷のな,,韓欝往て居る.直

感LS 人は群Uてvbfu7SJfrt努は斎くふく       《り.鷲く ふくttzaJ,」馳概冨蒸すう5なサの願

暖く 蔀)たり.Ptくなつ屯りして,可愛総       sO,導く ふくれて義 ,輩し小学撹へ仔く既分

驚く ふく瞑る1 すと殿へて雲.tLza.毫航       e.,蒼く した・瞬冒∫卸夜下立を引鮒ム7竜・

酵∬ れなくてtSIT#んの、饗}篇以外に翻人

諦ぎ 葎いと魁ぴます」と託…つ超.野だの繁

鍔島 フ∫1いてる尋.塩け人の住翫ない嵩だ       爵、為島 てfミdiE.あの岩のよll、どうてす.

濤窯 を箆て琶ると.臼の毘が段く〜弱って楽

難1向 碑謝れた.ざ駅を見ろ.残る一入jj一

夘向け にな=}篭,笏穿、ガ窪る暮に頓と「擁       e卵向け にな=)て,亡つi…から大空を眠のて

燭. 1ゆ図i

参照

関連したドキュメント

〜は音調語気詞 の位置 を示す ○は言い切 りを示 す 内 は句 の中のポイ ント〈 〉内は場面... 表6

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

語基の種類、標準語語幹 a語幹 o語幹 u語幹 si語幹 独立語基(基本形,推量形1) ex ・1 ▼▲ ・1 ▽△

[r]

今回の調壺では、香川、岡山、広島において、東京ではあまり許容されない名詞に接続する低接

The author is going to discuss on morphological and phonological properties of, in traditional Japanese study KOKUGOGAKU, so-called auxiliary verb RAMU and related some