国立国語研究所学術情報リポジトリ
用語の集中度と共通度 : 新聞各層間の比較におい て
著者 村木 新次郎
雑誌名 電子計算機による国語研究
巻 5
ページ 36‑71
発行年 1973‑03
シリーズ 国立国語研究所報告 ; 49
URL http://doi.org/10.15084/00001019
用語の集中度と共通度
一新聞各層問の比較において一
村 木 新 次 郎
この稿では,新聞の用語を二つの量的な側面から考察する。二つの側面とい うのは,一つは用語の集中度についてであり,他の一つは,用語の共通度につ いてである。
新聞には,いろいろな文章形態があるので,それぞれの角度からの区分が行
(注1)
なわれた。ここでは,「目的や動機」あるいは「表現活動の性格」によって分 類きれた,16の「文種」の各層をとりあげ,それらを比較してみたい。16の区.
(注2)
分とは,以下のものをいう。
01 ニュース
04特集記事
07 実用読物
10記録通知 13相互通信 16案内広告
02二三一ス解説
05 特1弓q言己事
08 探訪ルポ
11紹介記事
14 小説03社説コラム 06評論
09 二=ユース展望
12読者作文 15商業広告
「01」〜F16」の数字は計算機処理のために用いたものであるが,表などで便 宜上このi数字を使うことがある。
さて,用語の集中度というのは,異なり語数の伸びと延べ語数の伸びとの開 係を,使用率のたかいものについてや全体の分布についてみるものであり,そ こでは個rtの語を間題の対象から除外し,ただ用語の分布のみに着目する立場 をとる。一方,用語の共通度というのは,二つの分野にそれぞれ使用されてい る用語がどの程度共通しているかをみるものである。
分析の対象として扱った用語は,新聞三紙一年分からエリア・ナンプリング
(抽出比1/60)で調査対象となった長単位語,約200万語である。
一36一
この調査の対象は,句読点,記号類なども用語として含まれていること,ま た,動講形容詞などの活用する語について,その変化形がひとつにまとめら れていないこと,さらに,同じ表記で別の語であるもの(たとえば「米」のよ うに,「コメ」 「アメリカ」「メートル」など別々の語が同一の表記をとって いるもの)の区分がなされていないことや,別の表記をとってはいるが,実際 は難じ語であるもの(たとえば,「言葉」と「ことば」と「コトバ」)の統一が なされていないこと,などの点で従来からあった語彙表とは性格を異にするも (注3)
のである。それは,語彙論的な性格を欠く,いわば同表記(語彙)表,あるい は閥形文字列表とでもいうべきものである。
語彙論的な語彙表でないことの不備は,語彙構造の細かい分析や他の語彙調 査との比較などを試みる場合,それに充分にこたえられるものではないが,し かし,ここではそういった不備を承知しつつ,新聞の各層間の用語の量的構造 を概観してみたい。
なお,この種の分析は,次のような前提があってはじめて成立つものと思 う。この種の分析とは語彙の計量的分析という意味であるが,そこでは,調査 対象となる各々の語がすべて等質であると考えること,これが前提となる。こ
こで等質ということの意味は,「人間の生きがい」というときのく人間〉も,
「変わった人閥」というときのく人聞〉も同じものとして扱うということであ り,さ:収こ,〈人聞〉もくの〉もく生きがい〉もく変わっ〉もくた〉も同じレ ベルのものである,ということでもある。もちろん,語の認定の仕方や,〈人 間〉〈生き がい〉とくの〉〈た〉との閥にレベルの違いを設けるということも ありうるが,それもやはり土の前提のヴァリエーションでしかない。そういっ た前提のうえにはじめて統計的処理が留目をもってくる。語の使用率も分布曲 線もすべてこの前提のもとでのばなしである。
ところで,私自身このような前提に疑いを持たないわけではないが,前提は あくまで前提であり,その前提のもとで何かがっかめ,それが用語の閣題を杷 握する一助となるのではないかと考える。前提のたて方については,たとえば 誕乙類や句読点は語と認めない方がよいとか,自立語のみを対象として分析し たほうがよいとか,いろいろ立場によって変わってくるQここでは,コソピュ 一37一
L夕を利用して得た調査データを用いるので,人下向きの語の規定というより
・は,機械向きの語の規定ともいえ.るものに従っての前提である。
ところで,この用語調査じたい,サンプリング理論を適用しているので,本 来ならばそれをふまえて分析すべきであるが,この稿では,標本についてのみ 考えていることをお断わりしておく。
注1)話題・文種・情報源記載形式(無記名か記名入かなど)・記慕の位置(見出 し,標題,本文などの区別)の四点から立体的にとり扱われている。詳しくは,
國研報告34.林四郎氏『薪聞語彙調査における履別とその意味』参照。
注2)上の文献では17の丈種に区分され,「漫画」が含まれているが,この層はデ ータ数が少ないため,ここでは省略した。なお我々は,注1の区分を層別とよん でいるため,各分野のことを燭とよぶことがある。ところで層別区分に姐する疑 問がある。どこからどこまでが,どの層であるといった区分が,実際上大変むず かしい。それは,ある意味では,スペクトルのように連続するもので,どうして も,中間的性格のものが出てくる。ここでは記事単位によって処理されたデータ を利用するわけであるが,そこにあらわれるエラー処理(層分けの不完全さ)は 全体として互いに相殺しているものとみることにする。大量の調査には個々のデ 一一タのエラーは,ある程度,まぬがれえない。
注3)仮に,語を「形態論的な語」「語彙論的な語」「意味論的な謝と区別する ときの語彙論的な語彙表を指している。この区分に従えば,「形態論的な語」の リストは形態表,「意味論的な語」は意味表というべきで,語彙表とはっきり区 別する必要がありそうだ。この稿で使用した用語表は,その意味では形態学にあ たる。
1 用語の野外度
この章では,個々の語がどういう語であるかという語の種類,性質などは闇 題としない。もっぱら語彙を総体的にみて,その集中度をはかる。
(1)使用率を規準にはかる方法
各々の分野で用いられている語を,使用率のたかいものからひくいものへと 整理したとき ,それはどのように分布するであろうか。さきに挙げた16の層と 新聞全体について,ある一定の使用率以上の見出し語の数と,それらの見嵐し 語の延べ語数の和がその層全体の延べ語数に占める割合とを調べてみた。表1 1.はその結果である。 ..E −38一
表のPの欄に示した,それぞれの値以上の使月ヨ率をもった見出し語の数が,
各層別に示してある。括弧内の数字は,その見出し語で延べ語数のどの程度を 占めるかの割合(%)を表わしている。Pの値は便宜的に定めた。各騒閥を比 較するのが目的なので,区切りやすい数字を適当に選んである。級間隔は分布 の牲質土一定ではない。もっと細かく区分することもできるが,層の数が多く 煩雑になるのをさけて,大まかに7区分とした。
この表から,語の使用率の分布における各回問の似寄りや違いなどをおおむ ねつかむことができる。
たとえば,「ニュース(01)」と「ニュース解説(02)」と「社説コラム(03)i の三層をみてみると,IO■・o 一ミル以上のところを除いて,
ニュースくニュース解説く社説コラム
という関係が成立する。 「社説コラム」は「ニュース解説」より, 「ニュース 解説」は「ニュース」より朋語が集中していることを示している。用語が集中
しているというのは,金体の一部に偏しているという意味で用いている。
全体的にみて,極度に他のものから逸脱しているのは,「案内広告」,「商業 広告」,「記録通知」である。 「記録通知」は,経済欄の銘柄表やラジオ,テレ ビの番組表などを含んでいる関係上,ふつうの文章とは性格を異にする。ま た,「商業広告」はふつうの広告,「案内広告」はいわゆる三行広告を指し,こ れらの二層も他の分野に比べると異質なものである。これらはいずれも非文章:
形態の表現をとっている層だといえる。
この章では,個々の語を問題の対象外とする立場であるが,いま使用率が上 位にある語と分布とを参考までにみてみると,企体に使用率のきわめてたかい 語というのは,「。」「,」「の」「を」「た」「で」「こと」「もの」など句読点や 助詞渤動詞,それに形式名詞の類である。語を内容語(comtent words)と概 能語(function words)に分けると,どれも機能語にあたるものである。それ
らは,個別に概念をもっているのではなく,文や文章の中で,句や文や語をつ なぎ互いの関係を示す働きをしたり,形式名詞のようにそれ自体漠然とした概,
念しかもっていなくて文脈の中でその働きが規定されるものであったりする。
要するに,文章中に使用されではじめてその役割をはたす語である。広告欄や 一39一
±
表11.絹語の使用率の分布
P(筋)
O1
02
03
04
05
e6
07
08
eg
10
11
12
13
14
15
16
全体
L i
202 1 8
(12.3) 1 (28.8)
2 1 9
(12.4) i (31.7)
2(13.3)
2
(12.6)
9
(33.1)
9
(32.2)
2
(12.6)
2
(12.6)
2
(12.2)
1
( 5.2)
2
(12.8)
1
( 6.6)
2(12.5)
2
(li.4)
1
( 6.4)
1
( 6.8)
o
( e. o)
o( o.o)
o
( o. o)
9
(32.3)
9(32.4)
8
(29.9)
8
(25.7)
8
(29.6)
6
(20.2)
9
(31.1)
8
(29.0)
8
(28.1)
9
(33.1)
6
(16.9)
4(13.6)
6
(16.9)
10 13
(36.5)
11
(34.9)
12
(37.5)
11
(35.3)
11
(35.7)
12
(36.7)
11
(34.3)
16
(38.9)
13
(36.9)
11
(28.4)
13
(36.8)
11
(33.9)
10
(3エ.2)
13
(39.6)
11
(24.3)
5(15.5)
16
(30.9)
5 19
(40.1)
23
(42.8)
21
(43.7)
23
(43.9)
23
(43.9)
20
(43.2)
24
(42.4)
19
(40.6)
17
(39.7)
20
(34.9)
22
(42.9)
22
(41.4)
23
(40.6)
20
(44.1)
19
(30.2)
12
(20.2)
20
(33.7)
2 35
(45.6)
37
(46.7)
37
(48.5)
34
(47.2)
34
(47.5)
36
(48.4)
37
(46.3)
40
(47.6)
35
(45.e)
42
(42.3)
34
(46.6)
37
(46.4)
42
(46.7)
35
(48.8)
31
(33.9)
49
(32.1)
32
(37.4)
1
62
(49.2)
65
(50.5)
68
(52.8)
64
(51.4)
66
(51.9)
69
(53.1)
75
(51.3)
63
(50.6)
67
(49.4)
63
(45.3)
55
(49.5)
72
(51.5)
77
(51.4)
67
(53.3)
57
(37.6)
109
(40.7)
O.5
114
(52.6)
142
(55.8)
129
(56.9)
129
(55.8)
121
(55.4)
137
(57.7)
133
(55.1)
123
(54.9)
143
(50.4)
108
(53.2)
138
(56.e)
156
(57.5)
145
(58.9)
108
(41.0)
221
(48.4)
60
(41.4)
134
(46.5)
その使用率までの累加異なり語数(括弧内は層全体の延べ語数に対する翻合%)
記録通知の層ではそういった語の使用率がひくくなり,数字や記号類の使用率 とならぶ。そのために50パーミル,20パーーミルの使用率をこえる語というの
一4e一
轄,ふつうの文章からなる他の層より少ない。
各層をまとめた新聞の語彙全体の使用率の分布で,きわめてたかい使用率を もつ語が少ないのは,直属の上位にある語が相殺されているからであろう。
このように比較的使用率のたかい語がどのように分布しているかを知ること によって,ある程度,語彙の集中度がわかる。
(2)使用順位を規準にはかる方法
使用率のたかい順に語をならべ,ある一定の順位までの累加述べ語数とその 分野に含まれる全体の延べ語数との比を高田度と考えることもできる。フラン スのP.ギu・一一は上位50語までと全体の延べ語数との比をもって集中度:として (注4)
いる。それを式にあらわせば次のようになる。
c急ガ/か
(ただし,n:異なり語数,使用率(i)≧使用率(狂1)とする)
ギローの考案したこの式が,ただちに日本語の場合に妥当であるかどうかは 検討してみる必要がある。また,使用するデータが語彙論的な語彙表でないも のであるため,いくぶんこの式を修正する必要もありそうだ。そういった点の 考察は保留して,とりあえずこの式を多少延長した形で各層閥の語彙の集中度 を測定してみた。その結果は表12.に示してある。
ところで,この場禽延べ語数の違いが気になる。ちなみに,延べ語数の多 いrニュース」 「記録通知」 「案内広告」などの騒の集中慶が他よりひくい。
比率を問題にしているのであるから,実測数の多少にかかわらず,少なく調べ たものと多く調べたものが,縮図と拡大の関係を呈しているといえるであろう か。しかし,そうとはいいがたい。異なり語には,おのずと限界があるはずだ と思われる。調査対象をどんどんふやしても,異なり語がふえない状態がある はずである。そのことを考えると,やはり延べ語数の違いは問題点となる。異 なり語の限界がどのあたりにあるかは興味ある閥題であるが,今後の課iとす る。それは当然その分野によって違うはずである。
延べ語数の差異による障害はあるが,表から判断すると,各層問の集中度の 一41一
表12.用語の集中
(比率はいずれも%)り数な異語
べ数延語
くユ za一 ズ452,876 ニュース解説i 29,217
社説コラムi57,554
特 集 言己 事1 53,427
特罰読物1G1, 851
評 論{ 45,000
実用読物141,844 探訪ルポi80,950
ニニニース展望i 5,184
記録通知1 426.804 紹介記事175,58。
灘雛齢1
/jx 説} 34,754
商業賭2囎6
等内の縮291:ll;
66, 900 7,985 12, 818 12, 913 21, 798 10, 936 10, 272 16, 458 2, 07e 53, 519 18, 793 8, 099 7, 624 8, 347 45, 952 42, 255
百分銘
23.02 1.48 2.93 2.72 5.18 2.29 2.13 4.三1 0.26 21.69 3.84
1 上位
50語
47.85 48.78 50.63 49.76 50.00 50.72 荏8.35 49.15 47.41 43.74 48.98
・…い8・65
i淵器
IO.19U,
36.79 1g15511 5SISI
o.i211
上位
エ00語51.83 53.36 55.30 54.13 54.31 55.54 53.22 53.64 52.33 4s.eo 52.75 53.85 53.48 56.ユ1 40.58 39.72
上位
200語55.85 58.l1 59.76 58.60 58.61 60.24 57.80 58.e3 58.68 52.92 56.60 58.73 58.92 6i.28 44.36 婆9.81
上位
500語上位
leooth61.89 65.11 66.26 64.92 64.46 66.76 64.70 64.67 69.71 59.59 62.33 66.01 66.16 68.17 50.42 57.66
66.63 71.23 71.76 70.31 69.25 72.11 7e.70 70.26 79.36 64.58 67.31 72.25 72.47 74.08 56.09 65.32
全体鵬5521
1 ioo.ooll 40.221 44.ssl 4g.e61 s4.ssl sg.g4関係は次のようになる。「>」は左辺が右辺よりいくぶん集中度のたかいこと を示し, r》」は,その差のかなり大きいことをあらわす。
さきの式の一般式である
か/毒、声
に:おいて,
(1)S==SOのとき
小説〉評論。社説コラム〉特別読物・特集記事〉探究ルポ・紹介記事・
ニュース解説・読者作文〉実用読物・相互通信・ニュース・ニュース展 望》記録通知》商業広告〉案内広告
(2)S=100のとき
小説〉評論・社説コラム〉特別読物・特集記事・読者作文・探訪ルポ・
相互通信・ニュース解説・実用読物〉紹介記事・ニュース展望〉ニュー
一42一
ス》記録通知》商業広告〉案内広告 (3)S==2◎0のとき
小説〉評論・社説コラム〉相互通信・読者作文・ニュ 一一ス展望・特別読 物・特集記事〉ニュース解説・探訪ルポ・実用読物〉紹介記事・ニュー ス》記録通知》案内広告》商業広告
上の結果をみるかぎり,大部分のものは,上位50語であれ,100語であれ,
200語であれ,この範囲であれば集中度の大小関係は大きく変化しないようで ある。その例外は「ニュース展望」 「相互通信」 「案内広告」などであろう。
「ニュース展望」は,上の図で次第に集中度のたかいほうに移行する。この 層は,他の層に比べて標本延べ語数が少なく,使用率の分布そのものが安定し ていないからであろう。この層は, 「社説コラム」に近い文章であると予想さ れ,図のもっと左に・きてしかるべきものである。k位500語までの集中度測定 の結果によると,「ニュース展望」が一番左にきて,そのあと「小説」「評論」
「社説コラム」と続く。上の図での,この層の移動は,やはりデータが少量で あるためであろうと思われる。
「相互通信」も次第に集中度のたかいほうに移行している。これは, ドニュ ース展墾」の次に標本延べ語数が少ない分野であるが,このあたりの使用率は 安定していると思われ,「相互通信」のこの変化はこの層の特徴になるであろ う。「案内二三」は「商業広告」との大小関係が,途中で入れかわる。こうい つたことは,あとでとりあげる分布曲線を描くことでより明らかになる6 以上,ギローの集中度の公式を延長させて利用してみた。その結果,各層の 語彙の集中の度合を整理してみると次のように.なろう。もちろん,新聞記事と いう範囲内での相対的な規定である。
集中度がややたかい層………小説 評論 :社説コラム
集中度がふつうの層…………特別読物 特集記事 読者作文 相互通信 探訪ルポ紹介記事ニュース展蟄二=一 ス解説 実用読物
集中度がややひくい層………ニュース
集中度がかなりひくい層……記録通信 商業広告 案内広告 一43一
これらのグループ分けは,集中度のたかいものがより文章的であり,反対に 集中度のひくいものがより非文章的であるといえそうである。この範囲内では 語彙の集中度の高低と文章的であるかそうでないかとの二つの尺度の関係が強 いようである。このことが一般性をもつかどうかはまだわからな:い。句読点や いわゆる付属語も含んでいることが以上の結果を左右していると思われる。
「小説」で集中度がたかいのは,あるいは,固定した個人の執筆によるせい か。「小説」では,人名地名なども定まったものしか使われない。これは,延 べ語数を小さくし,ひいては集中の度合をたかくする。また,執筆者が一定し ていることは,表記のゆれも少なくしていると予想される。これも,集申度を たかめる要因であろうか。
(3)分布曲線(ローレンツ曲線)による方法
(1)や(2)の方法では,比較的使用率のたかい語のみを扱ってきた。土 位語の部分を以て語彙の集中性をみたのであるが,全体の語彙の分布から語彙 の集中牲を測ることはできないものか。ローVンソ曲線は,経済学の分野で元 来所得の分布状態を比較する方法として考案されたものであるが,言語現象の (注5)
分析にも利用されているようである。ここでも,異なり語数の伸びと延べ語数 の伸びとの関係をみるのに,U−Vンツ曲線が応用できそうである。おのおの
表13.
異なOS累徽率・.・%i・%
29/o 50/o leo/o 500/oスム事物論ポ知事説出ロ ーラ記読 ル通認 広
コユ説集罰訪録介内 二社特特評探記紹小案
59.2549.04 51.42 54.81 51.40 52.39 55.11 52.42 50.03 47.94
66.e2 56.82 55,77 59.15 57.8e 56.78 60.06 56.24 54.77 55.74
68.72 61.41 6e.28 63.77 60.85 61.55 65.12 60.44 59.97 63.46
75.59 68.19 66.84 69.77 66.72 68.63 74.66 66.83 66.74 73.41
80.87 73.83 72.53 75.19 72.86 74.74 81.73 72,36 72.荏8 80.34
88.86 87.92 89.30 87.85 89.84
87.57 87.99 92.95
. 一44一
f ;
leo
図a
80
6e
40
20
/
フ
ンフ
/ ノで7/
〆/
7/
グ//・ノ /
//
/
グ./
グ/
ノダ
!﹃/r
楚奮
線
一・ユぶ.一ス
亀
一一一一一 j説コラム
ー一一一一ト内艦告
異なり緻 2e 40 sa k Iso 96
の伸びとは累積度数のパーセンテージのふえ方という意味である。使用率がす べての語について同じなら,図aの対角線である,均等分布線IL 一一致する。そ
うでない場合は,弓状の曲線を描く。ふつうは計測値の小さいものから大きい ものへと示されることが多く,曲線は対角線より下側にくるのであるが,ここ では,さきの使用率の分布のときと同じように,使用率の大なるものから小な るものへと移行させたので,図のような対角線の上側に弓形の曲線ができる。
そうした場合,この曲線と対角線とで囲まれた面積をもって分布の集中度とす ることができる。この面積が大きいほど集中の度合が強いことは当然のことで ある。面積は,積分によって求めることが可能であるが,この場合だと,シン プソンの近似式を変形して,その鱗を求めてもいいだろう。集中度Cは次式に よって求められる。
C ==一il一 {2yi+y2+2y,)一2.s}
yl, Y2, y3は,異なり語数のそれぞれ25%,50%,75%の延べ語数の再分比 を100で割った値である。対角線と弓形でできる面積(すなわち集中度)は,
対角線と他の二丁とによってできる直角三角形より大きくなることはなく,矩 形の面積を1とすると,集中度Cは,0と0.5の間の値をとる。
一45−
k
表13.は主なもの10層について異なり語のそれぞれの百分比 (0.5,1,2,
5,1◎,50%)に対して延べ語の百分比のいくらにあたるかを計算したもので ある。異なり語で,その百分比がゴ番爵と(i十1)番目の閥にぎたときは,i 番目までの延べ語数の和に, i番霞と(i十1)番目の語の延べ語数を比例配分
し,それを加えて計算した。
この方法で,次の五層について測定した結果を示す。
評論 案内広告 特別読物 社説コラム
ニユ・一一一ス
O.313 e.318 0.322 e.3se e.358
調べた五層に関しては, 「評論」が一番集中の度合が小さく「ニュ一匹ス」の それが一番大きい。
使用率のたかいものも,きわめてひくいものも集中度の値に関係してくるの であるから,この方法による測定は,より精緻だと一往はいえる。ところで,
上の数値と,(1)や(2)で得られた結果とをあわせて考えてみると,「ニ ュース」の場合,その性質上一回きりしか使われない人名地名などが多く,そ れが源因で(3)の集中度の値がたかいのだと思う。「評論」は,(1)(2>
の結果より,上位語にかなり集中していることがわかるが,上位語を除いたも のは使用率が均一化しているとみられる。
ともかく一般に,上位語だけでみた集中度と全体の分布での集中度とは別の ものである。前者は,集中度というよりは,上位語の反復度ともいうべきもの である。後蕎は,すべて同じ使罵率であることからどの程度かたよっているか を測るものであり,そのかたよりは,上位語のかたよ、りと,頻度数のきわめて ひくいものの多少によって決められる。図aのようts霊亀ーレソヅ曲線を得るの はふつう大変やっかいなことなので,上位語へのかたよりを(2)の方法でも とめ,さらに頻度数1や2の全体に占める割合をもとめ,二つをあわせて計量 化し,(3)にあてはまる集中度を得ることもできよう。
参考までに各層の度数1,度数2であった標本語数を表14.に掲げる。
一46一
表14. 表15. 語彙の豊かさ
i延べ融漁り識i標鞍鋸標ホ麟2
.
ス説ム箏脇初八口物ポ望知事山叉信旧一説出口出口
ニニ社特功評実探ユ記紹読相小商案
452, 87629, 217 57, 554 53, 427 101, 851
45.000
41, 844 80, 95e 5, 184 426, 804 75, 580 31, 192 28, 5381 34, 754 200, 576 299, 651
66, 90e1 7, 985ii 12, slsl1
12, g131 21, 798[1
10, 936i・
1
53, 5191 18, 793/
.8, 099i 7, 6241,
8, 3471 45, 952i 42, 255
1
10, 272ii 16, 4ss]/12, 070E
ll
婆4,666 5,710 8, 984 9, 266 15, 498 7, 957 7, 132 11,114
1, 607 34, e45 13,74荏 5, 804 5, 526 5, 9831 30, 726 27,31三
8, 82e 1,129
1, 729 1, 660 2, 755 1, 401 1, 421 2, 236
254
6, 851 2, 362 1, 033
963
1, e66
6,469 5, 553
ス説ム事物論物ポ望知事文話説告告
ニニ社特特評実探二八紹外相小商案 ブ鱒
99.4046.72 53.43 55.87 68.30 52.56 se.2e 57.84 28.75 81.92 68.36 45.86 45.13 44.78 i102.60 94,56 全 体
これに関連して,延べ語数と異なり語数とをもって語彙の豊かさ(R)をは かる,% u一一の次の式に,拶圏の調査結果を応用してみた。
R一襟難
この式によって,各層の語彙の豊かさ(R)をもとめた結果が表15.である。
これによると, 「商業広告」「 =ユ 一一ス」 「案内広告!などci)分野が,語彙が 豊かであることを示し,反対に, 「=ユース展望」が豊かでないことを示して
いる。ところで,前者の三層は,共通して,その標本述べ語数が多く,後者は それが他より少ない。この延べ語数による違いによって起こった誤差が表15.
の結果に含まれるのではないかと思う。語彙の豊かさをはかる尺度として,ユ ールの「K特性値」などもあり,今後検討してみたいと思っている。
注4)この式の分母は,ギローの場合,2Nと示され, Nはmost fotsの数をあ らわしている。総語数は,その倍であるとされている。
注5)宮島達夫氏が「〈かかり〉の量的性質」 (『現代雑誌九十種の用語用字第三 分冊』所収)の中で,u一レンス曲線の考え方にもとづいて,〈うけ〉の集中度 の測定を,試みている。
また,野村雅閑氏も,「用語周字調査における用語と用字の関係についての実 一47一
験(その1)」(鎚DD4』駈収)の中で,富島氏にならって漢字の使用が,特定の 語に集中するか,あるいは数多くの語に均等に用いられるかを数量化している。
豆 用語の共通度
いくつかの分野があって,それぞれの分野の中に使用されている用語が,ど の程度共通しているかを測定する。それは,用語の共通度,あるいは用語の類
(注6)
七度といえようが,このことが,ただちに分野(あるいは一般に作品)の共通 度,類似度とみることはできない。ただ,作品の似寄りの一つの大きな要因と して,用語の共通度をあげることはできよう。
x
さて,作品Aと作品Bの用語の共通度を測る方法としては,かつて『計量国 語学』誌上で次のような式が示された◎
CAB=
a十b−x(注?) (a,b:各作品の見出し語の数, X:二つの作晶に共通tt な見出し語の数)
CAB=
Vab (注8) (同上)
これらの式は,二つの作品の長さの違いによって,大きな影響を受ける。宮 島達夫氏はこういつた式を検討された末,次のような,使用率により用語の共、
(注9)
通度を測る方法を示された。
CAB−X min [Pi(A), Pi(B)]・・… 一… (Ra)
i
この式の意味するところは,ある語が,作品Aにおいては,その使用率が Pi(A),作品Bにおいては,その使用率がPi(B)であるとき ,その小さいほ一
うの値をすべての見出し語についてもとめ,それらの総和が二つの作品の共通 度であるとし}うことになる。そして,これは次式のように,表わすこともでぎ
る。 (詳しくは『国語学』82を参照されたい)
…一ト÷Σ(IPi(A)一Pi(B)D………(・・)、
9a式やHb式で表わされる,この作晶の共通度CABのとりうる値は,0
と1の聞で,二つの作品に金く共逓な語がみられない場合に0,各語の使用率 一48一1蒔り一
特 集 記 事 特 別 読 物 評 論 工ユース解説 ニ ユ 一 ス 紹 介 記 事 読 者 作 文 実 用 読 物 相 互 通 信 小 説 ニュース展墾 探 訪 ル ポ 商 業 広 告 記 録 通 端 野 内 広 告 説ム
ラ 社コ
8︵U4 00Qゾ
77ρ◎
特集 記事 .706 ,679 .669 .667 .6荏5 .631 .609 .598 .577 .544 .538 .344 .207 .127
表夏1.各魑間の用語共通度表
特別 読物
ρ0り◎
7ρ0 ︵U4
評論 ニュー ス解説 .6荏4 .605 .597 .574 ,574 .530
,..
ロ
.629 .594 .577 .576 .535 ・538卜5嘆0 .539 ] .566 .339 ] .380 .214 1 .258 .135 f .166 1記事 紹介 .626 .618 .597 .584 .510 ,562 .321 .258 .15三
回春 作文 ,628 ,651 .605 .499 .529 .364 .206 .145
用物 実読
19@73 08 22 79 10 42 浦 β 5 あ β 2 ユ
相互 通信 .573 .492 .525 .389 .238 .168 小説 .474 .500 .320 .192 .115 バユ ス展塾 .468 .308 。198 .135
探訪 ルポ .391 .339 .188
簡業 広告 .321 .363
記録 通知 .245
がすべての見出し語について,一致する場合に1という値をとる。実際には,
CABの値が1に近づくほど共通の度合がたかく,0に近づくほどその度合が ひくいということになる。
表H1.に示したものは,宮髭氏の示された測定方法により,各分野閣の用語 の共通度を調べた結果である。測定に使用した用語表は,はじめに断わったよ うに同表記表あるいは同形文字列表ともいうべきリス5であって,語彙論的な 意味での用語表のリス}ではない。だから,語彙論的な,いわゆる語彙表にも
とづき,岡じ測定を試みるなら,ここに.示した数値と,いくらか違った値を示 すに違いない。しかし,新聞のデータは,雑誌などに比べれば比較的表記が案 定していると予想されるので,一方1こ,同表記で別言という間題をはらんでは いるが,各分野間の関係を大まかに知ることにたいした差し障りはないであろ う。本来ならば,標本度数の小さいものは,この種の分析に利用しにくいが,
標本どおしの比較ということで度数にこだわらず,すべての異なり語を対象に 計算してみた。
表は,各層間の共通度測定結果のうち,もっともその値のたかかった「社説 コラム〜特集記事」を左肩にし, 「社説コラム」との共通度のたかいものから ひくいものへの順に,配列してある。この配列により,一般に表の右にいくほ ど,また下に.いくほど共通度の値が小さくなる傾向をもつ。すべてがそうだと いうわけではない。中には順序が入れかわるものもある。・
たとえば,「特集記事士と他の分野との共通度の値はどれも,上のものが下 よりも大きく,「社説コラム」と他の層との共通度の関係と全くパラVルであ るが, 「特別読物」は,それと平行の関係を呈さないようである。
共通度のたかい組合せとしては,次のようなものがあげられる。
社説コラム〜特集記箏 .708 特集記事 〜特別読物 .706 特別読物 〜評論 .706 社説コラム〜特別読物 .700 社説コラム〜評論 .694
これとは反対に, 「案内広告」 「記録通知」 「商業広告」は,どの層との共 一se一
訟訴もその値はひくい。 「商業広告」はどの層との共通度もすべて0.3回目0.4 までの値をとり語彙の面で他の分野との距離がほとんど等しいことを知らせ る。「案内広告」は,他との共通度で極めてひくい値を示し,この層独特の用 藷で構成されていることを,これらの数字は物語る。ただ,「商業広制とだ
けは,0.36とこの層にとっては相対的にたかいのは,広告という共通面がある からだろう。
この表は,全体を眺めることによって次のようなこともわかる。たとえば,
丁特別読物」や「評論」は,「社説コラム」「特集記事」との共通度がたかく,
次の「ニュース解説」「ニュース」との共通度よりも「紹介記事」「読者作文」
との共通度のほう炉いくぶんたかい。これらの関係を図示すれば,右のように なる。(A=:社説コラムor特集記事クB団ニュース解 A
説orニュース, C識紹介記事or読者作文,と考えれ
・ばよい。)
また,一つ一つの分野に,ついて,他の分野との共通
B c
痩の算出平均値をもとめ,そのたかい順に並べると次のようになる。
特別読物 特集記事 社説コラム 評論 紹介記事 ニュース
.563 読者作文
.550 ニュース解説
.544 実屠読物
.543 相互通信
.538 小説
.538 探訪ルポ
.534 ニュース展当肇 .454
.527 商業広告 .351
.522 四点録通知 ,233
.521 案内広告 ほ64
.492
.485
この数値じたい特別意味をもつものではないと思うが,どの分野でも濁いら
:れている語を使っていれば,この値がたかくなるといえよう。 「特別読物」や
「特集記事」は,この値が他より比較的たかく,はばの広い(どの層にも繊現 しやすい)語が多く用いられていると考えられよう。 「案内広告」はきわめて その値が小さく,その層に特有な語で表現されていることを示している。「認 録通知」や「商業広告」も「案内広告」ほどではないが,この傾向がつよい。
この共通度は,類似度をはかる方法で,広くいろいろな方面こ活薦できるこ 一51一
とが,さきの文献で示されている。私は,共通度をはかる汎用のプログラムを 作成し,電子計算機によって以上の結果をもとめた。データである用語のリス トなどは磁気テープに収められているものであり,今後随臨所望のデータを とりだして同じような測定結果を短時間に入手できる。たとえば,他の区分に よる層別の類似関係をみるとか,句読点や記号類を除いたりストで各層問の類 似闘係をみるとか,語種別あるいは品詞別に応用するなど,いろいろ可能であ る。同じ区分による層分けで,記号などを含んだもの,それを省いたもの,語 種別に.よるもの,品詞罰によるもの,助詞や助動詞の使われ方などの類似の度 合をはかり,それを総合的に眺めれば,分野ごとの語彙構成の性格や特徴を知 る重要な手がかりになると思う。
また,いわゆる自立語にかぎられるが,各分野に用いられた語を,カテゴリ ーで分類して類似関係をみることもできる。分類の方法として,いろいろ考え られようが,たとえば,『分類語彙表』によって,グループを単位とし,その 上で各分野問の共通度をみるのも一つの方法かと思う。電子計算機に『分類語 彙表』を収録し,調査した用語とそれを照合させてグループに分ければ,この
ような規準でも類似関係をもとめることができる。
私は,調査資料をかえて,ニュースと社説とコラムの三つの直面について,
それぞれの体書のみをひろい出し,この方法を試みた。これは,体言の類似度.
をはかることで,話題の類似をみようとしたわけである。この試みで調査対象 としたのは,昭和47年4月に出た朝日新聞の朝刊で,ニュースは,この新聞の 第一面の最初の記事,社説は社説欄の記事,コラムは天声人語であり,各々の 分野で対象となる全文から,文を単位として150文をランダムに抽出し,その 150文に含まれる体言を分類した。表狂2.はその結果であり,これに共通度の 式をあてはめて得た値は,次に示すとおりである。
ニュース〜社説 0.83 社説 〜コラム 0.81 二a−vス〜コラム 0.78
つまり,S=・・一スと社説との類似度がもっともだかく,ニュースとコラムと の類似度がもっともひくい。これは,調査の対象とした三つの分野の話題の類 一52一
表豆2. ()内は蕾分比
到社調;・・… 一
;;i・ 1社説・姻
抽
象
的
関
係 1.10
.kl
ユ2
.13
.14
.15
.エ6
.17
.18
86 120 61こと,もの,
(5.21)(8,24)(6.35)こそあど
(、.,ll(,.、ll(、.gll関係・酷
(e.4231(o.7ggl(e.s2gl ig ・ gft一
(、.,ll(、誘(、.,ll十目・瀕
81 6
115f(o・s?,5
1(4s425
(O.48)
65
(3.94)150(9.e9)
93
(5.64)9
73
(O.41)
67
(4.60)131(8.99)
67
(4.60)10
(O.69)65
(4.46)5カ・能力な
(0.52)ど
(、.、ll翻働き
(、藩櫨・醐 31
(3.23)8
(O.83)
64
(6.67)空間・場所
形
簸・数・程度
人間活動の主体
1.20
.21
.22
.23
.24
.25
.26
.27
.28
75
(4.55)5
(O.30)4
(O.24)17
(1.03)91
(5.52)80
(4.85)45
(2.73)67
(4.60)96
(5.82)58
(3.98)4
(e.27)
30
(2.06)26
(1.78)86
(5.90)36
(2.47)52
(3.57)23
(1.58)36
(3.75)3 2
(O.21)20
(2.08)41
(4.27)61
(6.35)18
(1.88)25
(2.60)12
(1.25)入 間
(・.3・)墜撚ど 相手・友など 国民・階級
職業など 国家など 社 会
機関(政府)
瓢 体
貢一i社神ラ・{
1臼降加齢1・ラ・i
人間活動⁝精神および行為
ii1.E1611 . . iLeql.」 h iAg−1}
.31
.32
.33i
.34
.35
.36
.37
.38
(10.97)
ge
(5.45)i(4.61,R
l(2・3gl
I
(1.39),,.,g31
22
(1.33)62
(3.76)76 38 23
(3.64)i(2.81)
(3.23)i(2.29)
(13.25)
501(3.43)
6
(O.41)
27
(1.85)26
(1.78)53
(3.64)・43
(2.95)53 47
75
(7.81)40
(4.17)3
(O.31)
33
(3.44)12
(1.25)30
(3.13)20
(2.08)27 22
心・知
言語活動 創 作 文化〜般
義務・行為
交渉・ 交わり
政 明 経 済 仕 箏
生産物および用具物品
1.40
.41
.42
.43
.44
.45
.46
.47
2
(O.12)8
(O.48)2
(O.12)3
(e.18)
2
(O.12)
10
(O.61)23
(1.39)1
(e.06)
4
(O.27)
3
(O.21)
3
(O.21)
4
(O.27)
8
(e.55)
5
(O.34)
3
(O.21)
4
(O.27)
2i 物 品
(e.21)
(。。、。麺 材
19
(1.98)1
(O.10)5
(O.52)8
(O.83)7
(O.73)
衣食
道 異 機械など 地 類
隻・d社神域
一 1
貢 社訓・ラ・i1エ.50
自然物および
.51
.52
.55
li S
(O.06)1(O.34)
81 3
(O.48)KO.21)
21 3
(O.12)1(O.21)
31 3
(O.18)1(O.21)
(。.42錘・色・音
(、.,ll自然・天然
(。.,,1宇宙・地形
(・調植物
自然現象 ハ07只︶Fひ5戻﹂
4
(O.24)5
(O.30)
6
(e.36)3
(O.21)
4
(O.27)
7
(O.48)
13
(1.35)15
(1.56)10
(1.04)物だ命
︑り
動か盤
一53一
似性をものがたっているだろう。分野闘での話題の類似度をはかるのに,こう いつたやり方も有効ではないかと思う。このようにグループごとに分類し,類 似関係を測定すると,個々の語についてやるよりもとめる数値はたかくなる。
詣題による区分(丁鷹)でこれを試みれば,相互関係がはっきりと示されると 想像する。
ところで,新聞の用語調査が設計され,それが進行して,その結果得られた データをその用語規定にしたがい,層別情報を利用して各分野間の用語の共通 度をみてきたわけであるが,これらの結果を次のように,役立てることがでぎ る。共通度のたかいものをまとめた形でいくつかのグノtr・一プに分けることがで き,このような語彙表を使っていろいろ分析をすすめていくのに,より大きな 分類(層分け)にしたがったほうが好都合な場合もある。また,多数の分・野を 少数の分野のグループに分けることは,全体の語彙構造を知るのに効果的であ り,次回から同じような調査をくりかえすときの能率化にもつながるだろう。
注6)共通度と類似度とは厳密には異なる概念だと思うが,ここではほとんど区別 していない。ただ,共通度は全く同じものについて,類似度は,似ているものに ついての度合という意味で区別していることもある。
注7)水谷静夫氏「語イの共通度について」『計量国語学37号
注8)安ホ美典・本多正久両民r言語系統論のための一つのこころみ」『謬∫礪語 学』47号,両氏は,ミ相伴指数ミと名づけている。
注9)宮島達夫氏「語いの類似度」r囲語学』82.本稿の「用語の薄遇慶」に関す
\ る部分は,この文献に負うところが大きい。
付表
以下の表は,「属劉用語表」ともいうべきもので,以上の分析に使用したもの の一部である。話題による区分(丁層)の蜜語表は別に語彙表として出される が,文台による区分も活用できるものと考え,使用率の充分たかいもののみ,
ここに掲載した。標本使用率のたかい順に配列し,いずれの層も0.5パーミノレ でうちきってある。ここでは,相対的尺度である使用率のみを示してお鵬標 本使用度:数,精度などは省略した。 (なお,「ニューース展望(09)」は,標本数 が小さいため,表を割愛した)
この表の作成には,桜井敏子さんの協力をえた。
一54一
灘慰言諺藤
ニュース(01)
1
io 1
20
30
︐のをに 鏡
陪 臣
ll )(
j II MO し
iも
iこと1
:
1ある
o
この
、ない
1い
iいう iためiではiもの iなつ
1 =一
iには
れた
1。オx
65.280 57.280
灘i
28.8e9
25. 163i,
S2.g551
21. 321 エ9.899 18.475 17.742 10.905 10. 837
627395233265657400806050233955488025879474637535613259991087631762876522219988 75555544444333222222221111
40
50
60
70
80
う
しいどがのて るる 後京た 繭のる はで る こ府りっしり本も題か もがう在 1つなたそれやれよ︻午東まだ午とすれ2てまみかなきへ約と政おあ対あ日に暫しばでだよ現
一55一
410557493289荏7527喋364108壊993387δ30015432 7775544442222221000011111111111111111111
1. 011i
i166gi
i. oool
I5gFI
Ic .1
.g14
.9111 1596i
. 832]
.830
.821
.801
.797
.788
.748
.717
.708
.684
.664
.6621
.653
.646
90
100
110
順位
の に る も国 と どつ20も10べら ら年の くちですか調えれりいとか果き日 て米発たうない嘱と望調なずさ昨へ4なうの対開一考そよたあほ結で同字
4ド040◎ 〃腐り631駄
碗δ0δウ酬ρQρ◎ハ◎4 231789 28 虞10 〃62〃6261磁6059田〃58田〃田田56
.556
.554
tt
.538
.536
1t
.527
.518
.516
.si41
.510
見出し語灘森.
ユユース解説(02)
1 ︐
のをに
●
卍
64.209 59. 3831 35.595
撒
5glgall
10
20
30
40
るると がてとでた︹︺いあこし ○ し ら いうののは Mのめつ はた どれ いる かるのては もか﹁﹂ないこもで0肇そたないにれ・なご一つすみ2しれとれて 132993094353083321758802092163969005403510511 220759987666555
︵∠9甜9日119999870391734035289284 9051474066292958847407 0253198763322109887665 5433322222222221111111 179
7・nδρ◎443
噌⊥1150
60
70
80
90
i ヂ扁リカ ユノ
た3まだ一 る
う るるももれも本らる つえするし題きもでの在府庭くりはこ国がれきう針 にとそて議なやなばかあ考対よず対問できでれまへ現政罪なあのと米だらで薗よ方 0
貧U30
V〃26 1
1
9翻70◎ Qσ9ρ0
1 111 L玉1︒ 211
〃〃〃12〃09〃06 〃0295〃〃92 〃〃88〃〃〃〃88〃〃〃〃〃〃8278〃〃75〃〃 QV 門0 1 ハ000 4 Qゾ PO 17 ワ酎
一56一
1oe
110
120
13e
ば う 党 れ な に 党
びのろ 民 果とけま国けうつ年いのはか う早う民 つ り20 連 り会要るの10よど上説 うだ=自﹇結たない中わこと昨たてと開場よ一よ国中よ点よ壌5聞ソ約お祇必あで11おな以解 8 4 nU
71V〃〃〃68〃〃65〃 〃〃〃〃〃〃〃
.6161
〃〃〃
1
〃58〃〃〃〃〃7
〃54〃〃〃〃〃〃〃〃〃〃 3
〃51140
順位 中心 みる いつ なか ここ 東京 さらに なり
こんど とき 見出し語
〃〃〃〃〃〃〃〃〃〃
標本
使絹率社説コラム(03)
1
10
20
︐の
.をにがはてとでた麓窪も〜のし
この から には では もの II MO その︶
72.870
60. 291 34. 663 34.506 32.786 25.992
24. 411 23. 786 22. 083 18.782 13.517 10.859 8. 444 7. 505
tt
7.384 6.758 6. 654 6. 532 6. IL15
5.837 4.326 3. 805 3.561 3. 492
m
3.214 3. 162 3. 040
30
40
50
60
70
れれめつる てもはら題るは がいも もろ本たっ たつどり ︹いやこそたななばれてのな間すてかだだつに・であ日れあうまいなあ し
ろ府るくるが か こ.趨れなよた一しみと 38058120694222144270575270 〃 09632110888773222222211111
ワ800ρ◎3 〃だ0だ011 荏6757035 97053208 〃 4443333211111111 8036814三 6531986122221111 11111111 9 25258
〃︒5〃︒4︒2卯%931 11
一57一
80
90
100
11e
れ ば カ きうえで り 要で身うけ含つはのい うきらうす民れ えうのどときるま上げわ.ら会メろう でよ考まきよず必の東どわ場よととた人よでさよ対国わ点いそへなたべみい以ないた社アだ思 11
ワ3
:謙
閉1
.s331
.,i61
QV47◎ゾ
Qゾρ04り臼〃〃
〃〃7777 9配4
7
10シ
7
〃〃76 6 0 25 8 〃〃66〃〃6462〃〃60
〃〃0
.3..59