• 検索結果がありません。

層別特徴語の判別

N/A
N/A
Protected

Academic year: 2021

シェア "層別特徴語の判別"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

国立国語研究所学術情報リポジトリ

層別特徴語の判別

著者 木村 繁

雑誌名 電子計算機による国語研究

巻 2

ページ 29‑37

発行年 1969‑03

シリーズ 国立国語研究所報告 ; 34

URL http://doi.org/10.15084/00000995

(2)

層別特徴語の判別

木 村

 これは,報告31「電子計算機による国語研究」の林四郎論文34te paジ「癬に よる規語の特徴」(以下「層別特徴謝という)についし(,AO (41年版,朝 揖,朝刊の1月〜6月分)に関して計算機で求めた一つの試行としての方法と その結果についての報告である。

A。調査資料

 廷べ218,231;異なり語形44,501のうち,各語の全体度数が7以上の長単位語

(異なり3,067;延べ154,257;AO全体に占める比70.7%)につV・て調べた。

瑠別としては4種一すなわち:文種別(G),位置別(P),署名態度別(S),

話題別(T)一47層のうち,延べ語数の少なv・G17漫画とP8, S 10, T12広 告etc, (G14〜17を集めたもの)を除く43層を調査対象とした。

 同一の長単位でも層別が異なれば,あたかも異なるかのようにみなした 層 別語 をここでは調査単位とする。従って調査単位数は,

 3,067(異なり語)×43(厨別)=131,881(層別語)である。

 なお,基本データは長単位AOのOUTPUT(〔表1〕参照)として作成済

の層別度数台帳磁気テープを用いた。

B.判別の方法

 層別語に関して,全体としてみた時の平均的な値:(理論度数)を求め,実現 度数が理論値と比べてなんらかの意味において著しくかけ離れているとき,そ の語を層別特徴語とし,それを次の操作によって決める。

 1.理論度数は次式で計算される。

       一29一

(3)

俵 1] AOの述べと異なり

騒零度釧異なり羅異なり陣概べ

r

*500以上  400  300  200  100

 80  60  40  3e  20  15  10

  9   8   7

30語

 5

13

22 71

40

67

133

162

381 361

716

271 345

450

 30  35  48  70

 141  181  248  381  543  924

1, 285 2, eo1 2, 272 2, 617 3, 067

79, 909 82, liO 86, 538 92, 068 10.7.,.270

105,790 110,393

116, 782 122, 352 131, 464 137, 537 145, 9e8 148, 347 151, 107 154, 257

・一・i・醐

44, 501 218, 231

gg122g一.g

44唐U奄唐W

器:1

講 1認

ggl;

tll

        ,(9542)の(9390)・(5145)を(4804)

        に(4579)r〈3841)〕(3803)『1MO(3791)

        は(3653)が(3316)て(3244)と(2924)

  * 度数1便に

        。(2483)た(2縄4)で(2290)

        0 一 「」 vる も 1 から ある ない

        ことし2 いうこの歩

    (理論度数)=(全体度数)×(配分係数)

    配分係数:層別延べ語数に対するAO全延べ語数の割合       (値は〔表2〕参照)

  すなわち,各語の金体度数を各層別の配分係数で比例配分した値が理論   度数である。

2.層別語の実現度数と理論度数を各々23クラスに分類し,〔図1〕のよう   に行(Row)に理論度数を級区:烈し,列(Column)に実現度数を級区   分した23×23の栢関表を作る。ここで,実現度数が理論度数より大きい   領域を 正領域 ,小さい領域を 負領域 と定義する。〔図1〕では,

  左上角から45。の直線を引き,右上方の範囲が正領域,左下方の範囲が   負領域となる。(級区:分は〔表3〕を参照)

      一30一

(4)

〔表 2〕

1

      1全体度数

騨べ聯数瀦暴

。/o

Gl

 2 3  4 5  6 7  8 9

  io

 11

 12  13  14

 15  16  17

ス説説事物離物訪望 癬霧読撮 ∴集別用炉

ニ国社特特評実探二

t

知介者ケ説告〃爾

   二 広〃

   ミ 業内

逓単襲コ小商案漫

44, 850 7, 401

7,962 7,986

9, 256 4, 085 5, 769 8, 920

  675

41, 485 5, 427 7, 655 4, 4/5 1, 769 24, 958 35, 558

  60

     ぼ(・・.44)1

(〜9:認li

(20. 55)1

(3. 39)

(3. 65)

(3.66)

(4. 24)

(1. 87)

(2. 64)

(4. 09)

(O. 31)

(19. 01)

(2.49)

(3.51)

(2. 02)

(e. 81)

32,8誘

5, 530 5, 952 5, 906 6, 936 3, 124 4, 184 6, 548

  469

28, 465 3, 904 5, 767 3, 310 1, 397 15, 224 24,6工8

騰灘鞭嫌難題1

(1灘i蕪華il

     きi髪饗il§§蓑§三§ll

(0.30):0.0040 −0.0

(ill難難ll

(15・96)

奄n・07984・0

晶圏⁝F i2is, 23i ooe. oo)1 is4, 2s7 (ioo. oo)i

O. 9523 e. 9473 0. 9234

0.94e8

0. 92.P.5 0. 9.P.07 0. 9267 0. 9513 0. 9287 0. 7620 0. 9445 0. 9. 381 0. 9297 0. 8533 0. 89. 92 0. 5836

12345678

P 見標り本情 図e

      表14 出 ︷ 報表写〜

      難G

し題ド文理      明貿

 6・ζ鐙 !き:器1{

 3,629 (1.66)

110,704 (50.73)

 1,325 (O.61)

搬器:ll;鵜

4, 357

  681

2, 679 81, 981

  960 21,279

1, 047

1023︵U61 00︵∪6020

︻︻﹇︻  ︻03ワμ9μ119︵U門02ハ0ρ077

302門0080 ∩V︵∪0ρ00∩VO O︵UOOOOO ︶︶︶︶︶︶︶ 24452QV8 8471676 ワ凹くUlQ﹂0Ωり0

︵︵︵5︵−︵   ︵ 

1

218, 231 (IOO. OO)i 154, 257 (100. 00)

O. 9434 e.{330 0. 9385 0. 9440 0. 7890 0. 5059 0. 9307

1

ド毒   2

  き

  1,

 品

三遷繋灘響一

   外記略冒簿外 欝無雛㎜

1[1;一6tSis7一(一4−31−37)

7, 070 (3. 24)

8, 449 (3. 87)

9,732 (4.46)

11,033 (5.06)

4, 210 (L 93)

6, 811 (3. 12)

5, 868 (2. 69)

8, 056 (3. 69)

6.2.,..sft112mgs g,zs.s[tz2)

67, 961 5, 176 6, 424 7, 279 8, 076 3, 154 5, 039 4, 434 5, 441

(44. 06)

(3. 36)

(4. 16)

(4.72)

(5. 24)

(2. 04)

(3. .2.7)

(2. 87)

(3. 53)

218,231 (100.00)1 154, .957 (10e. OO)

O. 4814 一2.1 0. 0408 一〇.4 0. 0493 一〇. 4 0.0549 一〇.4 0.oss6 一〇.3 0. 0239 一e. 2 0. 040! 一〇. 4 0.0374 一〇.4 0. 0283 O. 3

e. 9873 0. 9399 0. 9231 e. 9572 0. 966e O. 9325 0. 9337

0.9173

0. 7907

1 Tl

 L)

 3  4  5 6  7  8  9 10  11  12

        ポ

政外経労社国文地ス婦芸広 治交済働野際化方ッ人能告

15, 253 2, 962 23, 814 2, 666 26, 263 16, 725 16, 303 5, 417 20, 536

9, 9. 57

15, 990 62. 345  

(6.99.j曙

(1. 36)

(10. 91)

(1. 22)

(12. 03)

(7.66)

(7. 47)

(2. 48)

(9. 41)

(4. 56)

(7. 33)

(28.蚤7)1 11, 408

2, 233 16, 378 1, 984 19, 123 12, 464 12, 117 3, 809 14, 992 7, 335 11, 141

(171met l o. oglB 一〇: 9

(1. 45 )1 O. 0176 一〇. 2

(le. 62)1 O. 0911 O. 8

(1. 29)1 O. e160 一〇. 2

(Z2.40)1 O. 1532 一1.5

(8. 08)

(4. 76)

(7. 22)

1 218, 231 (100. 00)

t

e.0986 一〇.9 0.0932 一〇.7 0.0273 一〇.1 0.0972 一〇.O O. 0590 一〇,6 0. 0702 o. 1 ks4,2s7 (ieo. oo)1

O. 9347

0.9293

e. 7836 0. 9331 0. 9431 0. 9416 0. 9514 0. 9617 e. 8676 0. 919. 8 e. 8292

一31一

(5)

〔表 3〕

ーー

理 論 値(1)

ーー

実 数 値:(」)

1級

7ヲ

級の*中 (下) 央 限界 値

別語 平均標準

  偏差Mi Si

28990769831480451035898 0G1244566711162334497294忽91969272菊

      11244ρ0

4421079082398365872264106642679716278502019631 2714625176987332121   1 18153211  1 631 012345678912172434496989怨74姐494900       112348 012345678905GOOOGOOOOOO       1123468050000

      1129り4︻0

#葬##弊牲#磐鞍君葬芽#磐#誓##磐碁##茸 01234567890123456789012          1111111111222

鑑繋騨11

緩需100×i議

 6. 9

 6.8 8.1  Z3 8.4

11.1 13.1 16.4 19.9

23. 8 25. 9 34. 0 39. 1 49. 4 49. 8 72. 5 60. 1

94.1 68.2

124. 0 121. 5 191. 3 139. 2

gz!s , g g) esgl

≡i:ζ、1言茸ε ,言3 そ}8i

4. ?liie〈 i5> 140i 5.3ill#( 15) 130

夢:拳1籔18!揖1

 賦3幸宰( 30) 1208. 0

296a 5 188・3F 492a8 259・51 472.9 326. li一・・+… +・…

645.8 258. 4!… 一・・・・・…

13孝キ( 30) 120 13#( 30) 120 14#( 40) 120 15#( 60) 120 16#( 80) 110

17#(100) 110 18#(150) 100

19#(2eO) 83 20#(3eO) 72 21#(400) 98 22#(500) 73      63

     531      691      401

層別語

89, 058 16, 146 7, 234 4, 064 2, 802

1,981

1, 5991・

1, 367 i, 99Sl

 7361

Mj Sj

Mj+

    Vj2Sjを 越える

住しLaa34︒4aa8︐凪蛾鐙眠訟駈訟

939528152093426749 級番号

翻灘§灘

0000︵︶

nδ6ρ08QゾQり29一11

︶︶︶︶︶

QUQり門D46 04A︶42   一11 89111み 韓穀#弊磐 ︵︵︵︵︵

   11よ一8Q︶5だD5

_、ll嬉嬉l/

 9851 13.3 25.7116#( 80) 190

髪鈷  1孚:91礫}88置§8i 搬…,2.,1§骸l188貧18

、器  91:溜難881器 圭搬器:懲:誠意88携

 571335.2 201.51 ・・・… 一+・… 60  3613621s lg21 il ......・.....

      53iggi6igl g 2961 gi ............ gi

(計糎88・i (計)li・3・,88・i  塵

3.累積千分比の計算

  正領域では,理論値のクラス毎に実現値の大きい方から,すなわち〔図   1〕では右側から横の方向に,累積千分比を計算する。負領域では,実   現値のクラス毎に理論値の大きい方から,すなわち〔図1〕では下側か   ら上の方向に,累積千分比を計算する。

4.実現値あるいは理論値のクラスを固定一すなわち,相関表を縦割りある   いは横割り一した時のクラス甥の平均M,標準偏差Sを求める。

      (〔表3〕を参照)

5. (M十2S)を越えるクラスに属す層別語を特徴語とした。このとき,

  正領域あるいは:負領域に属すかの2通りの意味での層別特徴語が存在す   る。そこで,判別テーブルとしては,層別特徴語に属する領域(層別特   徴領域)については累積千分比別に判別マークを与える。

       一32一

(6)

     実現度数のクラス(」)

0#一大 22#

理論度数のクラス9︐

        ︵ 0葬

 22#

(500以上)

負 領 域

(実)く(理)

ii>

正領 域

(実)〉(理)

正領域では,

 十(0.1%以下)

 A(1.0%以下)

 B(2.0%以下)

〔図 1〕

 C(2.0%を越える層別特徴領域)

負領域では,

 一(0.1%以下)

 J(2.0%以下)

 K:(2.0%以下)

 L(2.0%を越える層別特徴傾域)

の記号を与え,麿別特徴領域に属さない(M十2S)より小さい範懸 では,・を与える。(〔表4〕参照)

         ※なお,〔表4〕では,層別語が存在しないマス

       一33一

(7)

〔表 4〕

算葬葬曇詳尋尊誓尊舞#替韓尊算茸暮茸聾熱茸葬#

0123456789G123456789012       1正1王111111222

(実)」

KKJJJ \  KKJJ K3J︻絞巴一

0

﹁一

︸0 012345678905000GGOOOOOα       112346805000D

      エー轟2つ9濯讐P◎

O 1 2 3 4 5 6 7 8 9 IO 11 i2 13 14 i5 i6 17 18 19 20 2i 22 0 1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 8e lee lsc 2003004ee 500

  BAAA十十 rt一 十IOI十 十

    CCBBAA十十lo

       十

         CAA十十

      C B 一}一       CCA・,十十

      〇

       CA十

[コ

[1]

  LXJl LKJJ皿 LK︐﹂一 KJJOO KJJ︸ KJJJ KKJJJ 賦鐸鴎 JJ一一︸ JJ︻ ︻ 一

0

0

J

A+﹁﹂+

AABB B︑CCB

CBA÷  CBA

o

十十AC 団ACC 溌圏

玉KJOJ LJJJJ KJJO一

﹂﹇0︸﹁

 JKO   OKLO

 JKJOLL

−OJJJJ】しし⑨⑨⑨

罵には0を与えている。また,クラス番号22#

(度数500以上)の部については,㊥を与え,別 に特徴語を判別することにした。

C.判別の吟味

1・上のBの5.の判別基準では,理論度数0(小数第一位四捨五入して)

  の時,実現度数3以上を層別特徴語としている。これは,配分係数7.2   %以下,全体度数7の場合,層別度数が3以上である時,正傾域での特   徴語となる。また,理論度数8以上で,実理度数0の時,負領域での特   転語となる。

2・ (M+2S)で層別特徴語の境界線を引くと,級番号カミ大きくなる時,

  境界線力樋行しない(すなわち,増加函数)。ただし,千分比による等   比線は逆行している。

      一34一

(8)

3.全体度数X,層別度数Yとして,最小自乗法により,回帰直線Y=BX

  十A及び,X, Yの相関係数Rを求めた。(〔表2〕参照)

  相関係数0.9以下の層別としては,次のものがある。

  O. 58 =(G16案内広告)<(G10通知)<(G14小説)<(G15商業広      告)

  0.51=(P7図,表,写真の説明)く(P5情報源)

  0.79 ==(S9無署名(外部))

  O.78=(T3経済)<(T11芸能)<(T9スポーツ)

  これらの層では,履別特徴語が多いと考えてよいだろう。

D.結果及び分析

1.OUTPUTとしては,度数順に各層の特徴語判別マークをラインプリン

  トした。長単位語は,度数順語彙表から人手により転写した。〔なお,

  作表の仕方としては,IR的見地から必要な項目だけをOUTPUTす

  ることも考えられるが,漢テレに負荷がかからないようにするため,こ

  れを基本表とした。〕

(例)

騨位・tSZtW 1・REg (・)・2・・56789・・…2・3・4…6 1(P)一(・)一㈹

た  1P14し

いる  20L

ある  24し ない  25し

ます2P12し

だ  3PO4し

です  24L

2454 16 @  ・ ・ .

1007 15 ・ . ・ .

776 15 . …

759 15 . ・ . ・

386  15  J  KK二1(

271 16 ・ …

191 14 J …

 ・ …   L ・ ・ …   」

一一一一一一一一e− km

.・・.・

k・・…  L

・ ・ …    L ・ …    一

・ ・CK・」 ・ ・B …

・C ・ ・ ・ ・ …    t ・」

・ ・ ・ ・ ・ …    C …

(以下略)

2.

 (G).(P).(S).(T)には0でない層の数をプリント。

※ この表は,4層別を除く全層別の一種の濃淡を示しているとも考えられる。

この表から各層の正領域の特徴語を集めた。

G1ニュースについて層別特徴語を列記する。

       一35一

(9)

   二十七日,二十二H,十三日,二週間,日本時間

 G ヅヤカルタ,ベトナム,アラブ連合,カイロ,北京,マレーシア  1 桑田,重雄さん,三井物産,目銀,公明,公明党,農林省,非同盟,

 ・ 発,ロイター,UP王

 二 委員会,委員長,付近,教会,史跡,四条件,書簡,上空,晶晶,晴  ユ 着,両党

 1 会談,デモ,開催,協定,再編成,支持,成立,提案,北爆,満足,

 ス 寝,語っ,出席し,かけつけ    新たな

3・人称代名詞について特徴語となる層別を記す。

4。この他に例えば

 1)社説では,助詞,助動詞としては「なら,うと,なければ,べき,か    は」が特徴語になついる。

 2)経済,スポーツなどは,数字が多い。

   など,語種,晶詞などを付加情報に与えて,整理してみるとおもしろ

長単位

あなた

われわれ

全体 度数

118

55

34

灘潔麟

125 (106)

267 (242)

460 (429)

573 (542)

正領域(実)〉(理)

I

 G12読者, G13コミニケ,

 S3冒頭, S 4来尾(外部),

 S6(略称), T10婦人

負 領 域

(実)<(理)

G16案内広昏

T3経済,

T9スzk  ・一ツ

G13コミニケ

T10婦人

iG iニー昭 1

G3祉説

S3 冒頭, S 8社二を代表

鴎齢粥斎ケ

わ・・123173・(696)}1

私たち

20 871 (834)

陪難s4末尾㈱i

彼女い・【・8・3(・758)ll・・特読

ぼ  く 9

2002 (1957) G5特読, G12読者, S 3冒頭,

S4末尾(外部), T 8地方

わた・i・1…2(・957)11・・4欄

一36一

(10)

3

いと思う。

この分析は長単位についてであるが,r経験者」という語がα6案内 広告において特徴語であるというような,β単位とはまた別の結果が 得られる。その他,余談だが,G16案内広告に「25歳」が特徴語とな

っているが,これはこの年令が転職あるいは求職が多いことを示して

いないだろうか。

一37一

参照

関連したドキュメント

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか

長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか

式目おいて「清十即ついぜん」は伝統的な流れの中にあり、その ㈲

チューリング機械の原論文 [14]

 

第四次総合特別事業計画の概要.