特集務漢字情報の処理H・H・...・H・...・H・...・H・..…………H・H・...………...・H・-…....・H・-・四四....・H・...・H・...,田中康仁襲警
日本人の姓と名の分布
1
.
姓名カナ漢字変換システムの誕生 昭和47年春頃から漢字について研究をはじめた が,情報処理に漢字を使うとしたらどのようなこ とが問題となるだろうかと当時考えてみた.この とき,そしていまも重要なテーマであるのは漢字 の入力である. そこでこの漢字の入力を少しでも簡単に処理で きる方法を考えてみることにした.一般の事務部 門で、使われるとしたら,いままで処理している請 求書やダイレクトメールなどの宛名,地名が中心 であると考えられる. 地名は全国もれなく集めても 10万件くらいであ り,例々にはっきり定まっているから処理はあま り|村らない.カナ文字の地名から漢字の地名に変 !喚することもそれほど苦労はいらないと考えられ る.地名を分析すると同音の地名はあるが,これ も少し工夫をすることによって区別が行なえるこ とが判明している. しかし人名に関しては調査を行なってみたが統 l汁的処理を施こしたものはなかなか見つからず, あるといえば佐久間英氏の佐久間ランキングと各 名前の推定人 1 -1数があるだけであった.また,こ の推定についても卜分な検定が行なわれたもので も、なかっ 7こ・また各会社で使用しているカナ文字 を,漢字の名前へ変換することは誰も考えつか iな かったような状況であった. さらに調査を行なっているとたまた支東邦計算 センターの役員であるお西隆三氏から,学子守研究 社でカナ文字漢字の変換が可能であると話してい るということを聞いた.さっそく学習研究社の後 1978 年 6 月号 藤榛男氏に会い,その内容を聞いてみた. その原理はむずかしいものではなく,たとえば 「タナカ」に対応して漢字の「田中 J I 田仲 J I多 中」を対応させ, 人聞の介入によって最終的に 「田中j を選択する方法であった.われわれはす べて日動的に変換することを考えていたため,こ のような簡単な発想が出てこなかったので、ある. この方法は人間の介入があるから,従来の漢字 のインプットと変わらないではな L 、かという意見 もあるが,数千の文字の中から 2 , 3 文字選ぶのと 数個の中から l つ選択するのでは大変な労力の差 がある. また,コンピュータの中にファイルされている 顧客情報は膨大な件数であり,これは生きものと 同じで常に変化している.つまり訂正,削除,更 新,新規登録が行なわれているので過去の申込書 とか顧客名簿は参考になってもインプァトの資料 になりえない等という事情がある. そこでわれわれはこの大変興味深い方法を研究 することにした.このちょっとした契機から「姓 名のカナ漢字変換システム」を作成することにな ったのである.2
.
姓名の種類と頻度 原理はわかっても,全国に姓名はいくつある か,それはどのような頻度分布をしているのか, 等の基本的事項はまったくわかっていない.柳田 国男先生が約 8~ 1O万ぐ、らいあると書かれている のはあるが(全集 20巻, p.289) ,これも統計的な 研究を行なって書いたものでなく一つの推測にし かすぎない.全国を網羅し電複して登録していな3
5
7
© 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.i 種 類|総種類附する割合千I 数!総件数附する割合
ァ: l,m
I 4.33% イ 1 , 724! 6.73 ウ 8231 3.21 エ 287 I 1.12 オ 1 , 50唱 5.88 7 行計! 5 , 4臼 2 1. 29 ヵ\ 1,
839I
キ 717' ク 827 ' ケ 96 コ 1 , 082 力行計 4 ,561I
サ 859 I V 1,
442 1 ス 4381 セ 3171 ソ 229 サ行計 3 , 285 タ チ ‘y 7" ト タ行計 ナ 3,
419 13.35 875, 3.41 436 1 1.70 891 0.34 78 ' 0.30 317 1.23 1,795' 7.01 計 ヌ不ノ戸行 ナ ハ 934 3.64 ヒ 692' 2.70 7 771 ' 3.01 へ 52: 0.20 ホ 4391 1.71 ハ行計 2 ,鴎8' 11.28 ..,. 752I 2.93 ミ 914 3.57 ム 291 1.13 メ 43 0.16 モ 438 1.71 マ行;;, 2,438 9.52 672 ' 2.62 207 0.80 446 1.74 1,325 5.17 ア Lf 斗 iJE '¥'1'f十 一フリルレロ ラ行計l
m
2
8
1
54,203 14,957 6,
436 49,
428 152,852 ' 3.88% 7.57 2.08 0.89 6.卯 21.35 % 1Il 0 トー ー一-!)O 11.1 Hりふ 伝 70+
1
'
60H
50 !吃 40 t~ :10 20 10 ・ l河内 1" 数 715 , 8511'1 1'1 山政~'),605 FbqdηGFbO3Fb'And 。ゐワ,ヴ 6 句 4 一。。巧 d 。 04 場 'AFDowdnbn リ qdFORua 告 Qdnuη4 9hnonaFhua 品 ZQuaupb 唱 A'AQM 泊官民 υ 。 onuoυa-nuauQU960uoon ,za 一 nt9bqU9 白 ---一--- 司 4nv'iou' ム nυ 一 a'' ム ounυnυnd-qdtAqdoυ 唱 AAV9d 。 a'AAυ 胃 AQM 一 a 仏宮内 υ 。&門 4 1 1 291 667 1.13札制|
は7
1.13 13,405 1 7.18 2.80 3.23 0.37 4.22 17.81 3.35 5.63 1.71 1.23 0.89 12.83 42.124! 5.88 17,250 ' 2.40 16,530 ! 2.30 415 0.05 30,
151 4.21 肌仰 14.87 40,
556 1 5.66 23,
829 1 3.33 22,
862 ' 3.19 5,799 , 0.81 2,595 ' 0.36 95,
704 ! 13.36 qdoonunU9hMqda 告 a告 a 品τ909 “ヴ 4 一 Fb 司 4 令 dqaQJW 氏 V 一 qd 。白 d 峰。。, AQO 1 自 O 噛 35 一 6$7710 ← 938234 一 639560 93B974 一 028205640319 一 425228 'L9hnwuqdouooqo'A' ム月 tqdFbqdq 白 Aυ'APO'AQU9doU FO2 ・ 4ηd 。 dτAFU9 “ TA9 白 'in4969bEA 氏 U 33,931 1,
665 16,506 52,102 0.06 0.30 0.00 0.03 0.10“別
6 日 ω O ,L.l----~-_ _..1ーよ り 1 , 000 5 ,山)(1 111, UUiI lJ,I!\l1I 川内紋 ~(I, (I[)() ~.), IIL)n ワ ワ行計 調査より除外 したデータ 21,216 2.96合計~ 25 ,ω5
'100. ' 715,
851' 100. 0.52 図 1 姓の頻度分布(第百生命) 順位累計パーセント - 50 27.81 - 100 37.21 - 200 48.40 - 300 55.35 - 500 63.80 - 1000 74.59 - 2000 83.61 - 3000 87.89 ~印00 92.30 - 10000 96.66 -1切00 98.38 -20ωo 99.21 表 2 姓の頻度分布 -250ω 99.91 0.00 0.06 0.00 0.00 0.01 0.09 険に入れないという性質のものではないの で,統計を取っても意味があると判断したか らである. またカナ文字の姓と名を区別するために l 桁のスベースが入っているから姓と名を区別 することが容易にできるという利点もある. ただし,地域別,男女別,年齢別の偏りを除 く処理を行なえばよいのであるがカナ漢 字変換システム」を作成するための判断材料 であるため厳密な調整は省略した. つぎにこの結果を整理したものから個々の 名前を分析してみる. 第百生命ファイル 調査件数:715
,
815
姓の種類 25 , 605 この調査で姓の読み方が25, 605件と割合少ない ことがわかった(表 1 参照).さらにこれを頻度順 に並べて分析すると表 2 の結果が得られた. 表 2 からわかるように約 100個の姓で 37% ,さ らに約丸 000個の姓で92% を占めている.これ以後 1.87 いファイルがないかと探してみたが,結局適当な ものがなかった. そこで,それに近いものとして第百生命と東邦 生命のファイルを借用し,統計的処理を行なって みることにした.生命保険のファイルはほぼ全国を網羅しており,しかも姓名が独特であるから保
頻度上位60の姓(第百生命) 表 3 >
悌一
mm 訓mJmmmmmm2mmmmmMMM
品川4mmmmmmmmmm
率一 000000000000000000000000000000 比 姓 件数 エンドウ 2 , 291 オカグ 2 , 1ω ムラカミ 2,
155 ゴトウ 2,
106 ナカジ<' 2,
083 7 グタ 2,
051 寸クチ 2,048 ヤマシタ 2,040 7 オキ 2,038 コンドウ 1,973 7 ライ 1,
971 カネコ 1,970 タケウチ 1,887 サカモト 1,877 オオタ 1,869 7 エグ 1,779 1 ノ 1 , 761 ナ力/ 1.758 3 ケダ 1,754 ナカガワ 1,
753 スギヤマ 1,685 ウエダ 1,670 タムヲ 1,
660 7 クダ 1,660 7 ジイ 1,659 ミウラ 1,638 オカモ 1 , 637 ニ γ ムラ 1,616 7 スダ 1,596 モリタ 1,588脱出招お鈍おお幻お
mM 叫川制必必必日制必幻同制必閉山田回日“お muωωω > 者 981322769986659665418764443222 匂 552issssJJRASA-ASAAAAAAJ333333333 ネ 111110000000000000000000000000 比 数 mwωmmmHUmmmMmmuumm 山山間関符関節 nMMHHωmmm 引 mcmunm 一 AJa 川 ANJS211137795332207654444333 j a a ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' 一日日 8876665544433333332222222222 一 件 姓 ウキシベカウ ν ウトラウダダキト FE ベラシズダリワトトリイワイ 'ハナヤ l モムモグウカザモガ トズナト l シ 7 サムヤミケガカシ カタ'ハイマカツ 7 ノシ 7 シセ サスタワタイコサヤナカヨヤサ 7 ヤイアキハシイモイヤハオサハイ 順位 123456789muuuuMMMUM 四 mnnnu おお幻 mm 初 頻度上位60 までの姓(第百生命) 表 4 姓 国 野 野 田(武 lll) )11 山 田(植日J) 村r
u
井 i l 1 本 村 fE U首 田(守 前小中竹中杉上回福藤三岡商益森 位一 678901234567890 百MHaaτaaτaeA-RdvRU 民 υRURURυphuphu 民 dRUβb 性 藤 111 上 藤 田 池(菊地〕 下 水 藤 井(荒井) 内[武内) 本 111(大fII) 遠岡村後中藤菊山由日近刻金竹坂太 E E 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 同開 ndqdqdqd 。 dηanJqdnda--4 官 a-a 宅 A ‘ a-1n
:'iji(安心〕 村 山 井 戸草 木 林 市 池 森 石川 l 山\I!?,j 1白木 小 )11 坂井(的井) 長谷川 :{j JI' bで 1 1 1 1 順位 nond 内MUQunυ'iq4na , q 戸、 υnhu 円, amMUAwdAU 旬 Ati'itAqLq&q& 。 L9uqru の 69 白ワ白 ηAqd ~I 佐藤 鈴木 i高橋 渡辺 凹 '1' 伊藤 小林 河藤 山本,
~,付 加必 →J 山 111 1IJ 佐々木 1止本 順位 tA ヮ“ qda 守 Fbnb ヴ 4000udnυ'i ヮ“ qoa 品EFb 1 1 1 1 1 1 ドJ) 111) これ また, l注をあげてみると表 3 のようになる. は性の件数が増えても全体の割合はあまり増加し ないという状況がはっきりつかめる. これをグラ を代去的な漢字の姓であらわしたものが表 4 であ る. 一二 ;]tiì プにあらわしてみると図 1 のようになる. みí~ I':î生命のブァイルだけで、は一般性がないので 累積百分率をグラフにまとめたものである. はなし、かとし、う不安からさらにつぎの東邦生命の ファイルについても同様の調査を行なってみた.3
5
9
カナ文字の姓から漢字への変換は容 易であることがわかる.参考までに頻度上位60 の 1978 年 6 月号 この結果, © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.表 5 殺の頻度分布{予定邦生命) e B a 蛸掛ヰ錦 mmMwm 幻畑町一 mw お帥抑的制 MWMm 泌総刊州問 U 叩開閉副問問叫 WUM 向日制曲目… m品開山叩抑制副総帥∞必泌総幻州問的問怜泌総お叫叩制時間四打開岬削持… u 紛 MWMW 時四国間 j 匂 6 ・・・・・ 1 . . . .
‘
.
.
.
.
.
‘
.
.
.
.
.
.
9 ・・長‘ *'---e---a ・・・・・・・・・・ U35315Q “… 722947342&101 一 412032318816322810281914291 一 4ωOS98so ー… 11 一 1 一ω11F
制鴨…の窓諮問問一懇話相蜘却惜別抑制部一諮問的知山釦榔端部制部一期続出国鶴間一諮問部蹴氾脱却組織一
MmZ
花期一例
,,,,,,,,,,,,,一,,.,,,一,,,,,,,, .s 一一 12128 一21116114j;
一 12一
1114←
13512-i{fmf一
f 日 f…?…川
J99
… r … 税関"一 smmk 守 g … uthW4b 純一生山色同時恒例“ アイウエオ行一カキタケコ行二サシスセソ行…タテツテト行…ナニ氏、不/行ハヒフヘホ行一?、、ムメモいり ω フザルレ口行 アカサタナ一ハマラ …mm
閣制服脳部山町制純一制服…抑制鶴間掛町一組欄制服側側一山抑制端情榔純一糊…納部…出掛別加…剛山間関山山部的制師側却期…削減掛川附制叫…
m
iz “,,書''''''''''''''''''''F,,,,,,,,,,,,,,,,,,,,,!,, .7 , キヂ聖}お川山間開須川町陥開反白川国叩 IHHM 山刊付加別総幻自邸内目指向“お日時制 M 四一間同店制 34 お四四%品開的∞ E 組制国関川田河 mlM叩閉曲一辺告白山部
12 組制 M叩開
A 仏 τ1 ・ F句、、電 A9M 一・ 3A' ム qU9 “一宅 eA q h Mt-率沼邸内
MM 叩幻叫 W 一川出品相同時 MW 納部抑制 mm 必おおお約一日 ω日制抑制収 mwm 拙wmm 路線路間科目抽出 WHHMwm 批叩 Mm 開ω 日山川刷符山尚一“おおげ∞ MW ∞ Mwm 出 ωηη E 一 ::0 ・一'・:・・ ::---e ・:・::・・・‘:舗・:-:・:・・:・:・・・・ 1 … 472072 叩 522G45P833904782401141 症の wO7313al 喜一 3310vlQd492708S88811 山 U 。のヌ μ司 ω-zaRd ‘, AM 守 E4 句54 い 色一刻 i m 東邦生命ファイル 調査件数 :2, 647, 011 姓の穏類 40, 499 アイウニ弘:;t lf民の統計は楽器のようになる.調査 件数が増加したため姓の種類は多くなっているが3
6
0
li 凡)1 、 UGI 鑛O ;::7廿 ~lÌ 60 );"'1'S
O
2
4
(
)
I
A1jftiFi;糸川町111'1
t叫川{けI~ 11'釧t の 岩数"ω(什1 , .1灼t甘} 三tけ} III 01
() 1,
000 約 、'j 支え 図 2 燃の要員度分コtiT {東邦生命) 袋詰姓の頻度分布 (東邦生命) (注) 被保険者と契約'1告の l'可:々を調授に加えている ためp これらが!flJ…殺で あることが多いため偶数 が多くなり,奇数が少な くなる. tll 漢字ド数 10 ,00告以上 5.総告~吉,号車9 1 ,00号-4 , 999 500-9ω 必0- 499 300- 399 200- 299 100- 19990-
宮古 80- 89 70- 79 60- 69 50- 59 40- 49 30- 39 20- 29 I告 19 告 8 7 8 5 4 2 1 山市中会傘 数 3834657234685552984774731 E47967413724342 な SQ25788 合 8 590QV719 “ d ‘ 1 命つお ndqds 句"ゐ勾 41 ‘ QM 蜘 b ドむを d 氏 vzanwu れ湾内 dRU G-,,,,,,,,,
事よ 2A1AOO'a 品。 hMno'aaoo eドド今 - u u h 全体的な割合は第 i~f生命の姓の分布とほぼ間様で ある.さらに,これをど累積百分率でグラフを作成 すると留 2 のようになる.この関と第百生命のlZi 2こを主主ねあわせてみるとほぼ一致することがわか る.つまり調査件数が増加しでも,全体の傾向は 変わらず,珍しい姓の穏類が増えただけだという ことになる. これを出現頻度織の表tこすると還を事のようにな るーこれからみてもえ 000から 10,∞0の殺のよび ガでほぼ全体を網縦していることがわかる. 参考までに頻麗60佼までのカナ文字の姓(表的 じ漢字になおした姓{事疑事)をあげておく.この表 7 頻度上位60 までの姓(東邦生命) 順位姑 件数 l 順位姓 件数 1 サトウ 54,689 31 オオタ 7,967 2 スズキ 4必2 , 1凶63 3匁2 I ミウラ 7 ,点訓81店5 3 ,タ力ノハ、シ 36 , 045 33i オカタダ 7 , 738 4 I イ トウ I 28 ,釘仰0 3u4( ムラカミ 7 ,7ね31 5 ワタ付ナベ! 2ω 7,564 7,352 7.231 7,146 7,056 7
,
044 6,
859 6,840 6,794 6,744 6,709 6,561 6,447 6,289 6,257 6,149 6,097 6,006 5,
968 5,943 5,911 5,838 5,701 5,637 5,480 6 サイトウ 27,603 36 ハセカ'ワ 7 タナカ 25,825 iI37 ナカジマ 8 コ/<ヤシ 22,393 "38 サカイ 9 ササキ 札問, 39 クドウ 10 ヤ 7 モト 19,709 40サカモト 111 ナカムラ 18,873 ', 41 "?エダ 18,376 42 1 ォ / 13 ヨシタ事 18,346 '43 アオキ 14I ア J\、 16,330 44 ヤ 7 シタ 15!ヤマダ 15,176 '45 カネコ 161 キムラ 11,195 , 46 コンドウ 17I "?ツモト 11,9511l clF ケダ l 18 イノウエ 11 , 762 ト 48 ;アライ 19 ヤ 7 グチ 11,585 49 ナカノ 20 ハヤ γ 10,911 50 マツダ ワチ一フタパ カウ lA ,、 カケ dJ ナタタシチ 1 2 3 4 5 RdRUFORd 弐 U AUdoγunhUA 日unud 2 3 3 0 1 aqq , UAUQdFD ,,.,,, nυAUVAOnwdnV 1 1 1 チトリズウ EVι ク υl 、、、ン キハモシエ 1A 内 4qda4phU 9 白内 4 。 LqGqG 26I イケダ 9 ,必4 , 56 ウエダ 27 ヤ 7 サ持キ 8 , ω5 57'フジイ 28 ゴトウ 8,595 , 58' ニシムラ i 29I イシカワ 8,315 ω オカモト 支を第百生命の表と見くらべてみると, r サトウ」 「スズキ J r タカハシ j までは同じ順位であるが, それ以後はかなりのくい違いがある.しかし,そ れも上下数位にずれがあるだけで,あまり大きな 変動はない. これだけの調査で姓の数を推定することは不充 分なので別に 623件の名前を調査し,同音異字の 姓の発生頻度を調査してみた.これによると一つ のよび方について約1. 7個の異なった姓があるこ とがわかる.東邦生命のカナ姓の件数 4 万件と掛 け合わせると 68, 000件ということになる.このこ とからみてどんなに少なくみても全国には 6 万以 l二の姓があるといって間違いない. 実際には日本人の姓を集めてみると約 13万種類 の姓があった.単純な推定と実際の聞には 2 倍の くい違いがある. これはカナ姓のデータが人口 1978 年 6 月号 表 8 頻度上位60 までの姓(東邦生命) 順位 姓 順位 l 姓 1 佐 11 31 太 mC大同〕 2 車合 木 32i 三浦 J司 4高 |33l 岡田 4 伊 藤 34 村上 波 辺 35 藤田 6 1守 目長 36I 長谷川 7 田 37 中 8 4ト 38 坂 チド(酒井) 9 佐々木 39 エ 正義 10 JlJ 木 40 坂 本 11'
P
キJ 41 市J 同 12 加 E長 42 野 13 ゴ口プ 田 43 1!鱈3 木 14 ~"J 部(安倍〉 44 ~l 15 ~l 山 45 金 子 16 木 村 46 近 藤 17 松 本 47 1'I 田(武田〕 18 ヲド 上 48 新 井(荒井) 19 山 [J 49 ド 野 20 林 50 111 21 菊 池〔菊地) 51 )11 22 I~ 本 52 1'1 内(武内〕 231 森 53 国 村 24!清 7k 54 柴 国(芝臼) 25i 遠 iÎI~ 55 千 葉 26 池 lJl 56 上 田(植日) 27 JIJ 崎 57 藤 チド 28 後 jJ'長 58 西 村 29 石 )11 59 福 国 30 )11 ω| 岡 本 l 1 億人全部を網羅したものでないし,同音異字の デ-,$(規模ヵ:小さかったことによるものと思われ る.参考までに同音異字の姓の頻度表を掲げてお く. (図 3) 200 -皮 150 卜 │ 数 100l 50 図 3 同音異字の姓の発生頻度3
6
1
© 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.|男女
!
名前の数
%名前の数
計 アイウエオ行カキクケコ ア 力行計 サ 二ノ < -lz ソ 「 i 長r" 三両 「仔一タチツ一アト「汀 サタ ナ ヌ ネ ノ ナ行計 ハヒブ へ ハ行言 i て7 、 、 ムメモ マ行 Gi べ' 二工 ヨ 「 時言" 戸打リ ep A i h ラリルレロ ラ行計 ワ ワ行言 408 2.05 554 2.78 194 0.97 253 1.27 マ:
9
i
1,
593 8.01 4 6 1 0 6 7 3 3 7 6 4 4 9 b q 6 7 & n t n U F O n d q o a u q o n4AURUOO内O唱i -ュ a4aA 苛旬 i唱in,“,n 官 1 4 官巧 t向。a宅・iQd 5 0 1 6 7 0 0 0 n n q u q d a G R U , n L AHvnHU内ud,aτnMdV 6 2 2 6 4 1 3 1 。 09 “ a 浩司 24 ・ P O F D F D Q E V•••••
内KHPO唱ムマAAU A-Amv 円 dnδ 円 d q t u n v n u n u d a u Fhun,“ηJqd唱i ー 2,
719 13.67 n 同dpnvoudAHvnudkυ nunU 巧 dean4no -ュ aaτη'U唱i'i44aA 哩 l qG1&勾4AリqoqO 9 1 5 0 5 1 034 生 qoqdnonv,
n ' u 的出閉山刊品目 mH 比一鈎剖お釘 M山柏崎町制川町民幻 ωUM 回目叫 ω 同開初日叫ロ防相拍 qU9hη'一ndHhdAUτ'ApbFbFO唱A92HFhuの49GRdAund ,,, 1 1 1 471 2.63 79 0.39 79 0.39 男女 ~IJ 計 15,
421 77.53 合 計 名目íJ の数 qoooco 巧'a告の汐nbqbaaT9“9doono'L開。000600 同 30091V ヴdAυqaaooooU 84nvnυ45aU914567771η3744 士 U2唱止。,oυqL1••••••••••••••••••••••••.•
'inυAUAυτAqu 咽A049白AυAUη,。,白内40UAU'And-A'AηLEUAU 官 Anuoυnリ 125 151 52 88 101 517 qzu一aaτnoq'U 円dnUQd1 ・ q6FD 噌AaA宮内3ηruqO内400qopO句。Fbqan4qδponδsaτaAτ唱Aヮ“作品。。,i4・勾δ一必仏τaaτ qL一nGoonoGV唱A1 畠噌 AqrUFOAHvnJ白F0・4quFhdpoaATqaq,UFhυ唱iQunoq。1企唱inMU 旬inLqO一qoqu 7211qLOO1η61114125131 %件数 0.62 0.75 0.26 0.44 O. 切 2.ω 15,
915 13,
728 930 6,
693 2,
782 40,
048 男 11.01 お町出川叫 mm ∞ mmuωωM 叩mω 日目白出 mwn 川山口出初削叫 mm 山川山川山 m出 mmwMW •••••••••••• , •••••••••• ・・ e U 0 0 0 0 2 2 1 6 1 0 0 8 5 3 0 0 0 9 1 2 4 8 0 0 0 0 0 女 % 件数 % 2.27 1.96 0.13 0.95 0.39 5.71 7,206 2 ,似8 812 5.248 191 16,
105 9,461 12,824 2,
113 3,
825 976 29,
199 内'und'AaaTn4のUFhuqdAUaa宮町、undaaτa400qophυPO Aυ内。,Ebn,aAυ。onoooqOFD唱A唱inυ胃目zoaa ヲ nυ。&•••••••••••••.••••
14Aυnunvのυ9&tA 司 AOυnυova告唱i'AOυnunuqd 100.0 1.17 34,478 4.96 1.63 19.166 2.73 0.35 6,229 0.88 O. 初 16.871 2.40 0.73 14 ,的5 2.08 3.75 91 ,制 13.04 0.80 12.791 1.82 1.60 46,
324 6.61 0.64 5.919 0.74 0.32 10,
349 1.47 0.24 1,
759 0.25 3.63 77,142 nMUazo--唱iO4 AU句。oanoQURd qonυRuntFnv内角υ ,,,,,. p h u a a T o o n w d n 4 0 v a 4 q O A H V l n4句。noqophu 旬i 1 9 6 3 0 1••••••
唱AAUAUnυ 噌 Aaaτ Fhυ 旬An'u'in,U内414nhu--nδPOQd唱i内dpo'ipnvQdnhuのLntGUGu'AFOAMV9u pb'Anυnυ9duAuauη'η4nυ胃Aq'旬。。qG唱A胃Aq6FbA“J-auFb一AUS喝のυτAAυ ---一 ... ,. 0unυnυovou'AnυnunuounυηLnυ胃ムovounU9 ム MAunυnu胃A一nυnυnυoυAU 。,uam 官 08000o'inonUAυEORU ヴdpbqoti内dnvFU UM 却 14ω お一 mm 岬 mMmnnmMM 泊四犯 m 田町 '''一,,,,,,.,, qda宮。。。。。&勾'n 匂市北 1ι,A9d 弓 t 1 1 4 5 4 2 6 11,531 14,132 33,
372 59,
035 36 6,448 37 526 388 7,
324 8,
032 4,085 3,061 358 ω 0 6 2 。,“ ηd司,.。600au pnvFb。,uqUFO ----ュ aa宮内υ 旬i 咽ian 守 1 4 5 8 3 n v Q v n o n o p o•••••
0 0 0 0 1 内603nU06nd7・ 1 3 7 2 1 6 a宅auaaτn'S宅GU ,,,,,, auau。白。G'inu 1 2 4.23 お mm 一一出 m出削別 mm 四m 旧日州出 ωWMwmmm 引回加川駒田山一則前副似 Mmuωω ---一 . . . . . . . . 0unυAυoυnυAunu'AAυnυnuqo'496nυAunυ4告AUAυ14n4AUnυnUAUnUAUAUAυ 河川崎町叫 l 白田川崎 m四回鈎口組叩 MM 印刷叫 U お mmuuH 切削目印%釘 Mmm 叫 M四一乃乃 qonURUFOAUQν 円40υphυphd内4 ワ aAHVAHVAHvnvovaoqUFOAリ一9un4 ,,,,,,,,,,,,,,,,, A 品 znbFbnanoτA03ηdQ042003AutA'Ad宅 2 1 2 2 19,879 p o a 宅 -E u n ,“ 自問 5,
O 6 n t I F h u aaτ -a -a T 円 d q o q d ρ。 , I n ' u F h u 目 。。•
。, u 内 4 0 6 F h u daτ,
daτ 0.66 7,435 1.06 0.17 779 0.11 0.17 779 0.11 判数 7ω , 201件 100.03
.
名前の種類と頻度 さらに名前について同様の統計を行なった.名 前は世襲のものでなく個人にとって l 代かぎりの ものであるから膨大な種類があるだろうと想像し ていた.しかし統計を取って調べてみると,この 予想はみごとにはずれてしまった.表 10 名前の頻度分布 』民 位 累計(%) 切 27.82 100 40.56 - 200 54.37 ~ぬO 61. ω - 500 70.78 - 1
,
000 81.34 - 1,
500 86.43 - 2,
000 89.48 - 3,
000 92.98 -4 , 0ωl 94.89 - 5,
000 96.06 -10,
000 98.47 -15,
000 99.32 -19,
885 100.00 第百生命ファイル 調査件数: 700,
201 名前の種類 19 , 879 名前の種類は姓の種類よりも少ないのである. つぎにアイウエオ順,男女別に整備した表9 を示 す.この表からわかるように生命保険のファイル は男性が多く女性が少ないため補正を行なって比 較をしなければならない.さらに頻度順に名古íj を 並べ名前の累積百分率を作成すると表10 になる. 約 3 , 000の名前で93% , 10 , 000で98% になる.親たち は子供に立派になってほしいと知恵をしぼるにも かかわらず,名にも姓以上の片寄りがあり,代表的 名前でかなりの部分を占めていることがわかる. さらにこれをグラフにあらわしてみると図 4 の ようになる.このグラフを姓のグラフと比較して みると名前のグラフのほうがカーブが急であるこ とがわかる.東邦生命のファイルについて行なっ てみたが結果はほぼ同じものであった. 1",前を実際に集めてみると約 15万種類あった, まだ未整理のデータが 15万件程度あるので約30万 近くになる予定である.名前の同音異名の発生頻 度は平均 10件程度と思われる. 以上紹介してきた統計からわれわれの研究の第 1 段階として日本人の姓名についてカナ文字→漢 字変換はかなり規則的に行なえることがわかる. しかしこれまでの研究はカナ漢字変換システムの 実用化までの約 1 割程度のものである. 1978 年 6 月号 % 100 : 10 20 10 l刈削T 数 700 , 201 ?'"i;j の数 19,RR3 01ー上一一一一一」 ー"---' 一一」 o 1,
000 5 , 00け 11) , 000 15,
000 20,
1100 ずtlìíj の数 図 4 名前の頻度分布(第百生命)4
.
姓名力ナ漢字変換システムの実用化 つぎに「姓名カナ漢字変換システム」実用化ま でを簡単に述べてみる(図 5).
第 2 段階として考えなければならないことはデ ータの収集と整理である.これは大変な忍耐のい る作業である.さらに大変な作業は漢字システム へ入力されたデータの校正である. 第 3 段階として問題になることは同音異字の姓 や名前を使いやすくするため,これらの中で使用 頻度の高い順序に整えることである. 25万人の名 の頻度を調べたものを紹介しよう.たとえば「ア キオ J を取りあげてみると, 順位読み漢字頻度 順位読み漢字頻度 アキオ昭夫 193 17 アキオ明生 8 2 秋雄 125 18 章郎 6 3 昭男 105 19 晃雄 5 4 秋男 95 20 彰雄 5 5 明夫 89 21 明郎 4 6 昭雄 88 22 暁雄 3 7 秋夫 76 23 旭男 3 B 明男 70 24 顕雄 3 9 明雄 40 25 晃男 3 10 章夫 22 26 秋郎 3 11 章雄 16 27 昌夫 3 12 章男 14 28 晃生 2 13 昭生 13 29 昭夫 2 14 秋生 12 30 品夫 2 15 昭郎 11 31 章生 2 16 彰男 8 32 明郎 2 363 © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.",
ii語品副
頻度 l 件のものを並べてみるとつぎのようにな る. 安起郎,安喜男,安喜夫,障雄,暁生,暁男,焼失, 顕男,顕夫,顕郎,晃夫,晃郎,時男,陥郎,秋尾, 穐雄,昭大,昭尾,昭朗,照夫,昌雄,品男,晶雄, 彰百,彰郎,彰朗, 1章夫,楕男,旦夫,哲男,哲郎, 斌夫,斌郎,明応,窃夫,:纏雄,亮男,亮夫,朗男, 朗夫,朗雄(l件のもの 41 件) のようになる. 同ーの発音を取りあげてみてもこのように片寄 りがあることは興味のあることである.第 4 段階の問題点はこの変換方式を実際に試行
し多くの人々を説得し,しかも直接入力方式より
も安く,早く,正確に,取り扱いやすくできるこ とを示すことである. さらにこの方式で行なうユーザ、を見つけること であった.このような説得と宣伝がこのシステム をつくる最大の仕事であり,分析作業,実際のシ ステム作りは大きな問題ではなかった・ 第 5 段階としてはシステム開発,変換精度の向 顧客コ l配一
在一
一 ω
一亡一
性 守 Yムラ めー一一一一ー ムー→ー 21 一一一← :? 26 一一一ー一一一一一一一一 名 ヒ刊 ー !こ,効率よいシステム改良である.この方式が役 立っとわかるとはじめは変換率がせいぜい 80-90 %であれば充分といっていた人がもっと精度を一1
-
.
げるように要求してくるものである.このような 人たちの要求,心理的変化にも気を配らなければ ならない.しかも, 80-90% から 95-98% へ性能 を上げるにはいままでに使った労力とほぼ同じ程 度の努力をしなければならないのである. われわれの変換精度はつぎのとおりである.マスタ{件数 l 変換率!用紙に表示する件数
姓 名 13万件 30万件98%
90~95% 5 l'牛 15件 変換に使う用紙に表示できる件数に制限がある ためこれ以上の変換率は用紙の表示件数を変える 等の方法をとらなければならないであろう. このように姓名について,いろいろな観点から 調査を行なってみると,おもしろい結果が得られ る.今後は男女の名の統計を年代別にとって時代 No 脳血主15~一一EHιmι
オベレーションズ・リサ{チ © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.的特徴があるかなし、か調べたり,姓の地域的分布 を調べたりしていきたいと思う. 同時に姓名についてのより詳細な研究がなされ ていくことを期待したい.姓名の研究といえば民 族的研究や占いの対象としての研究しかなかった が,数量的に取り扱うことにより科学の分野への 道を聞くことができる. 最後に,この研究について支援してくださった 同立国語研究所林大所長,またファイルを提供し てくださった第百生命,東邦生命の方々に深く感 謝したい.また, OR に興味をもたれる方々が 見なんでもないと思われている事柄を調査・研究 し新しい分野を進まれることを期待-する. ーー. 参考文献 IB 中康仁, 1'1本人の姓と名に使われる漢字 日本ユユバック(株),姓・名に使われる漢寸t 昭和 51 年 10月. たなか・やすひと 1939年生 1962年岡山大学教育学部卒数学専攻 1962年 日本ユニパック入社 最近の仕事,漢字システムの研究・開発 1111111111111 ノォーフム 111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111 川\1 1111111111111111111111111111111111111111111111111111111 ・
数理パズルを楽しもう (8)
問題半径が異なる 3 つの円 A , B, C を図のよう にかき,円 A と円 B ,円 A と円 C ,円 B と円 C のそ れぞれについて,共通外接線の交j去を求めま L た. すると 3 つの交 点はピタリと一前 線上にのっている ようです.偶然で はないようなので その理由のうまい 説明を考えてみて ノン くださし\メ
〔日月号( 337 ページ)の解答] 一般に 7 で割った ときの余りを a , 11 で割ったときの余りを b , 13で割っ たときの余りを c とし, n =715 a +364b +924 c を計算する.この n を 1001 で割った余りが,花子さんの 考えた数である. 5 月号の出題では a=3 , b=2, c=1 であるから, n =3797 となり,花子さんの考えた 数は 794 となる.つまり, タネになる 3 つの数は, 715 と 364 と 924 だったのである. この理由は,以下のようである 7 , 11, 13はすべて 素数であるから,もちろん:互いに素である.よって,た とえば 7 については, 143u 十 7v=l. (143=IIXI3) を満たす整数 u. v の組が存在する u の最小の正整数 ば 5 で. 143 に 5 を掛けた数が 715 である.この作り方 から, 715 を 7 で割ると l が余り, 11 と 13 で割ると割り 切れる 同様にして. 364 は 11 で割ると l が余り 7 と 13では割り切れる数, 924 は 13 で割ると l が余り 7 と 11 では割り切れる数である. 7 x 11 x 13= 1001 であるか ら. n=715a+364b+924c を 1001 で、割った余りが求 める数となるのである. なお,この種の数当て遊戯は百五減算といって,その 発祥は東洋にあるとされていた (1 J.ところが,筆者の 調査によると,それより古い西洋の数学書 (2J に,すで に同種の問題が紹介されていた. (IJ 平山諦,東西数学物語,恒泉社, 1973.[2J Bachet de Meziriac
,
C. G.,
Probl鑪es plaisants et délectables, 1612, (Albert Blanchard 宇土から, 1959年に複刻版が 111 ている).(中村義作信州大学工学部) l川川"川川?川川川"川川"川川l川川川"川川l川川川"川l川川"川』川』日川川t川川"川"川川川"川"川川"川川"川川"川"川"川川l川山川"川川I川川川"川川t川川川"川川l川川川"川川I川川"川E川川"川川"川川1川川川"川"川"川川l川川川1口川川f川川川"川川"川l川川川"川川"川『川川"川"川川l川川川"川川"川"川川"川川"川川"川川"川川I日川川l川川川"川川l川川川"川川"川1川川川"川川l川川川"川川』川川川1日川川"川川"川川"川l川川"川I川'川l川川"川"川川"川"川l川川川"川川"川川1口川川『川川川"川川I川川川"川川I川川"川川1川川川"川川"川"川l川川"山"川川"川川『日川1川山川"川川t川川"川山1川川川"川川"川川"川川『川川l川川川"川川l川川川"川川I川川"川川"川l川川1円川『川川川"川川"川1“川"川l川山川"川川I川川川"川川"川川"川川"川川"川川"川川l川川川"川川I川川"川川"川川"川川I川川l川川川"川川"川川"川川'川川l川川川自H川川1日川川【日川川l川川川"川川"川川1口川川t日川川I日川川"川l川川川"川川I川川"川川"川l川1川川l川川"川川"川川"川川t川川"川川"川川"川"川f刊川川"川川I川川川t“川川"川川"川川『川川川"川『川, FORUM..川山1“山'"川川1日川1川"川"川}川川川"山山"川1川川"川"山I川川l川川"川川l川l川川"川"川"川