2．2．方言データベースを用いた計量的研究

(1)

第2章データベースを用いた計量的方言研究の概観

本研究は，日本語における共通語化について，『方言文法全国地図（GAJ）』のデータを用いて計量的に分析することを主眼としている．本章では，方言の計量的研究において，方言資料のデータベース化に関する研究と，データベースを用いた計量的研究について概説する．

2．1．方言データベースの意義

2．1．1．方言データベース

三井・井上（2007）は，方言資料のデータベースを，

1．音声 2．語形式

3．文表現（文単位）

4．談話

5．民話・昔話集

の5つに分類し，それぞれの資料について紹介している．GAJやLAJに代表される一般的な方言調査におけるデータは，語形式のデータベースに分類される．本研究においてデータベースに言及する際には，語形式のデータベースを指す．

半沢（2007）は，計量的研究という視点から見た場合，方言データは測定水準が低く，

統計技法に制約がある，と述べている．実際に得られた談話資料などから語彙や文法形式を計量的に分析しようとすると，助詞や文末表現を除いては，総発話量に対する出現頻度が低くなってしまう．そのため，調査で得られた語形は「言う」「言わない」

の2値の名義尺度データ，もしくは，「よく言う」「たまに言う」「言わない」といった順序尺度データでしかない．さらにそれも観察によるものではない，内省に基づく意識データでしかなく，実際の使用との乖離がある．この点は，方言調査データを取り扱う前提として注意しなければならない．

方言データベースを用いた計量研究は，現状ではまだ少ない．計量的研究をおこな 19

(2)

うためには，均一で大量のデータが必要となる．研究者が自分の調査データを電子化し分析する，ということはあるが，規模の点では限界がある．また，電子化された既存のデータのうち，自由に利用可能な大規模データはGAJしか存在しない．そのために研究が少ない，ということもあるだろう．

データベースを用いた研究は，調査研究とは異なる側面を持っている．調査研究は，

データの提示そのものにも価値がある．新しい発見は目に見えてわかりやすく，データも調査者が話者から聞き取った成果である．それに対して，データベースを用いた分析では，分析者はすでにあるデータを利用するだけである．計量的分析の場合，個々の地図を吟味する分析とは異なり，言語データは数値的に処理されてしまい，個が見

えない．

しかし，データベースを用いた研究は，同じデ・一・一タに対して複数の研究者による異なった角度からの研究を可能にする．得ようとする目的によって，計算手法が変わることによって，それまで手法では見えなかったことが分かることもある．

2．1．2．方言資料のデータベース化

今日では，計量的分析はコンピュータの利用が一般的である．そのため資料はコンピュータによって利用可能な状態になっていなければならない．技術的な発達に伴っ

て，データベー・一一・・ス化も進展しているといえるだろう．

日本における全国規模の言語地図としては，『日本言語地図（LAJ）』と『方言文法全国地図（GAJ）』の2種類がある．このうちGAJについては，刊行中から既刊分の電子デ

s−・一・一・ ^を順次公開しており，生データに近いレベル8での入手が可能である．

一方LAJについては，過去に第3集の45項目がデータベース化されている．しか

8このデータは調査票から転記したカードを元に作成している．調査票では，調査者ごとに使用する発音記号が異なっており，表記を統一している電子化データのほうが資料としては扱いやすい面がある．その反面，カードへの転記ミスや統合ミスなどにっいては，このデータからはわからない点は注意する必要がある．

20

(3)

し，その後，国立国語研究所によって，あらためて全情報9のデータベース化が進められている．データベースは，作業を終了した項目より順次公開し，2009年度中には完成する予定である（熊谷2007）．すでに一部のデータが公開されている10．

1990年代以降，個人のコンピュータによる言語地図の作成が可能になると，個人の方言調査のデータも電子化さるようになった．コンピュータによる言語地図の作成については，岸江（2007）によって詳細にまとめられている．

方言調査デー・…タの電子化や，データベースソフトの活用等については，古くからなされてきたが，データの共有化に関する議論はあまり進んでいなかった．共有化の議論がなされるのはインタv・・一…ネットが普及した1990年代の終わり頃からであろう．インターネットは閲覧場所に制限がないため，それまでの物理的な記憶媒体の束縛から解放され，データの移動が容易になったといえる．

方言データベ・・1一一一スの必要性については，ロング（1999）は，当時インターネットで公

開されている各種の方言データベースを紹介し，方言研究におけるデータベース整備の必要性を訴えている．また，福嶋（2004）も海外のデータベースを紹介している．

日本においても，大西（2002）がrJdnet構想」として，データベースのフォーマットのみならず，データ収集から公開までの具体的な方法を提案し11，情報共有化の基 1盤整備の必要性を示している．さらに濱中・竹林（2007）は，言語地図作成の工程をインターネットの共同作業でおこなうHOUGEN． jpというシステムを開発12しているほか，

岩田（2007）は，中国大陸における言語地図の作成のために，デs−・一・・タフォーマットとし

てXMLを採用し，インターネットを介して入力データを共有するPHD Systemというシステムを作成した．

さらに地理学における「地理情報システム」（GIS；Geographic lnformation System）

9調査票は調査者が個人で保管しているため，カード情報のすべて，ということになる．

10http：／／www5． kokken． go． jp／dash4／lajdb／lajdb＿kokai．htmlにて公開開始．また解像度は低いが画像データがhttp：／／www5． kokken． go． jp／dash4／laj』ap』ain． html にて公開されている．

ll 2007年11月より国立国語研究所にて実験を開始している．プログラム作成は鑓水が担当し，

電子メールによるアンケート収集の自動化を目指している．

12開発は竹林暁による．

21

(4)

の発達に伴って，方言資料も地理的データとしてGISを用いて研究しようとする動きがある（松丸2003，鳥谷2003，大西2004，大西2007．12，中井2005など）．また，過去のデータの計量的分析を進めるため，鳥谷（2006）や鑓水（2007．11）は，既存の方言調査データを電子化するための研究をおこなっている．

こうしたデータベース構築に関する研究は，この数年間で飛躍的に進展したといえる．その中で，GAJのデータベースは，データ公開方式は， Web上にエクセル形式での配布というシンプルなものではあるが，807地点350項目という膨大な情報がインターネットでダウンロード可能になっていることは，非常に貴重であるといえる．

2．2．方言データベースを用いた計量的研究

これまでの計量的研究をまとめたものとしては，井上（2001）や半沢（2007）などがある．日本において，言語調査データの計量的研究を主導してきたのは国立国語研究所である．国家機関という性質上，大規模な調査を実施しやすく，統計処理に適した分析が可能であったことから，鶴岡での共通語化調査である国立国語研究所（1953）をは

じめ，50年以上前から計量的な分析をおこなってきた．

本章では，方言調査データの計量的研究という観点から，関係のある分析について取り上げ，解説する．

2．2．2．上野勇によるパーセント集計

方言データを量的に処理しようと試みた先駆としては，上野（1941）による地域別パーセント集計がある．

上野は，1939年から1941年にかけて，群馬県南部（一部栃木県も含む）の小学校と高等小学校において，方言形に関するアンケート調査を実施した．その結果は，地区ごとに集計され，2種類の図化がおこなわれている．

図2−1はパーセント集計で，語形の使用率を○●の記号を10％単位で市町村ごとに 22

(5)

示したものである．パーセント集計自体は，当時から新しいものではないが，地図上へのプロットを試みるなど，表示方法に独創性がみられる．

利濠＼一巴二

／〆一冨

……摺

鐵．芳大888°柏

w甫鰯桂・・

＼

ぷノノi

：：8♂ブ薦㌧ノ

田

滅竃㌶／蹴麟專山9㊧，

t・i，iii 瓢

玉埼燭㌧＼樂邑

図2−1・上野（1941）による「あやとり」の分布

23

(6)

表布分言方りとやあ

●

桐生市

、、

梅田村

＼、

川内村

．

稿岡村大間々町

已相生村一毛里田村

●

笠懸村

一

蔽塚本町

一

彊戸村 1＆

境町 9艮

11川

赤堀村東 b村

戸

妥女村殖蓮村剛志村 4s

豊受村

？

n

1ー

名和村

●

茂呂村杜㍑18

伊勢埼町 q81

11

三郷村

、

ー8

東村

、、〜

黒保根村 A、

新里村 t〜人

粕川村

1

宮城村

6

大胡町互、

、

桂萱村荒砥村

・

1い⇔

芳賀村富士見村 1

南橘村

／

前橋市

90

80

@ m

60

40

30

20

@ 10

O

図2−2・上野（1941）による折れ線グラフによる表現

もうひとつの図2−2は，地点を一列に配置し，語形の割合を折れ線グラフで表したものである．上野は，

地名の配列は，鉄道・街道に沿ふか，河筋に沿ふか，或は旧藩時代の区画によるか種々考へたが，結局市，郡毎に纏め，東から西へ略々順に配列し，分布図と同一の効果を挙げたいと思っ

た．

と述べており（漢字は筆者が新字体に改めた），地点配列に関する考えも持っていたこ

とがわかる．

このように分析に適した表示方法の追究は，上野（1941）の東條操の序文において，

しかし，本書の最も大きな貢献は，後半の方言の分布相を図示するために工夫された新方法の提示である．即ち一事物にっいて一地方に数種類の土語が併用されているゐる場合，これを図上に明示する事は中々むつかしい仕事である．況や，その土語間の勢力の消長をも同時に表はさうとすると困難は一層倍加する，内外の言語分布図にもかSる試みであまり成功したものを見ない．上野君の独創は百分率を表はす記号とグラフを利用することによつて物の美事にこの難問題を解決したのである，この工夫は今後の言語分布図制作に一つの新しき出発点を示すものである．

と2つの図法について称賛されている．上野の研究は，直接は受け継がれていないも

24

(7)

のの，井上史雄による一連のグラフ表示法の研究の元祖ともいえるべきものであろう．

また，上野は本文に全ての数値データも表形式で示しており，数値によるデータ公開といえるだろう．このデータの値を入力し，電子化をおこなうことによってデータの再処理が期待できる．

2．2．3．「ネットワーク法」とLAJデータベース

1970年代以降，大学における大型計算機の導入が進み，それまでのカード分類による単純集計から，複雑な計算による研究が可能となった．

計算機を利用した計量的分析の代表的なものに，柴田武と熊谷康雄による「ネットワーク法」の研究がある．ネットワーク法は，地点同士の類似度を測る方法として，

柴田・熊谷（1985）によって開発された．地点間の一致数を計算するn法と，各地点との一致パターン同士を距離計算する「d法」が開発された．地点間の類似度が一定以上でかつ地理的に連続している場合に「区画」として処理できる．これはGOEBL（1993）

などにみられる方言区画法の一種といえる．

また，この時期，方言データベースの作成も始まり，1980年代後半に，『日本言語地図（LAJ）』第3集の45項目が電子データ化された．沢木（1988）はこのデータを用いて，1地点しか使用者のいない「孤例」の分析という，数量的分析ならではの切り口を示した．各方言形の回答地点数の集計は単純であるとはいえ，カードによる集計とは比べ物にならない速度で処理をすることができる利点を活かした研究といえる．

熊谷（1996）は，このLAJ第3集データに前述の「ネットワーク法」を適用し，日本地図の区画を試みた．これにより方言区画論的に位置づけにくかった中部地方の方言的位置関係が，計算によって客観的に示された．図2−3はネットワーク法の結果出力

例である．

このLAJ第3集のデータベースはこのように大きな成果をあげているにもかかわらず，一般公開されておらず，現在公開されつつあるLAJデータベースとも互換がない 25

(8)

状態である．

LAJの計量的研究としては，1970〜1980年代には市井外喜子による相関係数による研究がある（市井1993）．都道府県単位・地域ブロック単位で，一定項目における語形一致を計算し，相関係数を求めることで，方言境界について分析したものである．しかし，LAJには公開されたデータベースが存在しなかったため，集計は手作業でおこなわれたと思われる．前述のLAJ第3集のデ・一・・タベースが活用されていれば，さらに研究の進展がなされたであろう．

このように，データベースを用いた研究の利点は，多くの研究者が同じデータを異なる視点から研究できることにある．また，同じ視点であってもデータベ・一一・・スが公開されていれば研究の追試・検証を可能にする．データの公開は研究の進展と意味でも重要である．

図2−3・日本言語地図第3集データへのネットワーク法の適用例（熊谷2002）

26

(9)

22．4．井上史雄による計量研究

本節では，井上史雄による計量研究のうち「河西データ」と『表現法の全国的調査研究』を用いたLAJ及びGAJ準備調査の研究を概観する．同時に，本研究であるGAJ

の計量的研究の意義について考える．

2．2．4．1．「河西データ」

井上は，1970年代から自身の調査データを電子化し，大型計算機を用いた計量的研究法に取り組んでいる．林知己夫によって開発された「数量化理論第3類」（以下，数量化3類）を駆使し，地域差・年齢差のパターンを探ってきた．

1974年のLAJの刊行完了に前後して言語地理学的調査は全盛期となった． LAJと同一の項目を調査することによって，分布の比較をすることが可能であった．しかしLAJ のデータは大規模であり，当時の計算機の性能もあり，井上はLAJデータとの比較に計算機は用いていなかった．

契機となったのは，前述した河西による卒業論文である．河西は指導教官である真田信治とともに，LAJの都道府県別の「標準語形」の使用地点数を数えた．東京都については日本の言語的中心地であることも考えて，島嶋部とは別に集計したため，48 地域（47都道府県＋東京島峡部）のデータが得られた．LAJは300枚の言語地図があるが，河西はこの中から，地域差が少ないもの，全国的に使用率が低いものを除く82 枚の地図を選択し，標準語形使用地点数を数表化した．そして河西（1981）によって県別使用率として公開した．河西データの例を表2−1に示す．

LAJ 標準語形北海道青森…東京…京都兵庫…沖縄 30・31まぶしい

R6 焦げ臭い P81 茄子

Q54梅雨（つゆ）：

@ ：

28．9 6．8 … 88．9 … 11．1 11．3 ・・ 0．0 X5．2 58．1 … 100．0 ・ 97．2 87．3 ‥・ 0．0 P5．4 0．0 … 100．0 … 18．8 1a2 ・ 0．0 R9．8 0．0 ・・ 22．2 … 100．0 98．6 … 0，0

@ i i i i

表2−1・河西データの例（井上2001）

27

(10)

2．2．4．2．「河西データ」への因子分析の適用

LAJという日本の方言の基礎となる資料が，48地域×82項目の共通語使用率の行列という形で利用可能になったことは，井上にとって好機であった13．井上はこのデータを「河西データ」と命名し，多くの数量的研究に活用した．その最初の研究が井上・

河西（1982）による因子分析である．因子分析の結果は，

第1因子関西（近畿・中四国）

第2因子関東第3因子東北第4因子九州

となり，特に第1・2因子は強く，82の共通語形を「関西因子」と「関東因子」によ

って分類することができた（図2−4）．

o

●

0．8以上 0．5 醗第・・…

吻第・ … 圏第・・ … 閲第・ …

図2−4・「河西データ」への因子分析の適用（井上・河西1982）

13井上（2001）は，全国分布の計量的な方言区画を行いたいと思っていたときに河西のデータに出会ったと回顧している．

28

(11)

さらに，井上・河西（1982）では，都道府県別の因子付加量をクラスター分析に適用し，

共通語からみた区画を作成した（図2・5）．また，語形である因子得点にも適用され関東クラスターと関西クラスターの分類を客観的におこなった．

図2−5・「河西データ」による共通語の区画（井上・河西1982．9）

2．2．4．3．文献初出年と組み合わせた分析

井上はこの「河西データ」を活用するために，データ入力時に同時に各共通語形の文献初出年や辞書類の所載状況，使用頻度数などを付加していた．文献初出年は『日本国語大辞典』の用例の初出年を利用した14，

14文献初出年がそのまま使用開始時期にはならないことは，井上（1990）でも述べている．厳密に利用する危険性も考えて初出年は世紀にまとめている．

29

(12)

井上（1990）では，「河西データ」82項目を，上代語（8世紀初出），古代語（9〜11世紀），近世語（12〜17世紀），近代語（18〜20世紀）に4分類し，それらの語の共通語使用率を日本地図に描いた（図2−6）．その結果，近代語は関東地方で使用率が高く，近世語は関東から中部地方にかけて高く予想通りの結果となった．しかし，上代語，古代語では近畿地方に空洞が描かれる分布となった．井上は，徳川（1972）の地理的伝播速度研究における周圏分布語形の集計結果を参照し，近畿地方では，近世以降で新しい語形が生まれたのだが，共通語として採用されなかったためと結論づけた．この結果，文献初出年と共通語使用率との関係を，

（1）時代が経つにつれて地域が狭くなる（2）中心が東に移動する傾向が見られる

とした．

ψ

；、A・8c 上代語圏

プハヘト、B．9c〜11c 古代語圏

o、＿一！

C．12c〜17c 近世語圏●一げ・

酬讐叉

共NE♂㎞

多艶．渋

ジ弩

曇

ぞ

図2−6・「河西データ」の文献初出年代ごとの分布範囲（井上1990）

30

(13)

2．2．4．4．分布重心法・重心グラフ法

さらに井上（1996．4）は，日本全国をマクロ的に傭敵するために，各都道府県の経度・緯度をそれぞれの「河西データ」における使用率と掛け合わせ，各語の重心を計算した．図2−7は，重心法による表示である．使用率は地図上に棒グラフで表してい

る．

井上（2002．6）では，1960年時点の都道府県の人口を「河西データ」に掛け合わせて，

人口に基づく重心を求めている．実際の使用者の量を考慮にいれることで，その語形のもつ地理的な力関係を把握することができる．実際に井上（2002．6）の結果は図2−7

と比較して，東側に語形が移動する．すなわち人口の多い東京周辺部で使用される共通語形は東側に引っ張られることになる．

図2−7・「河西データ」の分布重心と使用率（井上1996．4）

周圏分布という場合には，中心からの距離が重要な概念である．そのため，2次元である日本地図もまた，理論的には1次元に縮約されるほうがよい．目本列島は幸い 31

(14)

にも細長く，緯度，もしくは経度によって1次元化しても支障がないことがわかった．

図2−8は経度重心と使用率による散布図，すなわち重心グラフ法の結果である．データはGAJの準備調査データである国立国語研究所（1979）を用いたものである．

結果は，同じデータに対して適用した数量化3類の結果と符合することがわかった．

これは，多変量解析によって得られた語形が，地理的な位置関係と使用頻度によって分類されるため，最初からその2つの要素によってグラフを作成しても大きく結果がかわらないことを示している．

RYUKY°

@KYVSHV l l

図2−8・重心グラフ法による表示（井上1996．4）

32

(15)

2．2．4．5．鉄道距離

井上（1996．4）によって重心グラフ法が考案され，日本列島は一直線で表現されることとなった．これは多変量解析の結果と符合するものであったが，グラフとしては周圏分布と重心部分のみの分布の違いはわからない．重心は平均値であるために，周圏分布のような日本列島の両端に語形が分布される場合には，中央部のみで使用される語形と区別がつかないことになる．つまり，分散や標準偏差による回答地点のばらつ

きを考慮していないため，全体を概観するような大まかな解釈しかできないという問題点が生じる．

さらに，重心のような位置関係の情報が失われるような要約方法は，山間部，平野部，島峡部といった地理的背景まで無視したものになるため，語形の分布を重要視す

る方言研究にとって不都合な点も多くなってしまう．

そこで井上は，地理的情報を反映した別の方法を考案した．それは主要駅（東京駅，

京都駅）から各都道府県庁所在地の駅までの旧国鉄の営業距離を，位置データとして用いる方法であった15．

これは方言の地伝いの伝播を，かつての主要街道に求めたものと考えられる，方言周圏論で描かれるような同心円状の伝播モデルは，あくまでモデルであり，「辺境」と呼ばれる地域への伝播は，必ずしも直線距離で近くても早いとは限らない．山間部であったり，離島であったり，交通が困難である場合には，実際に，人から人へと伝播する言語の場合には，地理的条件を無視した直線距離では都合が悪い．

これは井上のもう一つの大きい研究であるグロットグラム調査とも関連があると思われる．グロットグラムは，地域を一次元で表すことによって，世代ごとの言語データを同時に表示することができる方法だが，言語伝播を考える上で，地域は旧街道や河川沿いの地点が選ばれていた．そのため，調査地点は，地理的に直線ではなく，

15ただし，井上の集計は都道府県単位であり，地理的情報の反映としては不十分な面もある．都道府県よりもさらに細かい単位での集計が必要であろう．

33

(16)

地理的条件にそって曲がっている．

すでに井上は「河西データ」のデータ作成段階で，東京駅，京都駅から各県庁所在地駅までの旧国鉄の営業距離のデータも入力していたが利用していなかった．こうして位置情報の縮約データは，東京・京都という政治・経済・文化的な側面と，旧国鉄営業距離という歴史・地理的条件を反映した「鉄道距離」というデータになった．

井上（2004．9）は，国語史的観点から，LAJにおける共通語化を，東京からの伝播と，

京都からの伝播という二つの複合的要因によるものと仮定して，東京と京都から各県庁所在地までの「鉄道距離」によって分析可能であることを示した．

図2−9は，京都からの鉄道距離と共通語形使用率のグラフである．共通語形が東京を中心とする高い山と，京都を中心とする低い山の二つによって出来上がっていることがわかる．つまり東京の影響を直接受けない地域で使用される共通語形は，京都を中心として普及したかつての中央語と考えることができる．

ただし，最初から東京・京都を地理的要因として規定してしまっているため，他の地域の影響が考慮されない問題点はある．しかし，これまでの多変量解析法と比較して作成が容易であるという利点がある．

「鉄道距離」の特徴は単に距離だけあるのではない．各都道府県を結ぶことによって，過去の街道や交易ルートと対応させた分析が可能となる．主要路線を太くするこ

とによって，主要街道とそうでない街道との違いもわかる（図2・9）．

34

(17)

一

主要幹隷㎜in㎞k lhe5

CENTER

その他の鉄道線 Oれα田ilways 60 ^UOC

悟 ^、、

海路 ^∀… ^、

■ ・，・． sea l㎝es 、

50 ^、

一一近似曲線 aρprOXmatm lrles ^叉∀■

！

、 ■典

A

，ザ輪〆

z o、 ζ

■ ト、u桜、、、

、

@ 、@ ■ 口，

?、^@ 、

、邸

A

^EAST

1 Y 〆

@ WEST

30 07 ㌃、

r

^田o■ ²⁰ ^功●

o

KYOTO TOKYO

一1200 −1000 −800 −600 −400 早200 0 200 400 600 800 10◎0 1200

West−East DISTANCE from KYOTO except Hekkaido＆Okinawa

図2−9・「河西データ」の鉄道距離と使用率のグラフ（井上2004．9）

さらに，井上（2004．10）では，文献初出年のデータを組み合わせた「鉄道距離」「初出年」「使用率」を3次元の散布図として表示し，近似曲面を描くことによって，共通語の伝播モデルを考えた（図2−10）．井上の1980年代より進められていた「河西デー

タ」の共通語化研究の一定の到達点ということもできるだろう．

馨需パ芦θ≠

％

−3．572 2．855 9，283 15．71 22．138 28，565 34．993 41，42 47，848 54．275 以上

図2−10・鉄道距離・初出年・使用率による3Dグラフ（井上2004．10）

35

(18)

2．2．4．6．井上の研究のまとめ

以上，井上の「河西データ」「表現法データ」を利用した全国を傭鰍した共通語化の研究を紹介した．これらの研究は以下の4段階に進んでいる．

1 河西の都道府県別共通語使用率の地図

2 因子分析・クラスター分析等の多変量解析による計量的区画 3 重心計算という算術的手法へ回帰

4 鉄道距離と使用率の散布図

最終段階の散布図は，最初に河西が作成した情報と比較して，地理情報を鉄道距離におきかえた縮約版ということができるだろう．

井上（2001）は，「ひとたび多変量解析が適用され，デv・一・・タの内的構造が単純化されると，その構造は，もっと簡単な計算で再現することができる」としている．方言調査データが内的構造として，語の歴史や，地理的，社会的，年齢的関係といった要因を含んでいることは，これまでの方言学の知見から推測が可能であろう．しかし，個々の項目の単純集計から，これらの要因の関係を説明する場合に，説明に適切な項目を選び出して説明するだけでは，なぜその項目が選ばれるのか，という点で客観性に欠ける側面がある．

多変量解析は，そうした複数の要因を整理するのに役立つ分析方法である．ただし，

客観的な部分は数字の操作だけであり，解釈の過程には，個々の項目の単純集計からの知見が活かされている．そのため，逆に整理の結果から，その整理を活かすような平易な指標を導入し，単純集計からも説明が可能なようにする．

その背景にあるのは，柳田國男の方言周圏論による地理的伝播の一般原理であろう．

ある言語的中心から，周辺に向かって普及するという発想は，前述の上野による折れ線グラフ作成における地点配列や，グロットグラムという地域×年齢図による研究に

も深くかかわっており，井上の鉄道距離とも関係している．

こうした言語の地理的な連続性を説明するために，分布パター一・・ンの類型化にすぐれた多変量解析による分析が発展したといえるだろう

36

(19)

2．2．5．計量的研究の意義

前節では，これまでに計量的方言研究を概観してきたが，方言データベースをもちいた数量的な研究は，地域の分類に大きな威力を発揮し，成果をあげてきていることがわかる．本研究は，井上の研究の検証の面をもっている．そのため，基本的な結果に変わりはない可能性もある．

井上をはじめとして従来の研究において用いられてきたデータは，地点数や語形数があまり多くない．たとえば，LAJの「河西データ」はLAJの2400地点のデータを48 の都道府県・地域の使用率に縮約した情報である，GAJの予備調査データも地点数が全国で160地点程度しかない．もちろん，これらは当時の電子計算機の記憶容量による問題であり，現在は技術の進歩によって，こうした問題も解決することができる．

本研究で用いる『方言文法全国地図』のデータベースは非常に大規模な生デ・・一・…タからなっており，これまで技術的な制約によって利用できなかった大規模なデータによる分析と比較することには意義があると思われる．

37

(20)

38

2．2．方言データベースを用いた計量的研究

第2章データベースを用いた計量的方言研究の概観

2．1．方言データベースの意義

2．2．方言データベースを用いた計量的研究

利濠＼一巴二

＼

ぷノノi

：：8♂ブ 薦㌧ノ

滅竃㌶／蹴麟專山9㊧，

t・i，iii 瓢

玉 埼燭㌧ ＼樂邑

n

曇

@KYVSHV l l

一

A

r

KYOTO TOKYO

：：8♂ブ薦㌧ノ

玉埼燭㌧＼樂邑