• 検索結果がありません。

CSJ の解析結果

ドキュメント内 日本語話し言葉コーパスの構築法 (ページ 34-42)

1.7 CSJ の解析結果

CSJの構築過程では,想定したとおりのデータが採れているかどうかを確認するために,折に触れて予備的 解析を実施した。模擬講演は本当に学会講演よりも発話スタイルがくだけているのか,自発音声と朗読音声で は発話速度がどの程度異なっているのか,印象評定データと種々の言語変異現象との間には相関が認められる か,等々の検証である。予備的解析結果の一部は,国立国語研究所のホームページで公開しているので参照し ていただきたい。

http://www2.kokken.go.jp/~csj/public/index.html  (英文)

http://www2.kokken.go.jp/~csj/public/index_j.html (和文)

以下本節でもいくつかの解析例を示しておこう。

1.7.1 語の融合の決定樹

語の融合とは,もともと独立している複数の語が分離不可能な形にとけあってしまう現象である。名詞「私」

と係助詞「は」の連続が「ワタシャ」に発音されると,2語の境界がどこにあるかを確定し難くなる。

予備的解析のなかでは,「デ」と「ワ」が融合して「ジャ」と発音される現象をとりあげた。解析結果は,融 合の生起率が「デ」の品詞が助詞であるか助動詞であるかによって大幅に相違すること,発話スタイルなどの 社会的要因も明瞭に関与することを示していた(上記URLおよび参考文献中の前川(2002b)参照)。

ここでは,先行研究において融合の生起率に影響することが確認された多数の要因の相互関係を決定樹 によって分析した結果を示そう。図1.7が今回構築した決定樹の最上部3階層である。分析には SPSSの

Answer Treeを利用した。

「デ+ワ」の融合にもっとも強く影響するのはデの品詞である。データ全体の融合率は22%であるが,助詞 においては1.7%,助動詞においては42.6%と大幅に変動する。

決定樹の第2階層のうち,助詞グループは発話スタイルによってさらに分類されている。発話スタイルは,

単独評定データ(1.4.2節参照)の一部であり,それが「低」(1ないし2)であるか,「高」(3,4,5)であるか によって変動率は13.1から1.0%まで変動する。

助動詞グループは「講演のタイプ」(ここでは学会講演か模擬講演か)による分類を受け,そのうち模擬講演 のデータは,さらに,やはり印象評定データの一部である「発話の自発性」によって分類されている。以上の3 階層による分類によって「デワ」の融合率は最低1.0%から最高約62.9%までの5グループに分割されている。

この決定樹分析に利用されている情報はすべてCSJに記録されているデータである。決定樹の計算に必要 なデータは,一旦融合現象に関する検索が終了すれば,その結果と印象評定データを結合させるだけで準備で きる(結合処理については9.3節参照)。

1.7.2 意識と行動

CSJには大量の言語変異が記録されている。前節で紹介した語の融合現象はその一例である。言語変異研究 資料としてのCSJの大きな強みは,それが現実の言語行動そのものの記録であり,話者の意識の記録ではない 点である。従来の言語変異現象の調査,ことに話し言葉の調査では,アンケートによって言語使用意識のデー

ഥ⹖

ഥേ⹖

ຠ⹖

RIGH

⊒⹤

䉴䉺䉟䊦

ቇળ⻠Ṷ

ᮨᡆ⻠Ṷ

⻠Ṷ䈱 䉺䉟䊒

⥄⊒ᕈ

ో૕

図1.7 語の融合「デ+ワ→ジャ」の決定樹

タを収集することが多かった。しかし,よく知られているようにアンケートの回答には規範意識などによるバ イアスがかかっている可能性が低くない。CSJの解析結果を,それと同時期に収集されたアンケート調査と比 較することによって,アンケート調査と現実の言語行動の差を評価してみる。

最初に,単純な発音のゆれとして,我が国の国名「日本」の発音をとりあげよう。図1.8は,NHK放送文化 研究所が2003年に実施したアンケートの結果とCSJの分析結果の比較である。いずれの調査結果も「ニッポ

ン」(図ではniQpoN)よりも「ニホン」(nihoN)の方がよく使われている(と意識されている)点は一致して

いるのだが,アンケートで「ニホン」を選択した人が61%であるのに対し,CSJに記録された「日本」の発音 は実に96%以上が「ニホン」もしくは「ニオン」など「ニホン」が変化したとみなせる形でしめられている。

なぜ「ニホン」の頻度が圧倒的であるかはよくわからないのだが,「ニホン」と「ニッポン」の利用率はそれ ぞれどれくらいだと思いますか?という質問をいろいろな機会にいろいろな人に発してみると,やはり「ニホ ン」の頻度が6,7割という回答が圧倒的に多い。本例は,少なくとも話し言葉においては,自分自身の言語行 動を内省することが,ときとして,かなり困難であることを示す好例になっていると思える。

㪇 㪈㪇 㪉㪇 㪊㪇 㪋㪇 㪌㪇 㪍㪇 㪎㪇 㪏㪇 㪐㪇 㪈㪇㪇

㪆㫅㫀㪿㫆㪥㪆

㪆 㫅 㫀

㪨㫇㫆㪥㪆

㪲㩼

㪚 㪪 㪡

㪨㫌 㪼 㫊 㫋 㫀 㫆 㫅 㫅 㪸 㫀㫉㪼

     図1.8 「日本」の発音における変異。アンケート(Questionnaire)とCSJの比較。   

1.7 CSJの解析結果 17

意識と行動の乖離について,もうひとつ例を示そう。文化庁国語課が2001年に実施したことばに関する世 論調査には,いわゆるラ抜きことばについての質問がふくまれていたが,図1.9左側のグラフは,そのうち

「来る」の可能についての回答である。回答者が若ければ若いほど(図の横軸は回答者の生年代)ラ抜きであ る「コレル」を使うという回答が増加しているが,「コレル」が伝統的かつ規範的な「コラレル」を逆転するの は1970年代生まれの回答者においてである。このグラフをみるかぎり,ラ抜きの語形は古くから存在するも のの,それが主流となったのは,最近のことであると解釈される。

㪉㪇 㪋㪇 㪍㪇 㪏㪇 㪈㪇㪇

㪄㪈㪐㪊㪇 㪈㪐㪊㪈㪄㪋㪇 㪈㪐㪋㪈㪄㪌㪇 㪈㪐㪌㪈㪄㪍㪇 㪈㪐㪍㪈㪄㪎㪇 㪈㪐㪎㪈㪄㪏㪇 㪈㪐㪏㪈㪄㪏㪋 㪲㩼

㫂㫆㫉㪸㫉㪼㫉㫌 㫂㫆㫉㪼㫉㫌

㪉㪇 㪋㪇 㪍㪇 㪏㪇 㪈㪇

㪄㪈㪐㪊㪐 㪈㪐㪋㪇㪄㪋㪐 㪈㪐㪌㪇㪄㪌 㪈㪐㪍㪇㪄㪍㪐 㪈㪐㪎㪇㪄 㪲㩼

㪆㫂㫆㫉㪸㫉㪼㫉㫌㪆 㪆㫂㫆㫉㪼㫉㫌㪆

Questionnaire CSJ

図1.9 動詞「来る」の可能形。アンケート(Questionnaire)とCSJの比較。

一方,図1.9右側のグラフはCSJの分析結果である。生年代とともにラ抜きの使用頻度が増加する点は,意 識調査の結果と並行した結果であるが,「コレル」の使用頻度は1940年代生まれの話者において,既に「コラ レル」を逆転している点が注目に値する。このグラフからラ抜きが主流となった時期を推測すると意識調査の グラフから導かれる結論とはずいぶんと異なった結論をひきだすことになるだろう。

本件もまた自分自身の言語行動を内省することの難しさを示しているが,本件では,学校教育やマスコミの 報道を通じて,ラ抜き語形がことばの乱れとして指摘されてきていることが,アンケート回答者の意識にバイ アスをあたえている可能性も否定できない。従来報告されてきた言語変異に関する意識調査の結果をCSJの 分析を通じて再検討すれば,いろいろと面白い現象がみつかるものと思われる。

1.7.3 語彙の変異率

最後にCSJに記録された語形(短単位)にどの程度変異が生じているかを示す。CSJの形態論情報では,す べての短単位・長単位に対して,国語辞典のみだしに該当するような「代表的な読み」をひとつだけ定めてお り,これを代表形としている。例えば,「日本」「体育」「NHK」の代表形はそれぞれ「ニッポン」「タイイク」

「エヌエイチケー」である。しかし,実際には「日本」が大部分「ニホン」と発音されていたように,代表形と は異なる語形で発音されることがある。

表1.7は「体育」,表1.8は「NHK」に生じた各種語形とその頻度を示している。いずれも単純語だけの集計 であり,「体育館」や「NHKニュース」のような複合語は集計から除外している。これらの表は各語の変異率

(すなわち代表形と異なる語形の頻度の合計が,代表形と同じ語形を含めた総頻度に占める割合)を示してい

表1.7 「体育」の語形と頻度    語形      頻度  

タイク 54

タイイク 2

タイック 1

表1.8 「NHK」の語形と頻度     語形      頻度  

エヌエチケー 98

エネーチケー 19

エヌエッチケー 9

エヌエイチケー 4

エヌエチケ 3

エネーチケ 2

エヌエスケー 1

エ<H>ヌエイチケー 1

エネエチケー 1

エネーシケー 1

エヌチケー 1

る。「体育」の場合,代表形と異なる語形の頻度の合計は54+1=55であるから,それが代表形と同じ語形 を含めた総頻度(=57)に占める割合は,55÷57×100=96.5%である。「NHK」の場合も同様に計算して,

136÷140×100=97.1%という数値を得る。これらの語形は変異率が非常に高く,辞書のみだしと現実の発

音が乖離していることがわかる。

このような計算を頻度20以上のすべての語について実施した上で,音声タイプごとの平均変異率を示した のが図1.10である。変異率は音声のタイプによってかなり変動すること,そして発話の自発性と変異率には正 の相関があること(自発性が高い音声ほど変異率も高い)が読みとれる。ただし,自発性最低の朗読音声にお いても4%程度は変異が存在している。これは「日本」「体育」「NHK」のように,代表形と同じ語形の方が少 数派となっている語が存在することに起因している。図1.10の横軸中の「対話」は「対話音声」の全体,「模 擬」は「模擬講演」,「学会」は「学会講演」の全体である。

㪈㪇

㪐 㪏 㪎 㪍

ᄌ ⇣ ₸ 䋦 㩷

㪌 㪋 㪊 㪉 㪈

㪇 ኻ⹤ ᮨᡆ 䈠䈱ઁ ቇળ ᦶ⺒

    図1.10 音声のタイプと語形変異率の相関

ドキュメント内 日本語話し言葉コーパスの構築法 (ページ 34-42)