語の文体差を表す「文体値」について : 「語彙密度平均値」と「硬度平均値」類との比較
8
0
0
全文
(2) 『札幌国語研究』第 25 号. 北海道教育大学国語国文学会・札幌(2020 年). 語の文体差を表す「文体値」について ――「語彙密度平均値」と「硬度平均値」類との比較――. 馬. 場. 俊. 臣. 1. はじめに 日本語には、「話し言葉的な文体/書き言葉的な文体」「柔らかい文体/硬い文体」「インフ ォーマルな文体/フォーマルな文体」などのさまざまな類型的な文体の違いに応じて、類似の意 味を表す複数の語が多く存在する。こうした文体の違いによる語の分類に関しては、これまで数 多くの研究がなされてきている。 しかし、これまでの分類の多くは主観的な判断に基づいて行われており、客観的なデータに基 づいた分類は少ない。 近年、言語研究においては、電子化された大量の言語資料であるコーパスを活用した、より客 観化・精緻化された方法での研究が盛んになっている。 語の文体差に関する文体研究においても、コーパスを用いてより客観化・精緻化された研究が 求められている。コーパスを活用して一つ一つの語の文体差を数値化する試みとして、佐野(200 9、2016)の「語彙密度平均値」及び馬場(2018a、2018b)の「硬度平均値」類1が提案されている(以 下、語の文体差を表す数値を「文体値」と呼ぶ。)。客観的な方法に基づいて算出された、こう した「文体値」は、国語教育及び日本語教育の分野からも求められている。 本稿では、別々に提案された「語彙密度平均値」と「硬度平均値」類とがどの程度類似した値 になるのかを明らかにするために、両者の比較を相関分析によって行う。これを通して、より妥 当性・信頼性のある文体値について検討したい。. 2. 「語彙密度平均値」及び「硬度平均値」類について 2.1 「語彙密度平均値」について まず、佐野(2009、2016)の「語彙密度平均値」について、簡潔に説明する。 佐野(2016)によれば、 「語彙密度(lexical density)は、情報の詰め込みの程度を観点として、 テクストの「書き言葉らしさ」・「話し言葉らしさ」をあらわす特徴量として Halliday(1985) によって提唱されたもの」(:79)であり、本来は「テクストの特徴を捉えるために用いられてき たもの」(:84)である。しかし、「大規模コーパスに含まれるそれぞれのテクストの特徴が把握 1. 本稿では、「専門度平均値」「客観度平均値」「硬度平均値」「くだけ度平均値」をまとめて、便宜的に、 「「硬度平均値」類」と呼ぶ。. 20.
(3) 『札幌国語研究』第 25 号 北海道教育大学国語国文学会・札幌(2020 年). できるのであれば、ある語がどのようなテクストで利用される傾向があるのかを把握できるはず である」(:84)という考えに基づいて、「語彙の特徴をそれが使用されたテクストの語彙密度の 平均値から捉えよう」(:84)としたのが「語彙密度平均値」であるということである。 具体的には、あるテクストの「語彙密度」は、「テクストに含まれる内容語2の総数」を「テク ストに含まれる節(ranking clause3)の総数」で除した値である(:82)。話し言葉に比べて書 き言葉のほうが語彙密度は高くなると考えられている。 「語彙密度平均値」の算出は、具体的には、「『現代日本語書き言葉均衡コーパス』(BCCWJ) の出版サブコーパス(図書)に含まれるサンプル4の語彙密度を計測し、ある語が含まれているサ ンプル全ての語彙密度の平均値を求め、それを当該語の語彙密度平均値とした」(:84)というこ とである5。「例えば、ある語(Wa)は語彙密度が 5.0、6.0、7.0 といったテクストで、他の語 (Wb)は語彙密度が 2.0、3.0、4.0 といったテクストで用いられていたとすると、Wa が使用 されていたテクストの語彙密度平均値は 6.0、Wbの場合は 3.0 となる。」(:84)ということで ある。語彙密度平均値が高い語ほど、より「情報の埋め込みの程度が強い(書き言葉らしい)テ クストで使用される語」(:84)であるということになる。 「語彙密度平均値」は、「評価表現」約 4,500 語について、『日本語アプレイザル評価表現辞 書(JAppraisal 辞書)~態度評価編~』(国立国語研究所コーパス開発センター)として公開さ れている6。本稿の分析では、この辞書に記載されている「語彙密度平均値」を利用する。. 2.2 「硬度平均値」類について 次に、馬場(2018a、2018b)の「硬度平均値」類(「専門度平均値」「客観度平均値」「硬度平 均値」「くだけ度平均値」)について、簡潔に説明する。 「硬度平均値」類は、国立国語研究所(2015)『BCCWJ 図書館サブコーパスの文体情報』を利用 して、語の文体差を「連続的な」数値として示したものである。 『BCCWJ 図書館サブコーパスの文体情報』7は、BCCWJ8「図書館サブコーパス」の各サンプルを 対象として、文体情報である「内容・表現の文体的特徴を表す分類指標」及び「形式・内容・表 現に文体判断が単純にいかない特徴をもつものの分類指標」を付与したアノテーションデータで ある。「専門度」「客観度」「硬度」「くだけ度」は、「内容・表現の文体的特徴を表す分類指 標」に含まれる9。「専門度」は「対象読者に想定される読解レベル(難易度)」に関わる指標、. 2. 名詞、形容詞、副詞、動詞、形状詞、感動詞など。 「節の中でも特に、clause ランクで機能する節」(佐野ほか 2009:13) 4 佐野(2016)では、「サンプル中の節数が 5 件以下のもの(e.g. 名詞が羅列されていて、節をほとんど含ま ないサンプル)35/10,551 サンプル(0.3%)は、語彙密度の計測に利用しなかった。また、10 件以下のサンプル にしかあらわれない語も、意味のある統計量を得られないと考え、語彙密度平均値の計測対象から外した」 (:85)としている。 5 佐野(2016)では、「16,082 語の語彙密度平均値を計測することができた」(:87)としている。 6 佐野(2012)、言語資源協会(2012 更新)参照。 7 国立国語研究所(2015)添付文書「概要」及び柏野(2013)の記述に基づく。 8 『現代日本語書き言葉均衡コーパス』 9 ほかに「語りかけ性度」も含まれるが、他の 4 指標とは性質が異なるため、本稿では扱わない。 3. 21.
(4) 『札幌国語研究』第 25 号 北海道教育大学国語国文学会・札幌(2020 年). 「客観度」は「テキストの作成意図」に関わる指標、「硬度」「くだけ度」は「さまざまな文体 情報」のうちの「形式性、親疎性を問う」指標である。それぞれ、「(a)専門度. 1 専門家向き、. 2 やや専門的な一般向き、3 一般向き、4 中高生向き、5 小学生・幼児向き」「(b)客観度. 1 と. ても客観的、2 どちらかといえば客観的、3 どちらかといえば主観的、4 とても主観的」「(c)硬 度 1 とても硬い、2 どちらかといえば硬い、3 どちらかといえば軟らかい、4 とても軟らかい」 「(d)くだけ度 1 とてもくだけている、2 どちらかといえばくだけている、3 くだけていない」 の 3~5 段階のいずれかの段階が、それぞれ各サンプルに付与されている。付与は「言語データ構 築経験有のおおよそ 20~50 代の女性、延べ 9 名。」の作業者によって行われている。 「硬度」を例にして、「硬度平均値」の算出手順を説明する。「硬度平均値」は、「硬度」の 1~4 の段階の番号を数値として扱い、概略、次の手順によって算出されている10。BCCWJ「図書館 サブコーパス」内で、ある語(Wa)が出現するサンプルを特定する。出現するそれぞれのサンプ ルの硬度を『BCCWJ 図書館サブコーパスの文体情報』から得て、算術平均値を算出し、その値を Wa の硬度平均値とする。ただし、Wa が同一のサンプルに複数回出現する場合は、そのサンプル での出現は 1 回と見做して算術平均値を算出する。例えば、ある語(Wa)が、硬度1のサンプル Aで 1 回、硬度 2 のサンプルBで 3 回、硬度 3 のサンプルCで 4 回、それぞれ用いられていたと すると、Wa の「硬度平均値」は 2 となる。より「硬い」サンプルにより多く使われている語は 硬度平均値が低くなり、逆に、より「柔らかい」サンプルにより多く使われている語は、硬度平 均値が高くなる。硬度平均値の高低は、柔らかさ・硬さという文体の違いであるとともに、話し 言葉的か書き言葉的かという文体の違いと見ることもできる。 「専門度平均値」「客観度平均値」「くだけ度平均値」の算出手順も同様である。 馬場(2018a)では、「長単位」の語を対象として、「図書館サブコーパス」内のサンプル数が 100 以上11となる語(語彙素)の「専門度平均値」「客観度平均値」「硬度平均値」「くだけ度平 均値」を算出し、これら 4 種の平均値は相互に強い相関があることを明らかにし、「「硬度平均 値」類」は、いずれも「書き言葉的」「話し言葉的」などの語の文体差を反映している可能性を 示している。 馬場(2018a、2018b)では、語の単位として「長単位」を用いているが、本稿の分析では、「語 彙密度平均値」の語の単位12と合わせるために「短単位」を用いる。そのため、本稿の分析では、 「短単位」の「硬度平均値」類の算出を新たに行った。 なお、実際の「硬度平均値」類の算出に当たっては、限られた語数の接続詞を対象とした馬場 (2018b)ではエクセルを用いて計算を行っている。一方、約 72 万語を対象とした馬場(2018a) ではデータベース管理システム MySql を用いて計算を行っている。本稿の分析でも膨大な語数を 扱うため、MySql を用いて計算を行った。. 10 11 12. 詳細は、馬場(2018a、2018b)参照。 馬場(2018a)では、「ある程度の大きさのサンプル数を確保するため」(:244)としている。 「形態素解析辞書 UniDic の品詞」(佐野ほか 2009:22)を利用しているため「短単位」と考えられる。. 22.
(5) 『札幌国語研究』第 25 号 北海道教育大学国語国文学会・札幌(2020 年). 3. 「語彙密度平均値」と「硬度平均値」類との相関分析 ある語の「語彙密度平均値」と「硬度平均値」類とは、どの程度、類似しているのであろうか。 これを確かめるために、本稿では、次のような手順で、「語彙密度平均値」と「硬度平均値」類 との相関分析を行った。 まず、『日本語アプレイザル評価表現辞書(JAppraisal 辞書)~態度評価編~』の 4,515 語の 「語彙密度平均値」のデータ(「語彙密度平均値データ」と呼ぶ)及び本稿 2.2 の方法で求めた 129,804 語の「専門度平均値」「客観度平均値」「硬度平均値」「くだけ度平均値」の各データ (まとめて「硬度平均値類データ」と呼ぶ)を用意する。次に、「語彙密度平均値データ」と「硬 度平均値類データ」の両データに共通する語13(短単位)を抽出する。その結果、両データに共通 するのは 4,450 語であった14。表 1 に、「語彙密度平均値」と「硬度平均値」類の一部を例示す る。. 表1 語彙素/語彙素読み. 「語彙密度平均値」と「硬度平均値」類の例15 語彙密度 平均値. 専門度 平均値. 客観度 平均値. 有用/ユウヨウ 適合/テキゴウ 要件/ヨウケン 寄与/キヨ 良好/リョウコウ. 7.53 7 6.95 6.94 6.9. 2.5 2.47 2.42 2.58 2.75. 惚れる/ホレル. 3.22. みっともない/ミットモナイ. 3.21. 硬度 平均値. くだけ度 平均値. 1.86 1.76 1.70 1.96 2.09. 2.06 2 1.80 1.91 2.26. 3.07. 3.10. 3.18. 3.17. 3.2. 3.27. たって/タッテ. 3.19. むっと/ムット. 3.16. サンプル数 134 125 201 171 140. 2.97. 2.19. 157. 3. 2.22. 118. 3.06. 2.86. 2.21. 220. 3.27. 3.26. 3.03. 2.16. 980. 3.36. 3.03. 2.95. 2.19. 161. ~. 2.91 2.88 2.95 2.91 2.77. 呻く/ウメク. この共通する 4,450 語の「語彙密度平均値」と「硬度平均値」類の相関分析を行う。ただし、 4,450 語の中には、「硬度平均値」類を算出する際の元となるサンプル数(テキスト数)が最少で 1 サンプルの語から、最大 8,999 サンプルの語までが含まれている。「硬度平均値」類が文体差 の目安として意味のある値となるためには、ある程度の大きさのサンプル数が必要である。本稿 の分析では、サンプル数が、50 サンプル以上(1,683 語)、100 サンプル以上(1,053 語)、200 サンプル以上(624 語)の 3 通りの場合で相関分析を行った。表 2 にその結果を示す。. 13. 「語彙素」及び「語彙素読み」の両者が共に同一の場合に「共通する語」と見做す。この作業は、エクセル関 数 vlookup を用いて行った。 14 『BCCWJ 図書館サブコーパスの文体情報』で付与されている「専門度」「客観度」「硬度」「くだけ度」のい ずれか一つでも、サンプルがない語は除外している。 15 サンプル数が 100 以上の語(語彙素)について、「語彙密度平均値」の上位 5 語及び下位 5 語を示す。. 23.
(6) 『札幌国語研究』第 25 号 北海道教育大学国語国文学会・札幌(2020 年). 表2. サンプル数. 「語彙密度平均値」と「硬度平均値」類との相関係数. 語数. 語彙密度平均値 と 専門度平均値. 50 1,683 100 1,053 200 624. 語彙密度平均値 と 客観度平均値. -0.883 -0.919 -0.941. 語彙密度平均値 と 硬度平均値. -0.824 -0.877 -0.901. -0.863 -0.906 -0.931. 語彙密度平均値 と くだけ度平均値 0.854 0.893 0.924. 表 2 の通り、語彙密度平均値と専門度平均値、語彙密度平均値と客観度平均値、語彙密度平均 値と硬度平均値、語彙密度平均値とくだけ度平均値との間には、それぞれ強い負(又は正)の相 関関係が認められる。すなわち、「語彙密度平均値」の数値(より高いほど書き言葉らしい)と 「硬度平均値」類の数値(より低いほど書き言葉らしい)とには、強い相関があるという結果が 得られた。 なお、「負」及び「正」の相関の両方があることについて補足しておく。「専門度」「客観度」 「硬度」は、それぞれ「より専門家向き」「より客観的」「より硬い」ほど、すなわちより書き 言葉的であるほど低い数値となる。したがって、より書き言葉的であるほど数値が高くなる「語 彙密度平均値」とこの 3 種類(「専門度平均値」「客観度平均値」「硬度平均値」)とは「負」 の相関が見られる。一方、「くだけ度」は、「よりくだけている」ほど、すなわちより話し言葉 的であるほど低い数値となる。したがって、より話し言葉的であるほど数値が低くなる「語彙密 度平均値」と「くだけ度平均値」とは「正」の相関が見られる。. 4. 考察 前節で明らかにしたように、「語彙密度平均値」と「専門度平均値」「客観度平均値」「硬度 平均値」「くだけ度平均値」のそれぞれとの間には強い相関があり、文体差を数値で表した「文 体値」として共通性が高い。 佐野の「語彙密度平均値」は、「大規模コーパスに含まれるそれぞれのテクストの特徴が把握 できるのであれば、ある語がどのようなテクストで利用される傾向があるのかを把握できるはず である」という考えに基づいているが、この考えは「硬度平均値」類でも基本的な発想は同じで ある。「語彙密度平均値」は、「テクストの特徴」として「語彙密度」を用いているのに対し、 「硬度平均値」類は、「テクストの特徴」として「硬度」類を用いている。そして、両者ともに、 ある語が用いられた各テクスト(各サンプル)の「語彙密度」又は「硬度」類の平均を求めて、 それを「語彙密度平均値」又は「硬度平均値」類としている。 さらに、「語彙密度平均値」及び「硬度平均値」類はともに、対象として用いたテクスト(サ ンプル)は、BCCWJ の「図書館サブコーパス」のテクスト(サンプル)である。ただし、「語彙密 度」は「図書館サブコーパス」の「固定長」のサンプルのみを対象としているのに対して、「硬 度」類は「図書館サブコーパス」の全サンプルを対象としているという違いはあるが、大きくは ほぼ同じで重なると見てもよいであろう。 24.
(7) 『札幌国語研究』第 25 号 北海道教育大学国語国文学会・札幌(2020 年). このように、ほぼ同一の「図書館サブコーパス」の各テクスト(各サンプル)の特徴に基づい て、ある語の文体差を数値化した「語彙密度平均値」と「硬度平均値」類は、共通の性質を持っ ている。さらに、両者に強い相関があるということは、文体差を表す数値としての信頼性がある と見做してよいであろう。 なお、このように見てくると、あるテクスト(サンプル)の「語彙密度」と「硬度」類とは、 そもそも強い相関があるのではないかと予想されることを付け加えておく16。. 5. おわりに コーパスを活用した語の文体差研究は、対象とする語がどのような性質のジャンル(レジスタ ー、サブコーパス)に現れやすいかということに基づいて分析されることが多い。例えば、BCCW J には、書き的性質の強い「白書」サブコーパスや話し言葉的性質の強い「Yahoo! ブログ」サブ コーパスなどが含まれており、こうしたサブコーパス間の使用頻度の偏りに基づいて、「硬い文 体(書き言葉的)」「柔らかい文体(話し言葉的)」などのような文体差の違いを明らかにする 研究が多い。こうした分析方法は、予め設定したいくつかの類義表現を対象とする研究では行い やすいが、多数の語を一括して分析対象とする研究では行いにくい。さらに、「文体的特徴から する単語の分類は、連続的であり、程度の差によるものである」(宮島 1977:873)と指摘されて いるように、語の文体差は連続的なものであるが、こうした連続性を示すことも難しい。 本稿で検討した「語彙密度平均値」及び「専門度平均値」「客観度平均値」「硬度平均値」「く だけ度平均値」は、極めて多数の語を対象として、語の文体差を連続的な数値で表したものであ る。 本稿では、別々に提案された「語彙密度平均値」と「専門度平均値」「客観度平均値」「硬度 平均値」「くだけ度平均値」のそれぞれとの間には強い相関があることを明らかにした。このこ とは、文体差を数値で表した「文体値」として共通性が高いことを示しており、さらに、それぞ れの「文体値」としての信頼性を示していると考えた。 今後、「語彙密度平均値」及び「専門度平均値」「客観度平均値」「硬度平均値」「くだけ度 平均値」が、文体研究においてさまざまに活用されることが期待される。. 参考文献 柏野和佳子(2013)「書籍サンプルの文体を分類する」『国語研プロジェクトレビュー』4(1)、国立国語研究所、 pp.43-53 言語資源協会(2012 更新)「GSK2011-C 日本語アプレイザル評価表現辞書 (JAppraisal 辞書)~態度評価編~」 (https://www.gsk.or.jp/catalog/gsk2011-c)参照。(2020 年 10 月 4 日最終確認) 国立国語研究所(2015)『BCCWJ 図書館サブコーパスの文体情報』(第 1 版). 16. (https://pj.ninjal.ac.jp/. 「図書館サブコーパス」の各テクストの「語彙密度」のデータを入手していないため、検証はしていない。. 25.
(8) 『札幌国語研究』第 25 号 北海道教育大学国語国文学会・札幌(2020 年). corpus_center/anno/)(BCCWJ_LB_Stylistics-1.0.zip)(2020 年 10 月 4 日最終確認) 佐野大樹(2009)「「話し言葉らしさ・書き言葉らしさ」の計測―語彙密度の日本語への適用性の検証―」『機能 言語学研究』5、日本機能言語学会、pp.89-102 佐野大樹(2012)『日本語アプレイザル評価表現辞書(JAppraisal 辞書)~態度評価編~ 明書、及び、評価表現分類表』、国立国語研究所コーパス開発センター. Version1.2. 仕様説. (https://www.gsk.or.jp/files/. catalog/GSK2011-C/JAppraisal1.2_READMEONLY-release1.0.1-active.pdf)(2020 年 10 月 4 日最終確認) 佐野大樹(2016)「語彙密度から見た語彙シラバス」森篤嗣(編)『ニーズを踏まえた語彙シラバス』、くろしお出 版、pp.79-93 佐野大樹、丸山岳彦、山崎誠、柏野和佳子、秋元祐哉、稲益佐知子、田中弥生、大矢内夢子(2009)『語彙密度を 利用した『現代日本語書き言葉均衡コーパス』テクスト分類の試み. 特定領域研究「日本語コーパス」平成 20. 年度研究成果報告書』、文部科学省科学研究費特定領域研究「日本語コーパス」データ班 馬場俊臣(2018a)「『BCCWJ 図書館サブコーパスの文体情報』を利用した語の文体差研究の可能性」『言語資源 活用ワークショップ 2018 発表論文集』、国立国語研究所コーパス開発センター、pp.240-255 馬場俊臣(2018b)「接続詞の文体差の計量的分析の試み――『BCCWJ 図書館サブコーパスの文体情報』を用いて ――」『北海道教育大学紀要. 人文科学・社会科学編』69(1)、北海道教育大学、pp.1-14. 宮島達夫(1977)「単語の文体的特徴」松村明教授還暦記念会(編)『松村明教授還暦記念. 国語学と国語史』、明. 治書院、pp.871-903 Halliday,M,A,K.(1985)Spoken and written language. Victoria: Deakin University.. 使用データ 国立国語研究所コーパス開発センター(制作)『日本語アプレイザル評価表現辞書(JAppraisal 辞書)~態度評 価編~』(2012 年 3 月 version1.2 公開)(本データの使用に当たっては、特定非営利活動法人言語資源協会 (GSK)の使用許諾を得ている。) 国立国語研究所(2015)『BCCWJ 図書館サブコーパスの文体情報』(第 1 版). (https://pj.ninjal.ac.jp/. corpus_center/anno/)(BCCWJ_LB_Stylistics-1.0.zip)(2020 年 10 月 4 日最終確認). 26.
(9)
関連したドキュメント
(以下,外転)筋は大殿筋上部線維(以下,大殿筋),中殿筋,小殿筋,大腿筋膜張筋によって
どれも似たような体系なのかと思うと,部分的に似たところもあるとはいえ,実はどれ一つ同じ体系に
第 1 、CAI の研究開発には 3 つのパラダイ ムの移り変わりがあった。そして、そのパラダ
ロールプレイのまえに、もう一度 いちど かいわ 会話 のスクリプトを見 み て 考 かんが えましょう。 Vor dem Rollenspiel, schauen Sie sich noch einmal das Audioskript
ら、活動を物質から、主観を客観からひきはなす をどう読むかということが問題である。
任の主体はどこにあるのかを明確にしなければならない。
どちらとも どちらとも どちらとも どちらとも言 言えない 言 言 えない えない えない どちらかと どちらかと どちらかと どちらかと言 言えば 言 言
客観性であるとか、本文で例示したような普遍性など、何らかの「形式」が必 要になる。このような形式がなければ、いかなる「内容」も現実的な認識の対 象にはなりえない(Gegenstand