: テキストマイニング手法と目視による分析を通して

(1)

: テキストマイニング手法と目視による分析を通して

著者原田朋子

雑誌名同志社大学日本語・日本文化研究

号 16

ページ 1‑15

発行年 2019‑03

権利同志社大学日本語・日本文化教育センター

URL http://doi.org/10.14988/pa.2019.0000000074

(2)

要　旨

テキストマイニングは、テキストデータをコンピュータで形態素解析したものを計量的に分析し、テキストの書き手の特徴情報の抽出を可能にし、書き手によって異なる特徴を客観的に可視化する手法である。

筆者は、原田（2005）において、日本語母語話者と上級レベルの日本語学習者の接続表現使用傾向の目視による分析を行った。また、原田（2005）では、上級レベルの日本語学習者の小論文の文脈展開を不明瞭にしている要因について、３名の日本語母語話者によって、コーディングし、判定作業を行った。

本稿では、原田（2005）で分析対象としたものと同じく、日本語母語話者と上級レベルの日本語学習者の小論文を対象に、テキストマイニングの手法を用いて、

原田（2005）の結果を再検証した。その結果、計量的分析においては、テキストマイニングの手法を用いたことで、両者の差異を可視化することができ、両者の差をより客観的に示すことが可能となった。また、本稿では、原田（2005）で得られなかった１文あたりの文字数や段落数や文の長さの観点からも考察し、接続表現だけでなく、名詞の使用傾向の分析も加え、両者の小論文の内容面の分析も行った。しかしながら、言語学的研究の質的分析には、目視による考察も欠かせないことから、原田（2005）で明らかにした質的分析で得られた結果を整理し、

併せて考察することにより、テキストマイニングの手法を用いた分析で得られる情報と、目視による分析でしか得られない情報を明らかにすることもできた。

キーワード

日本語テキストマイニング接続表現母語話者学習者

1　はじめに

これまでにコンピュータによる作文添削ツールは数々存在するが、教師の添削レベルに達するようなものは言うまでもなく、十分な機能を備えたものは未だ見られない。

日本語母語話者と上級日本語学習者の小論文の比較

−テキストマイニング手法と目視による分析を通して−

A Comparison of Essays Written by Japanese Native Speakers and Advanced Japanese Learners Analyzed

through Text-Mining and Observation

原田朋子

(3)

しかし、従来の作文添削ツールとは異なり、近年では、AIの発達により、コンピュータ自らが考え、学習し、答えを導き出すシステムが様々な分野で用いられつつある。

日本語教育における作文指導において、教師は長年の経験上、日本語学習者の接続表現や指示詞や助詞の使われ方等に問題点を見出していることもあろうが、それらの客観的な分析結果を整理するには、例文の収集から特徴抽出・分析、可視化に至るまで、

長い年月を要する。

近い将来には、研究への活用に留まらず、作文添削への応用にコンピュータがさらに活用される日も来るだろう。例えば、企業において、既に人事選考を行う際に、AI が活用されている場合がある。過去のデータをコンピュータに学習させ、応募者のエントリーシートデータを読み込ませると、自然言語分析によって、エントリーシートの内容が認識され、項目ごとに評価が提示されるという。そして、合格基準を満たす評価が提示された項目は選考通過とされ、それ以外の項目は人事担当者が内容を確認して、合否の判断を行うというシステムだと聞く。以前は、応募者全員分のエントリーシートを読むために、約 10 人で取り掛かり、年間で 800 時間以上もの時間を費やしていたが、コンピュータに確認作業を任せると、エントリーシートの確認にあてる時間を 75％軽減でき、それにより創出された時間が応募者との面談など、コミュニケーションにあてられるという。さらに、採用経験が浅い若手とベテランの人事担当者間で評価基準にばらつきが出るということも少なくなるという利点が生まれる。コンピュータが不合格としたエントリーシートについては、必ず人事担当者が目を通すため、エントリーシートがコンピュータだけで評価されているわけではないようだ。このように、AIが活用されるようになると、作文指導においても、いくつかの項目に関する添削作業は軽減され、作文の内容面、論理構成の指導に、より多くの時間をあてることが可能になるだろう。

一方で、研究の分野においても、コンピュータを活用することにより、書き手の文体の特徴の抽出や識別などの研究が加速度的に進んでいる。原田（2005）では、接続表現に着目し、上級レベルの日本語学習者の小論文における文脈展開上の問題点を日本語母語話者の場合と比較して分析を行ったが、研究手法は手作業、目視によるものであった。目視でなければ判定できない部分もあったと思われるが、テキストマイニングを用いた多変量解析によると、目視では気づかないような多次元のことを可視化することも可能になる。また、分析結果の再現性の確保の面からも、より客観性のある分析結果になると思われる。そこで、本研究では、コンピュータのテキストマイニングの手法によって、小論文の分析を行い、原田（2005）で行った目視による接続表現の分析結果を改めて検証しつつ、テキストマイニングによって得られる新たな特徴についても分析を試みる。

(4)

2　テキストマイニングに関する先行研究

テキストマイニングについては、金明哲（2012a）において、以下のように述べられている。

テキストマイニングという用語はデータマイニングから派生している。データマイニング

（data mining）は、データベースの中に格納されている構造化された（structured format）データから、特定のパターンや傾向を掘り出す技術、行為の総称である。ここの構造は、データ表のような形式を指す。マイニング（mining）は、データの山から価値ある情報を掘り出す意味で用いられている。（中略）テキストマイニングは、構造化されていないテキストから目的に応じて情報や知識を掘り出す方法と技術の総称である。テキストマイニングは、テキストを単語や文節などに分割する自然言語処理方法を介し、語句やモデリングしたパターンを集計し、データマイニングの手法で情報を掘り出す。

金明哲（2012b）によると、文章上の特徴を研究対象とする伝統的な文体研究は、特定の作品・作家について、音韻論、語彙論、品詞論、構文論などの観点から、その著者らしい文章表現上の特色を部分的に取り出して論評するのが一般的であるが、文章表現上の特色を列挙する方法には限界があり、印象的、主観的可能性があるという。

そして、より客観的、科学的に研究を進めるために、文章表現上の特色を計量的に分析するのが、文章・文体の統計分析であるとしている。金明哲氏はテキストマイニングにより、文章の書き手の特徴情報の抽出や識別を行い、様々な研究で成果を得ている。金明哲氏の研究のほんの一例を紹介するに過ぎないが、例えば、泉鏡花、岡本綺堂、

島崎藤村の文章について、主な助詞の頻度データを用いた対応分析から、三人の書き手ごとに文章の特徴が分かれることを明らかにした研究や、読点の打ち方（読点をどの文字の後に打つか、読点を打つ間隔、読点をどの品詞の後に打つかといった点）に着目し、泉鏡花、岡本綺堂、島崎藤村の作品を対象に対応分析を行い、三者の特徴が顕著に現れることを実証した研究がある。文学作品の書き手の特徴情報に関する研究に言及すれば、孫昊・金明哲（2015）、孫昊・金明哲（2016）などによって、代筆疑惑がもたれている川端康成の作品（『山の音』、『古都』）等と、代筆したとされている作家の作品を対象に分析を行い、代筆疑惑について検証された研究も多数ある。文学作品のみならず、金明哲氏は、匿名の手紙や電子メールなどの書き手の識別、犯罪にかかわる文章の鑑定にもテキストマイニングを活用し、数多くの成果を上げている。このように、テキストマイニングの手法を用いることで、テキストの書き手の特徴情報の抽出や書き手の識別が客観的に行われているのである。

小林雄一郎（2010）は、日本人の中学生・高校生・大学生によって英語で書かれた論説文を収集した学習者コーパスと、英米の母語話者による英作文を収集したコーパスの中からアメリカ人大学生によって書かれた論説文を分析対象とし、さまざまな談

(5)

話標識の内、主に接続表現、視点、心的態度などに関して分析を行っている。分析には、

やはりテキストマイニングの手法が用いられ、習熟段階の異なる学習者間や母語話者の間での異なる談話標識の頻度や用法が明らかにされている。金明哲（2012a）と同様に、小林雄一郎（2010）においても、テキストマイニングは、テキストデータをコンピュータで計量的に解析し、有益な情報を抽出するためのさまざまな手法の総称であるとされており、手作業でデータを解析することが極めて困難なものでも、テキストデータを統一的な視点から客観的に分析することを可能にすると述べられている。小林雄一郎（2010）の分析は、主に多変量アプローチと言語学的分析に分けられ、多変量アプローチは談話標識の頻度集計に始まり、談話標識の使用傾向については、英語学習者間や英語母語話者間の類似性が相関分析によって数値で表され、対応分析により談話標識の全体的な使用傾向が俯瞰されている。対応分析は、大量のデータを分類・

整理・縮約することでデータの全体像をつかみ、ケース間の関係、変数間の関係、ケースと変数の関係を多次元空間上に視覚化するものだという。小林雄一郎（2010）の研究における対応分析では、談話標識と英語習熟度には関連性があり、習熟度が上がるにつれて談話標識の種類も増加するということが明らかにされている。同研究の言語学的分析においては、日本人学習者の英作文に特徴的な談話標識である接続詞や接続副詞のような高頻度接続詞について、学習者が、ある接続詞を過剰使用するのに対して、

母語話者は接続副詞を巧みに使い分けていると指摘している。また、高頻度接続詞が文脈で生起する割合を図にまとめ、習熟度が上がるにつれて、and、but、so、because などが文頭で生起する割合が小さくなっていくのは、日本語で「また」、「しかし」、「なぜなら」のような接続語で文章を始めることが多いという母語の干渉だと述べていることも興味深い。また、学習者が文頭でsoを多用するのは、言語使用が話し言葉の影響を受けていることの証左となるとも述べている。さらに、学習者がbecauseを文頭に用いた場合に主節を持たない断片文を書くことや、順接や逆接の意味が希薄な場合においても、それらの役割を担う接続詞を使用していることについては日本語の影響もあると指摘している。そして、学習者が文頭で接続詞を用いた場合に不必要なコンマの挿入が見られるのは、接続詞と接続副詞の違いに関する学習者の理解不足があるという要因を挙げている。談話の順序を表すような表現に関しては、学習者の物事を順序立てて書かなければならないという意識が空回りして使用されている場合があり、

それが日本人学習者の場合には、これまでに受けてきた作文指導や教材の影響などにより、接続語の過剰使用の傾向があると述べている。

小林雄一郎（2010）が接続表現、視点、心的態度における分析を行ったことは先にも述べたが、視点という角度から見ると、習熟度が低いほど、１人称単数主格のIが過剰使用され、学習者の作文は基本的なトーンが「主観的」で、話し言葉に近い特徴を持っていると述べている。学習者にとって懐疑や確信の心理を適切に表現するのは難しいが、それらの表現の中でも、母語話者はperhapsを好み、学習者はmaybeを

(6)

好んで用いることなども頻度を調査することで明らかにしている。法助動詞（could、

may、might、would）についても相対頻度を表すことにより、習熟度が上がるにつれて頻度が上昇していくという。

視点と対照的に、命題に対する確信度を強調する修辞法である心的態度の観点からは、学習者がthinkという語、とりわけI thinkというコロケーションを過剰使用するのは、母語話者のように他の多様な語を文脈に応じて使い分けることができていないことが原因であると指摘している。

小林雄一郎（2010）では、テキストマイニングの手法によって、コーパスから、頻度や統計量などの客観的データから極めて有用な情報が得られており、分析の手法面でも非常に参考になる。

3　テキストマイニングによる分析 3.1　分析対象と事前準備

分析対象は、原田（2005）の接続表現の分布に関する研究で対象としたもので、1.上級レベルの日本語学習者（以下、Non-Native：NNと記す）によって執筆されたレポート及び小論文 35 人分と、2.日本語母語話者（以下、Native：Nと記す）の小論文 30 人分である。字数は、1.2.ともに約 800 字で、小論文のテーマは「環境問題」である。

テキストマイニングの手法を用いるための事前準備として、まず、紙ベースの上記分析対象を電子化した。次に、テキストマイニングの分析を実行する際に障害となるテキスト中の記号や感嘆符などを削除（データクリーニング）した。

3.2　接続表現に関する分析

本章の分析では、金明哲氏によって開発されたMTMineR（Multilingual Text Miner with R）を用いて、テキストマイニングによる複数の分析を行った。MTMineR は、テキスト型データを構造化して集計し、R¹を用いて統計的に分析するソフトウェアである。

3.2.1　頻度集計

全てのテキストの中から接続表現を抽出するために、まずMeCabにより形態素解析を実施し、そのうち接続詞、接続助詞をMTMineRのn-gramを用いて抽出し、その出現回数上位の接続表現を集計したものが表１である。

(7)

表１　出現回数上位の接続表現（接続詞）

日本語母語話者

（N）上級日本語学習者

（NN）

しかし 29 また 26

また 20 しかし 24

そして 11 そして 21

すなわち 10 例えば 15

例えば 9 一方 7

つまり 6 だから 5

だが 6 それに 5

あるいは 5 でも 5

したがって 5 あるいは 4

ところが 5

････････････

計 148 計 154

表１から、N、NNともに「しかし」、「また」、「そして」、「例えば」等の出現回数が多いことが分かる。表１には頻度集計結果の一部しか掲載していないが、「すなわち」、

「ところが」、「それでも」はNに多く使用されており、NNにはほとんど使用されていないことを確認した。さらに、「それに」、「でも」、「一方」はNNに多く使用されており、

Nにはほとんど使用されていないことも確認した。これらの結果は、原田(2005)の接続表現の出現回数の結果と概ね一致している。NNの使用した添加を表す列叙の接続表現「それに」に代わるものとして、原田（2005）のNの使用接続表現の意味用法別分類一覧には「加えて」等も挙げられている。

本研究では、いわゆる接続詞とは別に接続助詞も抽出し、出現回数の集計を試みた。

しかし、形態素解析の結果、接続助詞として上位に抽出されたものは、「て」（N：318 回、

NN：426 回）、「ば」（N：46 回、NN：45 回）などであり、これらのように接続助詞として認識されたものを実際の文に戻って確認すると、以下の（ⅰ）（ⅱ）ような文中の「て」

が抽出されていることが判明した。これらのほとんどは、日本語教育で言うところの「て形」の一部であったため、出現回数や出現順位を表に示すのは断念せざるを得なかった。

（ⅰ）他の自然資源と比較して高い生産性を持ち･･･。

（ⅱ）環境問題を解決していくためには･･･。

しかし、NNに 16 回見られた「ので」は、Nが使用した接続助詞の出現回数上位には現れなかったことを付記しておく。

3.2.2　対応分析

次に、分析データにおける接続表現の全体的な使用傾向を俯瞰するためにMTMineR のCorrespondence Analysisを用い、対応分析を実行した。その結果が図１である。

(8)

図１　N 及び NN が使用した接続表現の対応分析

（図中には、使用されていた接続表現が表されており、傍らにある「NN数字」はNNの小論文とその番号を「数字」のみはNの小論文番号を示している。）

図 1 の楕円で囲んだ部分は、NとNNの双方により使用されていた接続表現が分布していることが表されている。また、楕円の外側左上は、相対的にNNの使用頻度が高い「次に」、「それに」、「ですから」などの接続表現が分布しており、一方、楕円の外側右下は、相対的にNの使用頻度が高い「すなわち」、「つまり」、「だが」、「したがって」、

「ところが」などの接続表現が分布している。このように、対応分析により、出現回数に関わらずNとNNの接続表現の使用傾向が可視化されて、NとNNの差異が顕著に認められた。

3.3　小論文の形式的分析

MTMineRのSummaryにより、各小論文の文字の数、文の数、段落数を集計し、

それらの平均を示したものが表 2 である。

表 2　小論文の形式的な分析

日本語母語話者（N）上級日本語学習者（NN）

１小論文あたりの平均文字数 780 736

１小論文あたりの平均段落数 4.36 4.62

１小論文あたりの平均文数 17.23 18.08

(9)

表 2 から、Nは小論文の全体文字数の平均がNNより多いにも関わらず、段落数や文の数が少ないことから、1 文あたりの文字数がNNより多いことが推測される。そのことを検証するため、MTMineRのLengthを用いて文の長さを比較した。そして、

1 文あたりの文字数とその文の数の相関関係を示したものが図 2 である。

0 20 40 60 80 100 120 140 160

0~10 11~20 21~30 31~40 41~50 51~60 61~70 71~80 81~90 91~100 101~110 111~120 121~130 131~140 141~150 151~160 161~170 171~

NN N

文字数（字）

文の数（文）

図 2　1 文あたりの文字数の比較

図 2 のとおり、NNの文は１文が 11 文字から 60 文字のものが多く、Nの文は 71 文字から 120 文字のものが多いことから、NはNNに比べて１文あたりの文字数が多い傾向にあることが分かる。

3.4　小論文の内容面の分析

小論文の中で使用されている名詞の出現頻度をMTMineRのWord Cloudにより可視化し、NとNNの使用傾向を示したものが図 3 である。図中の線より上半分はNN が使用した名詞、下半分はNが使用した名詞であり、文字の大小により使用頻度が表されている。

(10)

＜N＞

＜NN＞

図 3　小論文中の名詞の出現頻度

図３から、NNには「環境」、「日本」、「経済」、「地球」、「資源」、「中国」、「琵琶湖」、「滋賀」、「大気」、「企業」、「日本人」等の名詞が多く使用されており、一方、Nには「人間」、

「科学」、「情報」、「川」、「近代」、「現代」、「山河」、「機械」、「歴史」、「物質」などが多く使用されていることが特徴として挙げられる。また、NNはNと比較すると「環境」、

「日本」、「経済」等が特に大きな字で表されていることから、特定の名詞を偏って使用していると言える。

同じ環境問題というテーマの小論文であっても、NNは中国語母語話者で滋賀県在住の留学生という属性から、小論文の内容が類似していると考えられる。一方で、N は属性が特定できず、また模範小論文という性質上、「原子力」、「捕鯨」、「遺伝子組み換え」、「微生物」、「ゴミ」、「悪臭」、「エネルギー」、「川」等々、内容が多岐にわたっているものと思われる。

(11)

4　目視による接続表現の分析概要 4.1　接続表現の出現回数と重複使用頻度

原田（2005）では、日本語学習者のレポートの文脈展開をより明瞭にするために、

NNによって執筆されたレポート及び小論文における接続表現の使用頻度や分布位置を考察し、Nの小論文と比較した。なお、小論文の字数は約 800 字、資料数は各々 80 人分であったが、原田（2002）において、約 800 字と約 1600 字の小論文とを比較し、

字数が増えても使用接続表現の種類に大差がないことは検証済みである。

原田（2005）で、接続表現を出現回数の多い順に配列した結果、NとNNは共通して「しかし」、「また」、「そして」の順にそれらが最も頻繁に見られ、「例えば」も比較的多く使用していることが明らかになった。また、Nの上位に見られた「このように」、「だが」、「たしかに」、「そのため」は、NNにはほとんど使用されておらず、反対に、NN の上位に見られた「でも」、「ですから」、「それに」はNには 1 回も使用されていないことも明らかにした。接続表現の総数と種類は、Nが計 404 回・90 種、NNが計 312 回・67 種であった。また、出現回数の多い接続表現の重複使用の頻度を調査した結果、

Nは「しかし」、「そして」、「このように」、「だが」を重複して使用する頻度が高いことが判明した一方で、「したがって」、「たしかに」、「むしろ」のように、出現回数が上位に位置していた接続表現であっても、重複使用の頻度が必ずしも高いわけではなく、

NNは「しかし」、「また」、「そして」、「例えば」、「でも」、「だから」、「それに」を重複して使用する頻度が高く、このような両者の使用状況には、話し言葉と書き言葉の使い分けの差が考えられる他、NとNNには、接続表現のレパートリーの豊富さに差があるのではないかと述べた。

なお、原田（2005）では、抽出した接続表現全てを、佐治（1987）の接続詞の分類の表に従い意味用法別に分類した。用法別の考察結果は、以下の 1）〜 3）、意味別の考察結果は 4）〜 6）のようにまとめられる。

1） NとNNには、逆接条件・列叙の用法が多く、転換の用法が少ないことが共通している。

2） Nには注釈の用法が際だって多く見られるのに対し、NNにはそれほど多く使用されていない。

3） NとNNはどちらも列叙の用法を多用するが、NNには最も多い用法であるのに対し、

Nには最も多い用法というわけではない。

4） NとNNには、逆接確定条件と添加の表現が多いことが共通している。

5） Nには要約の表現が少なからず見られるのに対し、NNにはNと比べ極端に少ない。

6） NNはNよりも添加と例示の表現を多用する。

接続表現の意味別・用法別の出現数の考察では、NとNNはともに、逆接確定の条

(12)

件接続及び添加を表す列叙の用法を多く使用し、転換の用法の使用が少ないことが明らかになった。一方で、Nは注釈の用法を頻繁に使用するのに対して、NNはそれほど頻繁に使用しないことも明らかになった。中でも、要約の接続表現は、両者の使用回数の差が顕著であった。これらの接続表現の使用傾向の差異が、両者の文脈展開の違いに関係しているのではないかと考えられた。

4.2　接続表現の分布面からの分析

原田（2005）では、文脈展開を比較するという観点から、各々の接続表現の小論文における分布を示した。分析対象は、上項 4.1 の内、Nは 30 人分、NNは 35 人分であり、「環境問題」に関するものという同じテーマの小論文を選択した。

Nについては、まず、各小論文中でNが使用した接続表現の分布図を作成した。分布図は、接続表現を意味用法別に分類した上で示した。また、分布図の作成段階で、

分布図の前部・中間部・後部の各部分に、ある意味用法の接続表現がまとまって位置しているという傾向が見られたため、傾向を顕著に示すため、分布図は、800 字の小論文を字数面から前部・中間部・後部に区切り、結果を記述した。

さらに、原田（2005）では、単にNとNNの両者がいかなる接続表現をどの部分で使用しているかを明らかにすることのみではなく、接続表現の用いられ方から、両者の文脈展開の違いを明らかにすることを目的としていた。したがって、NNの小論文においては、Nと異なった分析方法をとり、原田（2002）で得られた、NNの小論文において文と文とのつながり方が不自然でわかりにくいと感じられた要因に絞り分析した。具体的には、A類：接続詞の誤用、B類：接続詞要挿入、C類：接続詞不要、D類：

接続詞以外の要因という 4 つのコードを設定し、3 人の日本語母語話者であるコーダーで 35 人分の小論文の各文にコーディングした。コーディング後には、kappa値を求め、

2 者間 3 通りのコーダー間の一致率の基準が満たされた小論文を採用し、より客観性が高まるようにした。ここで用いたCohen's kappaというのは、単純一致率に偶然一致率を考慮した修正を加えたものであり、基準は慣例的に 0.7 とされている。ただし、A類・

C類は、Nが使用した接続表現の分布図と比較する上で、その位置を示すことが分析目的に適うとは考えられなかったため、分布表には含めないものとした。とりわけB 類に関しては、コーディングの多かった列叙（添加）、転換、注釈（「理由の説明」・「要約」）を区別して示し、NNもNの場合と同様に、字数面から前部・中間部・後部に区切り、分析を行った。

Nの文脈展開の特徴は、以下の 1）〜 4）であった。

1）接続表現は、中間部（63 例）・後部（56 例）・前部（38 例）の順で、中間部に最も多く使用されており、前部には比較的少ない。

2）前部には他の部分と比べ、転換の用法が多く見られる。

(13)

3）中間部には他の部分と比べ、条件接続の用法（30 例中逆接が 24 例、順接が 6 例）や並立の用法が多いことが目立つ。

4）後部には注釈の用法（要約 10 例・理由などの説明 5 例・但し書き 3 例・言い換え 2 例・

例示 2 例）や列叙の用法が多い。特に、要約を表す接続表現については後部に際だって多いことが特徴として挙げられる。さらに、条件接続の用法に関しては、全体的な出現回数は逆接が順接よりはるかに多いにも関わらず、後部では、順接（確定及び仮定）が逆接の用法の出現回数を上回った。中でも「したがって」、「故に」、「そこで」のように、

「当然の結果として」、「そのような事情であるから」、「前件の結果」のような意味を表し、

設定条件から導き出される結論を示す時に用いられる表現が多い。

一方で、NNの小論文に必要とされた接続表現の分布図から見られた文脈展開の特徴は、以下の 5）〜 7）である。

5）列叙と転換の接続表現を要するコードが、中間部に位置していることが目立ち、このことから、中間部で文の添加や話題の転換が行われ、その際に文脈展開を明確にする接続表現が使用されていない。

6）後部、特に最後の一文において、要約の意味を表す注釈の接続表現を必要とするコード及び要約しようとしていながらそのことが不明瞭であるというコードが多く見受けられる。

7）分布の全体的様相に言及すれば、前部より特に中間部以降に接続表現を要するコードが多く見られ、文脈展開が不明瞭となる問題点が集中している。

それぞれの分布図、分析結果の詳細、NNの文脈展開を明瞭にするための示唆等は、

原田（2002）、原田（2005）を参照されたいのだが、総じて述べると、NNは小論文の中間部で、文の添加や話題の転換を行っているものの、その際に適切な接続表現を使用していないことが多いが、Nは前部の段階において話題を転換させる傾向があり、

中間部においてはむしろ条件接続を用いたり、接続表現の他にも様々な表現を駆使して文と文を選択的に並べ立てていることが明らかになった。また、NNの小論文は、後部、

特に最後の一文において論全体を要約しようとしていながら適切な接続表現を使用せず、その主旨が不明瞭なことが多いが、Nは要約にあたって文章の後部に要約を表す注釈の表現や順接の条件接続表現を多く使用し、Nが小論文の中間部・後部に多くの接続表現を使用していたことと対照的に、NNの小論文では、中間部・後部に補うべき接続表現が多く、前部よりもむしろ中間部以降の部分に多くの問題点が集中していることを指摘した。

(14)

5　考察

本稿第３章、第４章では、NとNNの小論文を対象に、テキストマイニングの手法を用いた分析と目視により分析した結果を示した。そして、接続表現の頻度を集計した結果では、テキストマイニングを用いた場合も目視で集計した場合もほぼ同様の結果が得られた。

また、テキストマイニングの手法を用いて対応分析を実行することによって、Nと NNの接続表現の使用傾向に顕著な差異があることを多次元空間上に可視化することが可能となった。同時に、一つの小論文あたりの平均文字数や平均段落数や平均文数などのNとNNの形式面の計量的分析もテキストマイニングにより行った。この分析により、Nは１文あたりの文字数が多いが、NNより多種の接続表現を使用しており、

そのことで、つながりが不明瞭にならないように文脈展開をしているということも予測される。

さらに、接続表現の観点だけではなく、書き手が何に興味を持ち、小論文を執筆しているかもWord Cloudにより可視化した。このことは作文を評価する一助となるものと思われる。

問題点として、目視によって抽出されたものの中に、テキストマイニングの手法では抽出できなかった接続表現もあったことが課題として残る。例えば、NNが使用していた、選択を表す接続表現の「逆に」は形態素解析において「逆（名詞）+に（助詞）」

として、「他方」は名詞として認識された。話し言葉ではあるが、NNによって使用されていた、説明を表す注釈の接続表現「なぜかというと」は「なぜ（助詞類接続の副詞）

+か（助詞）+と（助詞）+いう（動詞）+と（助詞）」のように刻まれた形で認識され、

接続表現としては抽出されなかったり、添加を表す列叙の接続表現「あと」も名詞として認識されていた。要約を表す注釈の接続表現としてNが使用していた「このように」は「この（連体詞）+よう（名詞）+に（助詞）」、「以上のように」は「以上（名詞）

+の（助詞）+よう（名詞）+に（助詞）」と認識され、構文解析を実行しても、文頭にある接続表現を抽出するのは困難であった。

さらに、質的分析においては、NNの接続表現の誤用やNNの文中にいかなる接続表現をどこに挿入する必要があるか、あるいは接続表現が不要であるかや、接続表現以外の文脈展開を不明瞭にする要因があることなども含め、目視による確認作業も欠かせないという結論に至った。特に、接続表現以外に文脈展開を不明瞭にしている要因については、付記しておくべき点がある。小林雄一郎（2010）では、Hyland listによるさまざまな談話標識の内、主に接続表現、視点、心的態度に関して分析を行っていた。小林雄一郎（2010）で述べられている接続表現、視点、心的態度とは、定義が全く同一というわけではないと思われるが、本研究でも視点について、次のような気付きがあった。まず、日本語母語話者がD類つまり接続表現以外の要因で文脈展開が不明瞭になっているとコーディングしたNNの小論文の中に、「環境保護」→「環境破壊」

(15)

→「環境汚染」と一文ごとに主題となる名詞が変化しながら話題が展開されているものが見受けられ、視点に一貫性がないことで、文脈展開のつながりの悪さが感じられるものがあった。また、D類とコーディングされた箇所以外にも、主語が本来「ある企業」→「企業」→「企業」→「環境保護対策」という視点とするのが自然である文脈に対して、「環境保護対策」→「住民」→「環境保護対策」→「私」のように、一文ごとに主語が変化しており、視点がどこにあるのか分かりづらいものも見受けられた。

また、心的態度に関しては、Nの小論文には「〜と思えてならない。」、「〜と考えられる。」のような表現が多数見受けられたのに対し、NNにはそのような表現はほぼ見られず、「〜だ。」、「〜である。」等々の断定的表現が多く使用されていた。これらの視点や心的態度については、今後さらなる考察が必要だと考える。

以上のように、言語学的研究の質的分析には、目視による考察が不可欠であるとはいえ、テキストマイニングの手法を用いることは、目視による分析を、より客観的に示すことができるばかりでなく、手作業では得られなかった多くの点を同時に明らかにすることが可能となるため、テキストマイニングの手法で多角度的に考察することには意義があると思われる。

6　おわりに

本稿では、テキストマイニングの手法を用い、原田（2005）で得られた結果と比較した。その結果、本稿においても、接続表現の使用に関して、高頻度のものについては、原田（2005）における計量的分析と概ね同様の結果が得られ、日本語母語話者と上級日本語学習者の接続表現の使用状況に関する研究の客観性を検証することができた。且つ、テキストマイニングの手法を用いた分析では、文の長さ、段落数、文の数など、手作業では可視化することが難しかった点について、日本語母語話者と日本語学習者の小論文における差異を明らかにすることができた。さらに、接続表現の使用状況に留まらず、小論文の内容について新たな側面も見出せた。内容に関する考察は、

書き手が興味を持っていることを明らかにできるという面もあるが、書き手が興味を持っている分野において、どのような語彙が使用されているかを知ることで、作文指導において押さえておきたい語彙や表現を抽出できるため、非日本語母語話者への作文指導にも活かすことができる。言語学的研究には質的分析も不可欠であることは明白だが、テキストマイニングを用いた分析は、言語学的研究においても多くの可能性を秘めている。

本稿では、テキストマイニングの手法のごく一部を用いたに過ぎないため、今後は、

テキストマイニングという手法の特性をさらに活用し、会話コーパスを対象に、接続表現やフィラーや終助詞の使用状況について、年代や性別などの属性別の特徴を明らかにしていきたい。

(16)

注

1 Rとは、ニュージーランドのオークランド大学統計学科のRoss Ihakaとアメリカのハーバード大学の生物統計学科のRobert Gentlemanにより開発が始められ、1997 年以降、

多くの賛同者によって開発が続けられているオープンソース方式のデータ解析・処理の専用ソフトのことである。詳しくは、金明哲（2017）『Rによるデータサイエンス』

を参照されたい。

参考文献

石田基広（2008）『Rによるテキストマイニング入門』森北出版

石田基広・小林雄一郎（2013）『Rで学ぶ日本語テキストマイニング』ひつじ書房内田治（2010）『数量化理論とテキストマイニング』日科技連出版社

岸江信介・田畑智司共編（2014）ひつじ研究叢書〈言語編〉『テキストマイニングによる言語研究』第 121 巻，ひつじ書房

金明哲（2009）『テキストデータの統計科学入門』岩波書店

―――（2012a）「コーパスとテキストマイニングとは」『コーパスとテキストマイニング』

石田基広・金明哲編著，共立出版，pp.1-14.

―――（2012b）「文章の書き手の特徴情報と書き手の識別」『コーパスとテキストマイニング』

石田基広・金明哲編著，共立出版，pp.55-69.

―――（2017）『Rによるデータサイエンス』第２版，森北出版

小林雄一郎（2010）『第 22 回「英検」研究助成報告』財団法人日本英語検定協会

孫昊・金明哲（2015）「川端康成『山の音』の代筆疑惑検証―計量文体学の観点から」言語処理学会第 21 回年次大会

――――――（2016）「統合的分類法による『古都』の著者推定」行動計量学会第 44 回大会

データサイエンス研究室（2018）『MTMineRマニュアル』

https://mjin.doshisha.ac.jp/lab/MTMineR_intro.pdf，2018 年 8 月 8 日閲覧

原田朋子（2002）「中国語母語学生の作文における文脈展開上の問題点―接続表現観点から

―」『平成 14 年度日本語教育学会第７回研究集会予稿集』pp.45-48.

――――（2005）「接続表現から見た文脈展開―日本語母語話者と上級日本語学習者の小論文比較―」『同志社女子大学大学院文学研究科紀要』第５号，pp.103-120.

樋口耕一（2018）『KH Coder 3 リファレンス・マニュアル』KH Coder 3

涌井良幸・貞美共著（2011）『初歩からしっかり学ぶ実習多変量解析入門〜Excel演習でムリなくわかる』技術評論社

: テキストマイニング手法と目視による分析を通し て

: テキストマイニング手法と目視による分析を通し て

著者 原田 朋子

雑誌名 同志社大学日本語・日本文化研究

号 16

ページ 1‑15

発行年 2019‑03

権利 同志社大学日本語・日本文化教育センター

URL http://doi.org/10.14988/pa.2019.0000000074

日本語母語話者と上級日本語学習者の小論文の比較

−テキストマイニング手法と目視による分析を通して−

A Comparison of Essays Written by Japanese Native Speakers and Advanced Japanese Learners Analyzed

through Text-Mining and Observation

原田 朋子

: テキストマイニング手法と目視による分析を通して

: テキストマイニング手法と目視による分析を通して

著者原田朋子

雑誌名同志社大学日本語・日本文化研究

権利同志社大学日本語・日本文化教育センター

原田朋子