• 検索結果がありません。

: テキストマイニング手法と目視による分析を通し て

N/A
N/A
Protected

Academic year: 2021

シェア ": テキストマイニング手法と目視による分析を通し て"

Copied!
16
0
0

読み込み中.... (全文を見る)

全文

(1)

: テキストマイニング手法と目視による分析を通し

著者 原田 朋子

雑誌名 同志社大学日本語・日本文化研究

号 16

ページ 1‑15

発行年 2019‑03

権利 同志社大学日本語・日本文化教育センター

URL http://doi.org/10.14988/pa.2019.0000000074

(2)

要 旨

 テキストマイニングは、テキストデータをコンピュータで形態素解析したもの を計量的に分析し、テキストの書き手の特徴情報の抽出を可能にし、書き手によっ て異なる特徴を客観的に可視化する手法である。

 筆者は、原田(2005)において、日本語母語話者と上級レベルの日本語学習者 の接続表現使用傾向の目視による分析を行った。また、原田(2005)では、上級 レベルの日本語学習者の小論文の文脈展開を不明瞭にしている要因について、3 名の日本語母語話者によって、コーディングし、判定作業を行った。

 本稿では、原田(2005)で分析対象としたものと同じく、日本語母語話者と上 級レベルの日本語学習者の小論文を対象に、テキストマイニングの手法を用いて、

原田(2005)の結果を再検証した。その結果、計量的分析においては、テキスト マイニングの手法を用いたことで、両者の差異を可視化することができ、両者の 差をより客観的に示すことが可能となった。また、本稿では、原田(2005)で得 られなかった1文あたりの文字数や段落数や文の長さの観点からも考察し、接続 表現だけでなく、名詞の使用傾向の分析も加え、両者の小論文の内容面の分析も 行った。しかしながら、言語学的研究の質的分析には、目視による考察も欠かせ ないことから、原田(2005)で明らかにした質的分析で得られた結果を整理し、

併せて考察することにより、テキストマイニングの手法を用いた分析で得られる 情報と、目視による分析でしか得られない情報を明らかにすることもできた。

キーワード

日本語 テキストマイニング 接続表現 母語話者 学習者

1 はじめに

 これまでにコンピュータによる作文添削ツールは数々存在するが、教師の添削レベ ルに達するようなものは言うまでもなく、十分な機能を備えたものは未だ見られない。

日本語母語話者と上級日本語学習者の小論文の比較

−テキストマイニング手法と目視による分析を通して−

A Comparison of Essays Written by Japanese Native Speakers and Advanced Japanese Learners Analyzed

through Text-Mining and Observation

原田 朋子

(3)

しかし、従来の作文添削ツールとは異なり、近年では、AIの発達により、コンピュー タ自らが考え、学習し、答えを導き出すシステムが様々な分野で用いられつつある。

日本語教育における作文指導において、教師は長年の経験上、日本語学習者の接続表 現や指示詞や助詞の使われ方等に問題点を見出していることもあろうが、それらの客 観的な分析結果を整理するには、例文の収集から特徴抽出・分析、可視化に至るまで、

長い年月を要する。

 近い将来には、研究への活用に留まらず、作文添削への応用にコンピュータがさら に活用される日も来るだろう。例えば、企業において、既に人事選考を行う際に、AI が活用されている場合がある。過去のデータをコンピュータに学習させ、応募者のエ ントリーシートデータを読み込ませると、自然言語分析によって、エントリーシート の内容が認識され、項目ごとに評価が提示されるという。そして、合格基準を満たす 評価が提示された項目は選考通過とされ、それ以外の項目は人事担当者が内容を確認 して、合否の判断を行うというシステムだと聞く。以前は、応募者全員分のエントリー シートを読むために、約 10 人で取り掛かり、年間で 800 時間以上もの時間を費やして いたが、コンピュータに確認作業を任せると、エントリーシートの確認にあてる時間 を 75%軽減でき、それにより創出された時間が応募者との面談など、コミュニケーショ ンにあてられるという。さらに、採用経験が浅い若手とベテランの人事担当者間で評 価基準にばらつきが出るということも少なくなるという利点が生まれる。コンピュー タが不合格としたエントリーシートについては、必ず人事担当者が目を通すため、エ ントリーシートがコンピュータだけで評価されているわけではないようだ。このよう に、AIが活用されるようになると、作文指導においても、いくつかの項目に関する添 削作業は軽減され、作文の内容面、論理構成の指導に、より多くの時間をあてること が可能になるだろう。

 一方で、研究の分野においても、コンピュータを活用することにより、書き手の文 体の特徴の抽出や識別などの研究が加速度的に進んでいる。原田(2005)では、接続 表現に着目し、上級レベルの日本語学習者の小論文における文脈展開上の問題点を日 本語母語話者の場合と比較して分析を行ったが、研究手法は手作業、目視によるもの であった。目視でなければ判定できない部分もあったと思われるが、テキストマイニ ングを用いた多変量解析によると、目視では気づかないような多次元のことを可視化 することも可能になる。また、分析結果の再現性の確保の面からも、より客観性のあ る分析結果になると思われる。そこで、本研究では、コンピュータのテキストマイニ ングの手法によって、小論文の分析を行い、原田(2005)で行った目視による接続表 現の分析結果を改めて検証しつつ、テキストマイニングによって得られる新たな特徴 についても分析を試みる。

(4)

2 テキストマイニングに関する先行研究

 テキストマイニングについては、金明哲(2012a)において、以下のように述べられ ている。

 テキストマイニングという用語はデータマイニングから派生している。データマイニング

(data mining)は、データベースの中に格納されている構造化された(structured format)デー タから、特定のパターンや傾向を掘り出す技術、行為の総称である。ここの構造は、データ 表のような形式を指す。マイニング(mining)は、データの山から価値ある情報を掘り出 す意味で用いられている。(中略)テキストマイニングは、構造化されていないテキストか ら目的に応じて情報や知識を掘り出す方法と技術の総称である。テキストマイニングは、テ キストを単語や文節などに分割する自然言語処理方法を介し、語句やモデリングしたパター ンを集計し、データマイニングの手法で情報を掘り出す。

 金明哲(2012b)によると、文章上の特徴を研究対象とする伝統的な文体研究は、特 定の作品・作家について、音韻論、語彙論、品詞論、構文論などの観点から、その著 者らしい文章表現上の特色を部分的に取り出して論評するのが一般的であるが、文章 表現上の特色を列挙する方法には限界があり、印象的、主観的可能性があるという。

そして、より客観的、科学的に研究を進めるために、文章表現上の特色を計量的に分 析するのが、文章・文体の統計分析であるとしている。金明哲氏はテキストマイニン グにより、文章の書き手の特徴情報の抽出や識別を行い、様々な研究で成果を得てい る。金明哲氏の研究のほんの一例を紹介するに過ぎないが、例えば、泉鏡花、岡本綺堂、

島崎藤村の文章について、主な助詞の頻度データを用いた対応分析から、三人の書き 手ごとに文章の特徴が分かれることを明らかにした研究や、読点の打ち方(読点をど の文字の後に打つか、読点を打つ間隔、読点をどの品詞の後に打つかといった点)に 着目し、泉鏡花、岡本綺堂、島崎藤村の作品を対象に対応分析を行い、三者の特徴が 顕著に現れることを実証した研究がある。文学作品の書き手の特徴情報に関する研究 に言及すれば、孫昊・金明哲(2015)、孫昊・金明哲(2016)などによって、代筆疑惑 がもたれている川端康成の作品(『山の音』、『古都』)等と、代筆したとされている作 家の作品を対象に分析を行い、代筆疑惑について検証された研究も多数ある。文学作 品のみならず、金明哲氏は、匿名の手紙や電子メールなどの書き手の識別、犯罪にか かわる文章の鑑定にもテキストマイニングを活用し、数多くの成果を上げている。こ のように、テキストマイニングの手法を用いることで、テキストの書き手の特徴情報 の抽出や書き手の識別が客観的に行われているのである。

 小林雄一郎(2010)は、日本人の中学生・高校生・大学生によって英語で書かれた 論説文を収集した学習者コーパスと、英米の母語話者による英作文を収集したコーパ スの中からアメリカ人大学生によって書かれた論説文を分析対象とし、さまざまな談

(5)

話標識の内、主に接続表現、視点、心的態度などに関して分析を行っている。分析には、

やはりテキストマイニングの手法が用いられ、習熟段階の異なる学習者間や母語話者 の間での異なる談話標識の頻度や用法が明らかにされている。金明哲(2012a)と同様 に、小林雄一郎(2010)においても、テキストマイニングは、テキストデータをコン ピュータで計量的に解析し、有益な情報を抽出するためのさまざまな手法の総称であ るとされており、手作業でデータを解析することが極めて困難なものでも、テキスト データを統一的な視点から客観的に分析することを可能にすると述べられている。小 林雄一郎(2010)の分析は、主に多変量アプローチと言語学的分析に分けられ、多変 量アプローチは談話標識の頻度集計に始まり、談話標識の使用傾向については、英語 学習者間や英語母語話者間の類似性が相関分析によって数値で表され、対応分析によ り談話標識の全体的な使用傾向が俯瞰されている。対応分析は、大量のデータを分類・

整理・縮約することでデータの全体像をつかみ、ケース間の関係、変数間の関係、ケー スと変数の関係を多次元空間上に視覚化するものだという。小林雄一郎(2010)の研 究における対応分析では、談話標識と英語習熟度には関連性があり、習熟度が上がる につれて談話標識の種類も増加するということが明らかにされている。同研究の言語 学的分析においては、日本人学習者の英作文に特徴的な談話標識である接続詞や接続 副詞のような高頻度接続詞について、学習者が、ある接続詞を過剰使用するのに対して、

母語話者は接続副詞を巧みに使い分けていると指摘している。また、高頻度接続詞が 文脈で生起する割合を図にまとめ、習熟度が上がるにつれて、and、but、so、because などが文頭で生起する割合が小さくなっていくのは、日本語で「また」、「しかし」、「な ぜなら」のような接続語で文章を始めることが多いという母語の干渉だと述べている ことも興味深い。また、学習者が文頭でsoを多用するのは、言語使用が話し言葉の影 響を受けていることの証左となるとも述べている。さらに、学習者がbecauseを文頭 に用いた場合に主節を持たない断片文を書くことや、順接や逆接の意味が希薄な場合 においても、それらの役割を担う接続詞を使用していることについては日本語の影響 もあると指摘している。そして、学習者が文頭で接続詞を用いた場合に不必要なコン マの挿入が見られるのは、接続詞と接続副詞の違いに関する学習者の理解不足がある という要因を挙げている。談話の順序を表すような表現に関しては、学習者の物事を 順序立てて書かなければならないという意識が空回りして使用されている場合があり、

それが日本人学習者の場合には、これまでに受けてきた作文指導や教材の影響などに より、接続語の過剰使用の傾向があると述べている。

 小林雄一郎(2010)が接続表現、視点、心的態度における分析を行ったことは先に も述べたが、視点という角度から見ると、習熟度が低いほど、1人称単数主格のIが 過剰使用され、学習者の作文は基本的なトーンが「主観的」で、話し言葉に近い特徴 を持っていると述べている。学習者にとって懐疑や確信の心理を適切に表現するのは 難しいが、それらの表現の中でも、母語話者はperhapsを好み、学習者はmaybeを

(6)

好んで用いることなども頻度を調査することで明らかにしている。法助動詞(could、

may、might、would)についても相対頻度を表すことにより、習熟度が上がるにつれ て頻度が上昇していくという。

 視点と対照的に、命題に対する確信度を強調する修辞法である心的態度の観点から は、学習者がthinkという語、とりわけI thinkというコロケーションを過剰使用する のは、母語話者のように他の多様な語を文脈に応じて使い分けることができていない ことが原因であると指摘している。

 小林雄一郎(2010)では、テキストマイニングの手法によって、コーパスから、頻 度や統計量などの客観的データから極めて有用な情報が得られており、分析の手法面 でも非常に参考になる。

3 テキストマイニングによる分析 3.1 分析対象と事前準備

 分析対象は、原田(2005)の接続表現の分布に関する研究で対象としたもので、1.上 級レベルの日本語学習者(以下、Non-Native:NNと記す)によって執筆されたレポー ト及び小論文 35 人分と、2.日本語母語話者(以下、Native:Nと記す)の小論文 30 人分である。字数は、1.2.ともに約 800 字で、小論文のテーマは「環境問題」である。

 テキストマイニングの手法を用いるための事前準備として、まず、紙ベースの上記 分析対象を電子化した。次に、テキストマイニングの分析を実行する際に障害となる テキスト中の記号や感嘆符などを削除(データクリーニング)した。

3.2 接続表現に関する分析

  本 章 の 分 析 で は、 金 明 哲 氏 に よ っ て 開 発 さ れ たMTMineR(Multilingual Text Miner with R)を用いて、テキストマイニングによる複数の分析を行った。MTMineR は、テキスト型データを構造化して集計し、R1を用いて統計的に分析するソフトウェ アである。

3.2.1 頻度集計

 全てのテキストの中から接続表現を抽出するために、まずMeCabにより形態素解析 を実施し、そのうち接続詞、接続助詞をMTMineRのn-gramを用いて抽出し、その 出現回数上位の接続表現を集計したものが表1である。

(7)

表1 出現回数上位の接続表現(接続詞)

日本語母語話者

(N) 上級日本語学習者

(NN)

しかし 29 また 26

また 20 しかし 24

そして 11 そして 21

すなわち 10 例えば 15

例えば 9 一方 7

つまり 6 だから 5

だが 6 それに 5

あるいは 5 でも 5

したがって 5 あるいは 4

ところが 5

・・・ ・・・ ・・・ ・・・

148 154

 表1から、N、NNともに「しかし」、「また」、「そして」、「例えば」等の出現回数が 多いことが分かる。表1には頻度集計結果の一部しか掲載していないが、「すなわち」、

「ところが」、「それでも」はNに多く使用されており、NNにはほとんど使用されてい ないことを確認した。さらに、「それに」、「でも」、「一方」はNNに多く使用されており、

Nにはほとんど使用されていないことも確認した。これらの結果は、原田(2005)の接 続表現の出現回数の結果と概ね一致している。NNの使用した添加を表す列叙の接続 表現「それに」に代わるものとして、原田(2005)のNの使用接続表現の意味用法別 分類一覧には「加えて」等も挙げられている。

 本研究では、いわゆる接続詞とは別に接続助詞も抽出し、出現回数の集計を試みた。

しかし、形態素解析の結果、接続助詞として上位に抽出されたものは、「て」(N:318 回、

NN:426 回)、「ば」(N:46 回、NN:45 回)などであり、これらのように接続助詞と して認識されたものを実際の文に戻って確認すると、以下の(ⅰ)(ⅱ)ような文中の「て」

が抽出されていることが判明した。これらのほとんどは、日本語教育で言うところの「て 形」の一部であったため、出現回数や出現順位を表に示すのは断念せざるを得なかった。

(ⅰ)他の自然資源と比較して高い生産性を持ち ・・・。

(ⅱ)環境問題を解決していくためには ・・・。

 しかし、NNに 16 回見られた「ので」は、Nが使用した接続助詞の出現回数上位に は現れなかったことを付記しておく。

3.2.2 対応分析

 次に、分析データにおける接続表現の全体的な使用傾向を俯瞰するためにMTMineR のCorrespondence Analysisを用い、対応分析を実行した。その結果が図1である。

(8)

図1 N 及び NN が使用した接続表現の対応分析

(図中には、使用されていた接続表現が表されており、傍らにある「NN数字」はNNの小論文と その番号を「数字」のみはNの小論文番号を示している。)

 図 1 の楕円で囲んだ部分は、NとNNの双方により使用されていた接続表現が分布 していることが表されている。また、楕円の外側左上は、相対的にNNの使用頻度が 高い「次に」、「それに」、「ですから」などの接続表現が分布しており、一方、楕円の 外側右下は、相対的にNの使用頻度が高い「すなわち」、「つまり」、「だが」、「したがって」、

「ところが」などの接続表現が分布している。このように、対応分析により、出現回数 に関わらずNとNNの接続表現の使用傾向が可視化されて、NとNNの差異が顕著に 認められた。

3.3 小論文の形式的分析

 MTMineRのSummaryにより、各小論文の文字の数、文の数、段落数を集計し、

それらの平均を示したものが表 2 である。

表 2 小論文の形式的な分析

日本語母語話者(N) 上級日本語学習者(NN)

1小論文あたりの平均文字数 780 736

1小論文あたりの平均段落数 4.36 4.62

1小論文あたりの平均文数  17.23 18.08

(9)

 表 2 から、Nは小論文の全体文字数の平均がNNより多いにも関わらず、段落数や 文の数が少ないことから、1 文あたりの文字数がNNより多いことが推測される。そ のことを検証するため、MTMineRのLengthを用いて文の長さを比較した。そして、

1 文あたりの文字数とその文の数の相関関係を示したものが図 2 である。

0 20 40 60 80 100 120 140 160

0~10 11~20 21~30 31~40 41~50 51~60 61~70 71~80 81~90 91~100 101~110 111~120 121~130 131~140 141~150 151~160 161~170 171~

NN N

文字数(字)

図 2 1 文あたりの文字数の比較

 図 2 のとおり、NNの文は1文が 11 文字から 60 文字のものが多く、Nの文は 71 文 字から 120 文字のものが多いことから、NはNNに比べて1文あたりの文字数が多い 傾向にあることが分かる。

3.4 小論文の内容面の分析

 小論文の中で使用されている名詞の出現頻度をMTMineRのWord Cloudにより可 視化し、NとNNの使用傾向を示したものが図 3 である。図中の線より上半分はNN が使用した名詞、下半分はNが使用した名詞であり、文字の大小により使用頻度が表 されている。

(10)

<N>

<NN>

図 3 小論文中の名詞の出現頻度

 図3から、NNには「環境」、「日本」、「経済」、「地球」、「資源」、「中国」、「琵琶湖」、「滋 賀」、「大気」、「企業」、「日本人」等の名詞が多く使用されており、一方、Nには「人間」、

「科学」、「情報」、「川」、「近代」、「現代」、「山河」、「機械」、「歴史」、「物質」などが多 く使用されていることが特徴として挙げられる。また、NNはNと比較すると「環境」、

「日本」、「経済」等が特に大きな字で表されていることから、特定の名詞を偏って使用 していると言える。

 同じ環境問題というテーマの小論文であっても、NNは中国語母語話者で滋賀県在 住の留学生という属性から、小論文の内容が類似していると考えられる。一方で、N は属性が特定できず、また模範小論文という性質上、「原子力」、「捕鯨」、「遺伝子組み 換え」、「微生物」、「ゴミ」、「悪臭」、「エネルギー」、「川」等々、内容が多岐にわたっ ているものと思われる。

(11)

4 目視による接続表現の分析概要 4.1 接続表現の出現回数と重複使用頻度

 原田(2005)では、日本語学習者のレポートの文脈展開をより明瞭にするために、

NNによって執筆されたレポート及び小論文における接続表現の使用頻度や分布位置 を考察し、Nの小論文と比較した。なお、小論文の字数は約 800 字、資料数は各々 80 人分であったが、原田(2002)において、約 800 字と約 1600 字の小論文とを比較し、

字数が増えても使用接続表現の種類に大差がないことは検証済みである。

 原田(2005)で、接続表現を出現回数の多い順に配列した結果、NとNNは共通して「し かし」、「また」、「そして」の順にそれらが最も頻繁に見られ、「例えば」も比較的多く 使用していることが明らかになった。また、Nの上位に見られた「このように」、「だ が」、「たしかに」、「そのため」は、NNにはほとんど使用されておらず、反対に、NN の上位に見られた「でも」、「ですから」、「それに」はNには 1 回も使用されていない ことも明らかにした。接続表現の総数と種類は、Nが計 404 回・90 種、NNが計 312 回・67 種であった。また、出現回数の多い接続表現の重複使用の頻度を調査した結果、

Nは「しかし」、「そして」、「このように」、「だが」を重複して使用する頻度が高いこ とが判明した一方で、「したがって」、「たしかに」、「むしろ」のように、出現回数が上 位に位置していた接続表現であっても、重複使用の頻度が必ずしも高いわけではなく、

NNは「しかし」、「また」、「そして」、「例えば」、「でも」、「だから」、「それに」を重 複して使用する頻度が高く、このような両者の使用状況には、話し言葉と書き言葉の 使い分けの差が考えられる他、NとNNには、接続表現のレパートリーの豊富さに差 があるのではないかと述べた。

 なお、原田(2005)では、抽出した接続表現全てを、佐治(1987)の接続詞の分類 の表に従い意味用法別に分類した。用法別の考察結果は、以下の 1)〜 3)、意味別の 考察結果は 4)〜 6)のようにまとめられる。

1) NNNには、逆接条件・列叙の用法が多く、転換の用法が少ないことが共通している。

2) Nには注釈の用法が際だって多く見られるのに対し、NNにはそれほど多く使用されて いない。

3) NNNはどちらも列叙の用法を多用するが、NNには最も多い用法であるのに対し、

Nには最も多い用法というわけではない。

4) NNNには、逆接確定条件と添加の表現が多いことが共通している。

5) Nには要約の表現が少なからず見られるのに対し、NNにはNと比べ極端に少ない。

6) NNNよりも添加と例示の表現を多用する。

 接続表現の意味別・用法別の出現数の考察では、NとNNはともに、逆接確定の条

(12)

件接続及び添加を表す列叙の用法を多く使用し、転換の用法の使用が少ないことが明 らかになった。一方で、Nは注釈の用法を頻繁に使用するのに対して、NNはそれほ ど頻繁に使用しないことも明らかになった。中でも、要約の接続表現は、両者の使用 回数の差が顕著であった。これらの接続表現の使用傾向の差異が、両者の文脈展開の 違いに関係しているのではないかと考えられた。

4.2 接続表現の分布面からの分析

 原田(2005)では、文脈展開を比較するという観点から、各々の接続表現の小論文 における分布を示した。分析対象は、上項 4.1 の内、Nは 30 人分、NNは 35 人分であ り、「環境問題」に関するものという同じテーマの小論文を選択した。

 Nについては、まず、各小論文中でNが使用した接続表現の分布図を作成した。分 布図は、接続表現を意味用法別に分類した上で示した。また、分布図の作成段階で、

分布図の前部・中間部・後部の各部分に、ある意味用法の接続表現がまとまって位置 しているという傾向が見られたため、傾向を顕著に示すため、分布図は、800 字の小論 文を字数面から前部・中間部・後部に区切り、結果を記述した。

 さらに、原田(2005)では、単にNとNNの両者がいかなる接続表現をどの部分で 使用しているかを明らかにすることのみではなく、接続表現の用いられ方から、両者 の文脈展開の違いを明らかにすることを目的としていた。したがって、NNの小論文 においては、Nと異なった分析方法をとり、原田(2002)で得られた、NNの小論文 において文と文とのつながり方が不自然でわかりにくいと感じられた要因に絞り分析 した。具体的には、A類:接続詞の誤用、B類:接続詞要挿入、C類:接続詞不要、D類:

接続詞以外の要因という 4 つのコードを設定し、3 人の日本語母語話者であるコーダー で 35 人分の小論文の各文にコーディングした。コーディング後には、kappa値を求め、

2 者間 3 通りのコーダー間の一致率の基準が満たされた小論文を採用し、より客観性が 高まるようにした。ここで用いたCohen's kappaというのは、単純一致率に偶然一致 率を考慮した修正を加えたものであり、基準は慣例的に 0.7 とされている。ただし、A類・

C類は、Nが使用した接続表現の分布図と比較する上で、その位置を示すことが分析 目的に適うとは考えられなかったため、分布表には含めないものとした。とりわけB 類に関しては、コーディングの多かった列叙(添加)、転換、注釈(「理由の説明」・「要 約」)を区別して示し、NNもNの場合と同様に、字数面から前部・中間部・後部に区 切り、分析を行った。

 Nの文脈展開の特徴は、以下の 1)〜 4)であった。

1) 接続表現は、中間部(63 例)・後部(56 例)・前部(38 例)の順で、中間部に最も多く 使用されており、前部には比較的少ない。

2) 前部には他の部分と比べ、転換の用法が多く見られる。

(13)

3) 中間部には他の部分と比べ、条件接続の用法(30 例中逆接が 24 例、順接が 6 例)や並 立の用法が多いことが目立つ。

4) 後部には注釈の用法(要約 10 例・理由などの説明 5 例・但し書き 3 例・言い換え 2 例・

例示 2 例)や列叙の用法が多い。特に、要約を表す接続表現については後部に際だって 多いことが特徴として挙げられる。さらに、条件接続の用法に関しては、全体的な出現 回数は逆接が順接よりはるかに多いにも関わらず、後部では、順接(確定及び仮定)が 逆接の用法の出現回数を上回った。中でも「したがって」、「故に」、「そこで」のように、

「当然の結果として」、「そのような事情であるから」、「前件の結果」のような意味を表し、

設定条件から導き出される結論を示す時に用いられる表現が多い。

 一方で、NNの小論文に必要とされた接続表現の分布図から見られた文脈展開の特 徴は、以下の 5)〜 7)である。

5) 列叙と転換の接続表現を要するコードが、中間部に位置していることが目立ち、このこ とから、中間部で文の添加や話題の転換が行われ、その際に文脈展開を明確にする接続 表現が使用されていない。

6) 後部、特に最後の一文において、要約の意味を表す注釈の接続表現を必要とするコード 及び要約しようとしていながらそのことが不明瞭であるというコードが多く見受けられ る。

7) 分布の全体的様相に言及すれば、前部より特に中間部以降に接続表現を要するコードが 多く見られ、文脈展開が不明瞭となる問題点が集中している。

 それぞれの分布図、分析結果の詳細、NNの文脈展開を明瞭にするための示唆等は、

原田(2002)、原田(2005)を参照されたいのだが、総じて述べると、NNは小論文の 中間部で、文の添加や話題の転換を行っているものの、その際に適切な接続表現を使 用していないことが多いが、Nは前部の段階において話題を転換させる傾向があり、

中間部においてはむしろ条件接続を用いたり、接続表現の他にも様々な表現を駆使し て文と文を選択的に並べ立てていることが明らかになった。また、NNの小論文は、後部、

特に最後の一文において論全体を要約しようとしていながら適切な接続表現を使用せ ず、その主旨が不明瞭なことが多いが、Nは要約にあたって文章の後部に要約を表す 注釈の表現や順接の条件接続表現を多く使用し、Nが小論文の中間部・後部に多くの 接続表現を使用していたことと対照的に、NNの小論文では、中間部・後部に補うべ き接続表現が多く、前部よりもむしろ中間部以降の部分に多くの問題点が集中してい ることを指摘した。

(14)

5 考察

 本稿第3章、第4章では、NとNNの小論文を対象に、テキストマイニングの手法 を用いた分析と目視により分析した結果を示した。そして、接続表現の頻度を集計し た結果では、テキストマイニングを用いた場合も目視で集計した場合もほぼ同様の結 果が得られた。

 また、テキストマイニングの手法を用いて対応分析を実行することによって、Nと NNの接続表現の使用傾向に顕著な差異があることを多次元空間上に可視化すること が可能となった。同時に、一つの小論文あたりの平均文字数や平均段落数や平均文数 などのNとNNの形式面の計量的分析もテキストマイニングにより行った。この分析 により、Nは1文あたりの文字数が多いが、NNより多種の接続表現を使用しており、

そのことで、つながりが不明瞭にならないように文脈展開をしているということも予 測される。

 さらに、接続表現の観点だけではなく、書き手が何に興味を持ち、小論文を執筆し ているかもWord Cloudにより可視化した。このことは作文を評価する一助となるも のと思われる。

 問題点として、目視によって抽出されたものの中に、テキストマイニングの手法で は抽出できなかった接続表現もあったことが課題として残る。例えば、NNが使用し ていた、選択を表す接続表現の「逆に」は形態素解析において「逆(名詞)+に(助詞)」

として、「他方」は名詞として認識された。話し言葉ではあるが、NNによって使用さ れていた、説明を表す注釈の接続表現「なぜかというと」は「なぜ(助詞類接続の副詞)

+か(助詞)+と(助詞)+いう(動詞)+と(助詞)」のように刻まれた形で認識され、

接続表現としては抽出されなかったり、添加を表す列叙の接続表現「あと」も名詞と して認識されていた。要約を表す注釈の接続表現としてNが使用していた「このよう に」は「この(連体詞)+よう(名詞)+に(助詞)」、「以上のように」は「以上(名詞)

+の(助詞)+よう(名詞)+に(助詞)」と認識され、構文解析を実行しても、文頭 にある接続表現を抽出するのは困難であった。

 さらに、質的分析においては、NNの接続表現の誤用やNNの文中にいかなる接続 表現をどこに挿入する必要があるか、あるいは接続表現が不要であるかや、接続表現 以外の文脈展開を不明瞭にする要因があることなども含め、目視による確認作業も欠 かせないという結論に至った。特に、接続表現以外に文脈展開を不明瞭にしている要 因については、付記しておくべき点がある。小林雄一郎(2010)では、Hyland listに よるさまざまな談話標識の内、主に接続表現、視点、心的態度に関して分析を行って いた。小林雄一郎(2010)で述べられている接続表現、視点、心的態度とは、定義が 全く同一というわけではないと思われるが、本研究でも視点について、次のような気 付きがあった。まず、日本語母語話者がD類つまり接続表現以外の要因で文脈展開が 不明瞭になっているとコーディングしたNNの小論文の中に、「環境保護」→「環境破壊」

(15)

→「環境汚染」と一文ごとに主題となる名詞が変化しながら話題が展開されているも のが見受けられ、視点に一貫性がないことで、文脈展開のつながりの悪さが感じられ るものがあった。また、D類とコーディングされた箇所以外にも、主語が本来「ある 企業」→「企業」→「企業」→「環境保護対策」という視点とするのが自然である文 脈に対して、「環境保護対策」→「住民」→「環境保護対策」→「私」のように、一文 ごとに主語が変化しており、視点がどこにあるのか分かりづらいものも見受けられた。

 また、心的態度に関しては、Nの小論文には「〜と思えてならない。」、「〜と考えら れる。」のような表現が多数見受けられたのに対し、NNにはそのような表現はほぼ見 られず、「〜だ。」、「〜である。」等々の断定的表現が多く使用されていた。これらの視 点や心的態度については、今後さらなる考察が必要だと考える。

 以上のように、言語学的研究の質的分析には、目視による考察が不可欠であるとは いえ、テキストマイニングの手法を用いることは、目視による分析を、より客観的に 示すことができるばかりでなく、手作業では得られなかった多くの点を同時に明らか にすることが可能となるため、テキストマイニングの手法で多角度的に考察すること には意義があると思われる。

6 おわりに

 本稿では、テキストマイニングの手法を用い、原田(2005)で得られた結果と比較 した。その結果、本稿においても、接続表現の使用に関して、高頻度のものについて は、原田(2005)における計量的分析と概ね同様の結果が得られ、日本語母語話者と 上級日本語学習者の接続表現の使用状況に関する研究の客観性を検証することができ た。且つ、テキストマイニングの手法を用いた分析では、文の長さ、段落数、文の数 など、手作業では可視化することが難しかった点について、日本語母語話者と日本語 学習者の小論文における差異を明らかにすることができた。さらに、接続表現の使用 状況に留まらず、小論文の内容について新たな側面も見出せた。内容に関する考察は、

書き手が興味を持っていることを明らかにできるという面もあるが、書き手が興味を 持っている分野において、どのような語彙が使用されているかを知ることで、作文指 導において押さえておきたい語彙や表現を抽出できるため、非日本語母語話者への作 文指導にも活かすことができる。言語学的研究には質的分析も不可欠であることは明 白だが、テキストマイニングを用いた分析は、言語学的研究においても多くの可能性 を秘めている。

 本稿では、テキストマイニングの手法のごく一部を用いたに過ぎないため、今後は、

テキストマイニングという手法の特性をさらに活用し、会話コーパスを対象に、接続 表現やフィラーや終助詞の使用状況について、年代や性別などの属性別の特徴を明ら かにしていきたい。

(16)

1 Rとは、ニュージーランドのオークランド大学統計学科のRoss Ihakaとアメリカのハー バード大学の生物統計学科のRobert Gentlemanにより開発が始められ、1997 年以降、

多くの賛同者によって開発が続けられているオープンソース方式のデータ解析・処理 の専用ソフトのことである。詳しくは、金明哲(2017)『Rによるデータサイエンス』

を参照されたい。

参考文献

石田基広(2008)『Rによるテキストマイニング入門』森北出版

石田基広・小林雄一郎(2013)『Rで学ぶ日本語テキストマイニング』ひつじ書房 内田治(2010)『数量化理論とテキストマイニング』日科技連出版社

岸江信介・田畑智司共編(2014)ひつじ研究叢書〈言語編〉『テキストマイニングによる言 語研究』第 121 巻,ひつじ書房

金明哲(2009)『テキストデータの統計科学入門』岩波書店

―――(2012a)「コーパスとテキストマイニングとは」『コーパスとテキストマイニング』

石田基広・金明哲編著,共立出版,pp.1-14.

―――(2012b)「文章の書き手の特徴情報と書き手の識別」『コーパスとテキストマイニング』

石田基広・金明哲編著,共立出版,pp.55-69.

―――(2017)『Rによるデータサイエンス』第2版,森北出版

小林雄一郎(2010)『第 22 回 「英検」研究助成報告』財団法人日本英語検定協会

孫昊・金明哲(2015)「川端康成『山の音』の代筆疑惑検証―計量文体学の観点から」言語 処理学会第 21 回年次大会

――――――(2016)「統合的分類法による『古都』の著者推定」行動計量学会第 44 回大 会

データサイエンス研究室(2018)『MTMineRマニュアル』

https://mjin.doshisha.ac.jp/lab/MTMineR_intro.pdf,2018 年 8 月 8 日閲覧

原田朋子(2002)「中国語母語学生の作文における文脈展開上の問題点―接続表現観点から

―」『平成 14 年度日本語教育学会第7回研究集会予稿集』pp.45-48.

――――(2005)「接続表現から見た文脈展開―日本語母語話者と上級日本語学習者の小論 文比較―」『同志社女子大学大学院 文学研究科紀要』第5号,pp.103-120.

樋口耕一(2018)『KH Coder 3 リファレンス・マニュアル』KH Coder 3

涌井良幸・貞美共著(2011)『初歩からしっかり学ぶ 実習 多変量解析入門 〜Excel演 習でムリなくわかる』技術評論社

参照

関連したドキュメント

③   視点 5(濁 つた り、カサカサ した声「頃声」 )が 59例 あった。 2歳 児 と同 じ様 に少 し頃声 ぎみ とい う例 も合まれている。 この視点は、他の視点 とのダブ

がそれを利用して落札者を順番に回したり,勝利値が上限値に張り付いたりする状況が明確に見られず, 結局は競争をしてしまっている状況がみられた。 第

岐阜県瑞浪市教育研究所(以下,MCEL;The Mizunami City Education Laboratory)では,重

しか し, これ らの方法か らは,大 まかな化学組成につい ての知見は得 られるものの,個々の成分に関す る情報 まで知

もたらされる。このアリの群行動を組み合わせて最適化問題の解の探索に応用した最適化手法 ACO が提案されている。図 40 は

兵に応ずるのには問題がなかった。彼は中国に送られ2344槍部隊に配属さ

はこの年7月にオリンピックがバルセロナで開催されたので, その放送のため多くの時間が注がれた影響である‐1

また, 知的 な女性像は,他のカテゴリー,例えば お嬢様 大人 社会的通念になってい