計量テキスト分析

第 1 章序論

1.7 方法論の検討

1.7.2 計量テキスト分析の概要

1.7.2.2 計量テキスト分析

生徒が授業を評価する視点，教師が授業を評価する視点についての分析は，計量テキスト分析を採用している．本研究において著者は面接者であり，面接対象者である生徒の授業を担当している立場でもある．また，面接対象者である教師は同僚としての関係

58 性を有している．

そのため，インタビュー法によって得られたデータから分析を導く過程において，信頼性が確立されている必要がある．バイアスを除外することなく，データを分析するために，明確なカテゴリー形成を可能とする方法の一つである計量テキスト分析を用いることとした．

計量テキスト分析について，樋口(2011)は次の様に定義している．

「質的データを計量的に，または多くの場合は探索的に分析するための手法である．

量的な分析が行われる一方で，データを引用・解釈し，質的な記述を行うことも決して否定されない．質的データが持つ『追体験的な了解可能性』を切り捨ててしまうことが計量テキスト分析の目標ではない．というのも，量的な分析を行なえばデータが整理・

要約される一方で，そうした量的な方法では汲み取り難い部分も明らかになる．その結果を参考にして質的な記述を行うことが計量テキスト分析においては推奨されており，

そのための手順も考案されている．そして，最終的に量的な分析の結果に重きを置くのか，あるいは質的な記述を主に行うのかというバランスは，研究目的やデータの性質等によって決定される問題である．」

本研究では，計量テキスト分析のうち，形態素解析²⁵を用いて日本語のテキストを分割し，得られた単語を統計量とした上で，その文章に特有の特徴語を抽出するKHCoder を用いた分析方法を採用している．

なお，この KHCoderは 2001年に樋口耕一氏(大阪大学)によって開発されたプログラムである．KHCoderについては次の項において説明を行なう．

計量テキスト分析では，コーディング²⁶される部分が単語あるいはそれに準じた単位であり，非常に短く，そしてそのコーディングが半ば自動的に，パソコンが機械的に行うことが特徴とされている(川端2009)．コーディングされた質的データを計量分析することによって，単語の使われる暗黙の意味構造を，相関という「潜在的理論」として取り出すことが可能となる．文章を読んで，文字通りに解釈するのではなく，文を一旦単語に分解する．その単語と単語の間の関連の強さを調べる．その関連を，いわば文法の様に考え，データの理論の枠組みとして用いる(川端2009)．この計量テキスト分析によ

25 形態素解析とは，句読点でしか句切られていない日本語の文章を解析し，最小単位である形態素(単語と考えてよい)に分解することをいう(川端2009)．

26 インタビューから作成したトランスクリプトの特定箇所に，相互排他的な符号を割り当てることを指す(マイケル，フィオナ2009)

って，単語と単語の関連の強さから，文章を読んでいるだけでは分からない，分析のための新たな発想，発見を得ることができる．

川端(2009)は，この分析方法の利点と欠点を次の様に挙げている．

利点

(1) 大量のデータが扱える．

(2) 確実性(反復しても同じ結果が出る)が高い．

(3) 遠隔地での共同研究が可能．

(4) 検索が早く正確．

欠点

(1) データが少ないと労力の割に報われない．

(2) 言葉の曖昧さをうまく識別できない場合が多い．

(3) コンピュータは，文脈を理解できない．

挙げられた欠点に対し本研究では次の様に対応している．

(1)のデータの少ない状況として，川端(2009)は数分程度の会話を例として挙げているが，本研究でのインタビュー調査は，一回に付き45分程度が最低時間となっており，

データとして少ない状況とは言えない．(2)，(3)を避けるため，単語としてのデータを全てチェックし，文脈の中での用いられ方の違いにも考慮を加えている．

また，佐藤(2008)は，他の質的研究法とテキストマイニング²⁷を比較した場合，テキストマイニングの場合は文書セグメントというものが，それ以上小さい要素に分割してしまうと文字通り，意味をなさない最小限の単位になってしまうと指摘している．そのため，本研究では，計量テキスト分析による分析結果を基に，単語毎に文脈としての用いられ方を確認し，同じ単語であるが違う文脈や意味で用いられることが無いかどうかの確認を行っている．その上で，関連性を基に質的な記述により分析を加えている．

27 膨大な量にのぼる文字テキストデータを，一旦単語や文節に切り分け，自然言語処理のために開発されたコンピュータ・プログラムを使って，単語や文節の出現頻度や相関関係などを中心に分析を行う(佐藤2008)．

1.7.2.3 ＫＨＣｏｒｄｅｒ

2001年に樋口耕一氏(大阪大学)が開発したKHCoderは，計量テキスト分析またはテキストマイニングのためのフリーソフトウェア²⁸である．新聞記事，質問紙調査における自由回答項目，インタビュー記録など，社会調査によって得られる様々な日本語テキスト型データを計量的に分析することを目的としている．

図1.8：KHCoderのラベル

KH Coderの著作権は筆者・樋口耕一氏が保持しますが，KH Coderはフリー・ソフトウェアです．樋口耕一氏は，KH Coderを用いた研究の成果を論文などに発表する際には、KH Coderを利用したことを記載することを求めています．そのため，敬意を含めラベルを記載します．

出典：樋口耕一氏のWebページ，<http://khc.sourceforge.net/>

2013/10/16アクセス

分析対象となるデータが記載されたテキストファイルを[プロジェクト]として登録する．その後，データの中から自動的に「語」を取り出し，その結果をデータベースに格納する[前処理]を行うことにより実際に分析を行うための準備が完了する．この際に，

言葉の曖昧さから，うまく識別できない「語」を[強制的に抽出する「語」]として登録する必要がある．また，[抽出語リスト(品詞別・出現回数順)]を作成し，品詞別の形態素としての「語」毎に書き出しを行い，文脈の中でどの様に用いられるのかの検討を[コンコーダンス検索]²⁹を用いて行っている．

28 2011/9/27現在，http://khc.sourceforge.net/ からダウンロード可能である．

29 Concordance.「語」を含んでいるテキスト(文章)全てを一覧にできる語句索引機能．

図1.9:[プロジェクト]→[前処理]→[強制的に抽出する「語」]の操作画面

図1.10:[抽出語リスト(品詞別・出現回数順)]の操作画面

リストアップされた特徴的な語を確認していく際には，それらの「語」が元のデータにおいてどの様に用いられていたのかが重要となる．ある「語」が特徴的であることが分かっても，データの中での用いられ方が分からなければ，データの特徴を把握したことにはならない．

また，「なぜこの『語』が多く出現しているのか」，「なぜ特徴的な『語』として挙げられているのか」と思う「語」がリストアップされる必要がある．これにより，デー

タ本文の検索・確認を通じて，気が付かなかった特性を発見できる可能性がある．頻出語，特徴的な「語」としてリストアップされた「語」が，本文中でどの様に用いられているのかを調べる．この作業を通して，データ特性を確認・発見することが計量テキスト分析を行う目的の一つである．

1.7.2.4 共起ネットワーク

KHCoderによって得られた頻出語リストを「共起ネットワーク」によって可視化し

ている．本研究において，筆者は授業者担当者でもため，先入観に捉われることなく，

かつ，全体像を損なうことなく情報を縮約する客観的な分析方法が不可欠である．この様な場合の有力な手法として，近年，語同士の共起³⁰情報に注目した自然言語処理技術として開発されたのが共起ネットワークマッピング³¹である(野村，丸野2009)．

図1.11:ネットワークによる共起関係の表現例

以下，「共起ネットワーク」の概要を述べる．

「共起ネットワーク」は，出現パターンの似通った語，すなわち共起の程度の強い語を線で結んだネットワーク図である．その際，単に語が互いに近く布置されているというだけでは，それらの語の間に強い共起関係があることを意味しない．また，近くに布置されていても線で結ばれていなければ，特に共起関係が強いという訳ではない点に注意が必要である(樋口2004)．

30 一つの文の中に同時に出現すること．

31 共起ネットワークを可視化した図．

また，語の共起関係を全て線として描くと，画面が線で埋まってしまうことが多く，

比較的強い一部の共起関係に絞る必要がある．共起の強さを知るために，「語」のAND をとり共起頻度を得ることが有用である．しかし，それを単純に関係の強さとするのは問題がある(松尾ほか2005)．そのため，共起の強弱について分析対象となった語の全ての組み合わせについてJaccard係数により，指定された値よりも大きい共起関係が全て選択・描画することができる．

Jaccard 係数とは，ある語の出現頻度に対し|Ｘ_|，|Ｙ_|，AND_{をとったとき，OR}を

とったときの頻出頻度をそれぞれ|Ｘ∩Ｙ|，|Ｘ∪Ｙ|とし，^|Ｘ∩Ｙ|

|Ｘ∪Ｙ|によって計算される係

数である．2つの集合の共起の度合い，つまりどの程度似ているのかを表している．例えば，|Ｘ| = 1000, |Ｙ_{| = 30, |}Ｘ_∩Ｙ| = 30とすると，Jaccard係数は ³⁰

1000と小さな値となる．

ネットワークの表示には比較的強くお互い結びついている部分を自動的に検出してグループ分けを行い，その結果を色分けによって示す「サブグラフ検出」(樋口 2004) を用いている．この色分けにおいて，背景が白で丸い囲み枠が黒色であれば，他の語とはグループを形成していない単独の語であることを意味している．色分けするための色は12 色までしか用意されていないため，13個目以降のグループはすべて背景が白で，

丸い囲み枠は青色となる．なお，同じサブグラフに含まれる語は実践で結ばれるのに対して，互いに異なるサブグラフに含まれ語は破線で結ばれる．ただし，色分けについて樋口(2004)は，「自動処理によるものであるから，色分けに常に重要な意味があると考えて読み解いたり，深読みしたりせずに，グラフを解釈する際の補助として利用することが妥当であろう．」と述べている．サブグラフ検出の後，その語が属するテキストを再確認し，グループとしての意味とテキストの中での意味が一致していることを確認する作業を複数回行っている．

本研究では，以上の様な共起ネットワークを用いて，可視化を行った後，階層的カテゴリーを作成し分析を行っている．

ドキュメント内学習者と教師の視点を基にした授業評価の改善に関する研究 (ページ 63-70)

第 1 章 序論