第 1 章 序論
1.7 方法論の検討
1.7.2 計量テキスト分析の概要
1.7.2.2 計量テキスト分析
生徒が授業を評価する視点,教師が授業を評価する視点についての分析は,計量テキ スト分析を採用している.本研究において著者は面接者であり,面接対象者である生徒 の授業を担当している立場でもある.また,面接対象者である教師は同僚としての関係
58 性を有している.
そのため,インタビュー法によって得られたデータから分析を導く過程において,信 頼性が確立されている必要がある.バイアスを除外することなく,データを分析するた めに,明確なカテゴリー形成を可能とする方法の一つである計量テキスト分析を用いる こととした.
計量テキスト分析について,樋口(2011)は次の様に定義している.
「質的データを計量的に,または多くの場合は探索的に分析するための手法である.
量的な分析が行われる一方で,データを引用・解釈し,質的な記述を行うことも決して 否定されない.質的データが持つ『追体験的な了解可能性』を切り捨ててしまうことが 計量テキスト分析の目標ではない.というのも,量的な分析を行なえばデータが整理・
要約される一方で,そうした量的な方法では汲み取り難い部分も明らかになる.その結 果を参考にして質的な記述を行うことが計量テキスト分析においては推奨されており,
そのための手順も考案されている.そして,最終的に量的な分析の結果に重きを置くの か,あるいは質的な記述を主に行うのかというバランスは,研究目的やデータの性質等 によって決定される問題である.」
本研究では,計量テキスト分析のうち,形態素解析25を用いて日本語のテキストを分 割し,得られた単語を統計量とした上で,その文章に特有の特徴語を抽出するKHCoder を用いた分析方法を採用している.
なお,この KHCoderは 2001年に樋口耕一氏(大阪大学)によって開発されたプログ ラムである.KHCoderについては次の項において説明を行なう.
計量テキスト分析では,コーディング26される部分が単語あるいはそれに準じた単位 であり,非常に短く,そしてそのコーディングが半ば自動的に,パソコンが機械的に行 うことが特徴とされている(川端2009).コーディングされた質的データを計量分析する ことによって,単語の使われる暗黙の意味構造を,相関という「潜在的理論」として取 り出すことが可能となる.文章を読んで,文字通りに解釈するのではなく,文を一旦単 語に分解する.その単語と単語の間の関連の強さを調べる.その関連を,いわば文法の 様に考え,データの理論の枠組みとして用いる(川端2009).この計量テキスト分析によ
25 形態素解析とは,句読点でしか句切られていない日本語の文章を解析し,最小単位であ る形態素(単語と考えてよい)に分解することをいう(川端2009).
26 インタビューから作成したトランスクリプトの特定箇所に,相互排他的な符号を割り当 てることを指す(マイケル,フィオナ2009)
59
って,単語と単語の関連の強さから,文章を読んでいるだけでは分からない,分析のた めの新たな発想,発見を得ることができる.
川端(2009)は,この分析方法の利点と欠点を次の様に挙げている.
利点
(1) 大量のデータが扱える.
(2) 確実性(反復しても同じ結果が出る)が高い.
(3) 遠隔地での共同研究が可能.
(4) 検索が早く正確.
欠点
(1) データが少ないと労力の割に報われない.
(2) 言葉の曖昧さをうまく識別できない場合が多い.
(3) コンピュータは,文脈を理解できない.
挙げられた欠点に対し本研究では次の様に対応している.
(1)のデータの少ない状況として,川端(2009)は数分程度の会話を例として挙げている が,本研究でのインタビュー調査は,一回に付き45分程度が最低時間となっており,
データとして少ない状況とは言えない.(2),(3)を避けるため,単語としてのデータを 全てチェックし,文脈の中での用いられ方の違いにも考慮を加えている.
また,佐藤(2008)は,他の質的研究法とテキストマイニング27を比較した場合,テキ ストマイニングの場合は文書セグメントというものが,それ以上小さい要素に分割して しまうと文字通り,意味をなさない最小限の単位になってしまうと指摘している.その ため,本研究では,計量テキスト分析による分析結果を基に,単語毎に文脈としての用 いられ方を確認し,同じ単語であるが違う文脈や意味で用いられることが無いかどうか の確認を行っている.その上で,関連性を基に質的な記述により分析を加えている.
27 膨大な量にのぼる文字テキストデータを,一旦単語や文節に切り分け,自然言語処理の ために開発されたコンピュータ・プログラムを使って,単語や文節の出現頻度や相関関係 などを中心に分析を行う(佐藤2008).
60
1.7.2.3 KHCorder
2001年に樋口耕一氏(大阪大学)が開発したKHCoderは,計量テキスト分析またはテ キストマイニングのためのフリーソフトウェア28である.新聞記事,質問紙調査におけ る自由回答項目,インタビュー記録など,社会調査によって得られる様々な日本語テキ スト型データを計量的に分析することを目的としている.
図1.8:KHCoderのラベル
KH Coderの著作権は筆者・樋口耕一氏が保持しますが,KH Coderはフリー・ソフトウェアです.樋 口耕一氏は,KH Coderを用いた研究の成果を論文などに発表する際には、KH Coderを利用したことを 記載することを求めています.そのため,敬意を含めラベルを記載します.
出典:樋口耕一氏のWebページ,<http://khc.sourceforge.net/>
2013/10/16アクセス
分析対象となるデータが記載されたテキストファイルを[プロジェクト]として登録 する.その後,データの中から自動的に「語」を取り出し,その結果をデータベースに 格納する[前処理]を行うことにより実際に分析を行うための準備が完了する.この際に,
言葉の曖昧さから,うまく識別できない「語」を[強制的に抽出する「語」]として登録 する必要がある.また,[抽出語リスト(品詞別・出現回数順)]を作成し,品詞別の形態 素としての「語」毎に書き出しを行い,文脈の中でどの様に用いられるのかの検討を[コ ンコーダンス検索]29を用いて行っている.
28 2011/9/27現在,http://khc.sourceforge.net/ からダウンロード可能である.
29 Concordance.「語」を含んでいるテキスト(文章)全てを一覧にできる語句索引機能.
61
図1.9:[プロジェクト]→[前処理]→[強制的に抽出する「語」]の操作画面
図1.10:[抽出語リスト(品詞別・出現回数順)]の操作画面
リストアップされた特徴的な語を確認していく際には,それらの「語」が元のデー タにおいてどの様に用いられていたのかが重要となる.ある「語」が特徴的であること が分かっても,データの中での用いられ方が分からなければ,データの特徴を把握した ことにはならない.
また,「なぜこの『語』が多く出現しているのか」,「なぜ特徴的な『語』として挙 げられているのか」と思う「語」がリストアップされる必要がある.これにより,デー
62
タ本文の検索・確認を通じて,気が付かなかった特性を発見できる可能性がある.頻出 語,特徴的な「語」としてリストアップされた「語」が,本文中でどの様に用いられて いるのかを調べる.この作業を通して,データ特性を確認・発見することが計量テキス ト分析を行う目的の一つである.
1.7.2.4 共起ネットワーク
KHCoderによって得られた頻出語リストを「共起ネットワーク」によって可視化し
ている.本研究において,筆者は授業者担当者でもため,先入観に捉われることなく,
かつ,全体像を損なうことなく情報を縮約する客観的な分析方法が不可欠である.この 様な場合の有力な手法として,近年,語同士の共起30情報に注目した自然言語処理技術 として開発されたのが共起ネットワークマッピング31である(野村,丸野2009).
図1.11:ネットワークによる共起関係の表現例
以下,「共起ネットワーク」の概要を述べる.
「共起ネットワーク」は,出現パターンの似通った語,すなわち共起の程度の強い語を 線で結んだネットワーク図である.その際,単に語が互いに近く布置されているという だけでは,それらの語の間に強い共起関係があることを意味しない.また,近くに布置 されていても線で結ばれていなければ,特に共起関係が強いという訳ではない点に注意 が必要である(樋口2004).
30 一つの文の中に同時に出現すること.
31 共起ネットワークを可視化した図.
63
また,語の共起関係を全て線として描くと,画面が線で埋まってしまうことが多く,
比較的強い一部の共起関係に絞る必要がある.共起の強さを知るために,「語」のAND をとり共起頻度を得ることが有用である.しかし,それを単純に関係の強さとするのは 問題がある(松尾ほか2005).そのため,共起の強弱について分析対象となった語の全て の組み合わせについてJaccard係数により,指定された値よりも大きい共起関係が全て 選択・描画することができる.
Jaccard 係数とは,ある語の出現頻度に対し|X|,|Y|,ANDをとったとき,ORを
とったときの頻出頻度をそれぞれ|X∩Y|,|X∪Y|とし,|X∩Y|
|X∪Y|によって計算される係
数である.2つの集合の共起の度合い,つまりどの程度似ているのかを表している.例 えば,|X| = 1000, |Y| = 30, |X∩Y| = 30とすると,Jaccard係数は 30
1000と小さな値と なる.
ネットワークの表示には比較的強くお互い結びついている部分を自動的に検出して グループ分けを行い,その結果を色分けによって示す「サブグラフ検出」(樋口 2004) を用いている.この色分けにおいて,背景が白で丸い囲み枠が黒色であれば,他の語と はグループを形成していない単独の語であることを意味している.色分けするための色 は12 色までしか用意されていないため,13個目以降のグループはすべて背景が白で,
丸い囲み枠は青色となる.なお,同じサブグラフに含まれる語は実践で結ばれるのに対 して,互いに異なるサブグラフに含まれ語は破線で結ばれる.ただし,色分けについて 樋口(2004)は,「自動処理によるものであるから,色分けに常に重要な意味があると考 えて読み解いたり,深読みしたりせずに,グラフを解釈する際の補助として利用するこ とが妥当であろう.」と述べている.サブグラフ検出の後,その語が属するテキストを 再確認し,グループとしての意味とテキストの中での意味が一致していることを確認す る作業を複数回行っている.
本研究では,以上の様な共起ネットワークを用いて,可視化を行った後,階層的カテ ゴリーを作成し分析を行っている.