• 検索結果がありません。

自由記述メッセージからの学習者の特徴表現抽出に関する研究

N/A
N/A
Protected

Academic year: 2021

シェア "自由記述メッセージからの学習者の特徴表現抽出に関する研究"

Copied!
38
0
0

読み込み中.... (全文を見る)

全文

(1)自由記述メヅセージからの学習者の特徴表現抽出 に関する研究 兵庫教育大学大学院 学校教育研究科教科領域教育専攻. 総合学習系コース MO63111〈. 森田千寿.

(2) 3. 目次 第1章 はじめに. .9. 第2章 従来研究. 11 11 12 13. 2.1. 頻度表に基づく手法. 2.2. 統計指標に基づく手法 ........ 2.3. 品詞に基づく手法...,........... 第3章 基本アイデア. 15. 第4章 提案手法. 21 21. 4.1. 特徴表現抽出前の処理 ........ 4、2. 特徴表現の抽出_...、....。。、... 4.3. 特徴表現抽出後のノイズの除去. ... . .. . 。 . 21. 22. 第5章 評価実験 5.1. 実験条件と実験手順. 52. 評価結果... 25 25 .. 26 29. 5.2.1 5年生と6年生の特徴表現抽出の結果 5.2.2 検索の学習前後からの特徴表現抽出.. 第6章. 26. .. 39. 考察. 6.1. 抽出された特徴表現を利用した分析支援 ... 62. 表現の分割方法に対する考察.......。 .. 6.3. 一般性評価の解釈。. 6.4. 課題と改良にむけてのアイデア ...。.、. 42. おわりに. 43. 浅学章 謝辞. .. . 39. 41 .. 42. 45.

(3) 5. 図目次 3.1. 抽出されるη一gramの例...._....._. 16. 3.2. 提案手法の基本アイデア.. 17. 3.3. プロファイル作成と一般性の評価.. 18. 3.4. 繰り返しによる順位差とメッセージ頻度を計算.. 19.

(4) 7. 表目次 2.1抽出される特徴表現の例 5.1 対象のメッセージ................ 11. .. 25. 5.2 提案手法による5,6年生の特徴表現... ,. 27. 5.3メヅセージ集合の分割無しの特徴表現.... 28. 5.4 頻度表による5,6年生の特徴表現. 29. 5.5 形態素解析を用いた頻度表による特徴表現. 30. 5.6 CSMによる5,6年生の特徴表現_... 5.7形態素解析を用いたCSMによる特徴表現. 31. 5.8 提案手法による学習前後の特徴表現..... 33. 5.9 メッセージ集合の分割無しの特徴表現.... 5.10頻度表による学習前後の特徴表現_,.. 5.11形態素解析を用いた頻度表による特徴表現. 32 .. 34. . 35 36. 、.5.12CSMによる学習前後の特徴表現....... 37. 5.13形態素解析を用いたCSMによる特徴表現. 38.

(5) 9. 第1章はじめに ウエブページやプログを利用した情報発信に関する学習や実践が活発に行われている.例えば, プログを用いた情報活用能力育成に関する研究では,学習者の積極的な情報発信がみられると報 告されている[1].また,小学生のインターネット使用量のうちWebページ作成が上位であると報 告されており,小学校でも情報発信に関する授業がさかんに取り入れられていると分析されている [2].. ウェブページやプログなどを利用した場合,発信された情報は自由記述形式のメッセージとして 大量にサーバ上に集まる.教材や指導の効果,学習者の変化を調べるためには,その大量の自由記. 述形式のメッセージを比較・分析する必要があるが,人手の分析作業では時間や労力がかかり教. 師の負担が大きくなる.例えば,30名から構成される学級で,各学習者が,毎回1個のメッセー ジを発信した場合,3回の授業で100個近いメッセージが集まることになる.これらのメッセージ は,定型でない自由記述群であるので,人手の分析では時間と労力を要する.また,一つ一つの メッセージを読んで分析する作業では,学習者の変化を教師は感じることは出来るが,それがどの ような変化なのか,表現がどのように変化したのか,わからない可能性が高い. 大量の自由記述メッセージから学習者の変化を調べるときに,特徴的な表現(以後,特徴表現と 省略)を自動的に抽出することができれば,時間や労力を軽減し,効率よく分析が進められる.例 えば,情報検索についての学習をした後に,発信されたメッセージから,検索されることを意識し て書かれた部分が特徴表現として抽出できれば,学習効果を分析する際の支援となる.また,学習 による変化を分析したい場合,学習前と学習後のメッセージから,それぞれの特徴表現を抽出し, その抽出された学習前後の特徴表現を比較,分析することができれば,教育効果や学習効果を分析 する際の有効な手だての一つとなる.また,、同じ学習内容でクラス間の差異を調べる場合にも,分. 析の支援となる.更に,学習以外の活動でも,前後でアンケートをとり,それらを比較する時に特 徴表現抽出は分析する際の支援となる.. 本論文では,特徴表現を抽出する手法を提案する.本論文は,抽出の対象となるメヅセージ集合. と比較の対象となるメッセージ集合の2種類のメッセージ集合がある場合を対象とする.以後,こ れら2種類のメッセージ集合の名前を抽出対象と比較対象と呼ぶ.例えば,学習後の特徴表現を抽 出するときは学習後のメッセージ集合が抽出対象,学習前のメッセージ集合が比較対象とする.抽 出対象,比較対象は同時に抽出される.本論文で提案する手法は,小学生が書いた誤字・脱字やひ がらなが多いメッセージでも特徴表現を抽出することが可能である.また,従来手法とは異なり,. ノイズ1が少ない.更に,形態素解析を用いずに表現の分割を行う.抽出された特徴表現の解釈は 容易であるという特徴も有する.なお,この研究の成果の一部は文献[3]で発表した.. 本論文の構成は以下の通りである.第2章では従来研究について述べる。第3章では提案手法 の基本アイデアについて述べる.第4章では提案手法について述べる.第5章では提案手法を評 1ここでのノイズとは,特徴表現でないものを誤って抽出してしまうことを指す..

(6) 10、. 価した実験について述べる.第6章では実験結果を考察する.. 第1章はじめに.

(7) 11. 第2章 従来研究 2.1 頻度表に基づく手法 頻度表に基づく手法[4]により特徴表現を抽出する方法について述べる.まず,抽出対象と比較 対象から単語η一gram[5]を抽出する(η一gramについては第3章で詳しく述べる).つまり,メッ. セージの文を単語ごとに分割を行い,その単語をそれぞれ単語η一gramとして抽出する.次に,抽 出された単語η一gramの出現頻度を数え,降順にソートし,出現頻度順位表を作成する.そして, 抽出対象と比較対象それぞれの出現頻度順位表の上位数十件を特徴表現とする.この手法では,上 位数十件以外の下位の表現は頻度が少ない表現,つまり,使用が少ない表現のため特徴表現といえ. ない.例えば,頻度表に基づく手法団では,表2.1のような特徴表現が得られる.. 表2.1:抽出される特徴表現の例. 抽出対象の特徴表現 比較対象の特徴表現 おもしろい. おもしろい. 話です。$. 話です。$. もしろいよ. お話です。. ^この本は. います。$. いです。$. ^おもしろ. ^おもしろ‘. もしろいよ. るお話です. もしろい$. もしろいで. ています。. もしろい$. っています. もおもしろ. ぜひ読んで. この手法の問題は,順位中盤以降に存在する特徴表現は獲得できないことである.例えば,比較 対象で順位が1000位,抽出対象で順位が10位であるような単語η一gramは抽出対象の特徴表現で ある可能性が高いが,この手法では抽出できない.また,表2.1からもわかるように同一の表現が 学習前と学習後に含まれている(表2.1では,同一の表現に対して下線をつけて表示).同一の表 現が抽出される理由は,抽出対象と比較対象の比較をせずに独立に用いているためである..

(8) 12. 第2章 従来研究. 2.2 統計指標に基づく手法 統計指標に基づく手法[6]1では,頻度,ダイス係数[7],.コサイン,補完類似度,対数尤度比,X2. 値,イエーツの補正公式,自己相互情報量:,マクネマーの9つの方法を使用している.この中でも,. 単独で用いられた場合に,補寒類似度(Complementary Similarity Measure,以後CSMと省略) が最も平均精度[8J2が高いと報告されている.そこで,以下ではCSMに基づいた特徴表現抽出に ついて説明する.また,CSMに基づく手法[6}を第5章の評価実験の比較対象として利用する.. CSMを求めるには,まず,抽出対象と比較対象それぞれから単語を抽出する.抽出した単語α の出現頻度を数える.更に,抽出対象と比較対象それぞれの総単語数を数える.いまこれらの頻度 を,. α=抽出対象における単語αの頻度. 6=比較対象における単語αの頻度 。=抽出対象に:おける総単語数一α. 4=比較対象における総単語数一わ で表すとする.1このときCSMは, αdl_6c. CSM=. (α+c)(う+の. (2.1). で定義される.. 全ての単語αに対してCSMの値を求め,値が高い単語αを特徴表現とする. 単語αを単語η一gramと置き換える.そして,同様の方法で特徴表現を抽出する. CSMでは,頻 度表に基づく手法[4]の対象中での頻度を数えるのとは異なり,抽出対象と比較対象の単語頻度や 総単語数の差を求めて比較を行う.つまり,対象同士の比較を行う. この手法の問題として,個人の特徴から.受ける影響が大きいということがある.ある個人が特定 の表現を繰り返し使用した場合,個人の表現である可能性が高い.例えば,クラスに一人だけ関西 弁の児童がいたとして,「わからへん」という表現をよく使用していたとする.この「わからへん」. は関西弁の児童個人の表現である可能性が高い.CSMに基づく手法[6]では個人の表現が特徴表 現として抽出されてしまう.提案手法では,例えば,クラス全体の表現,学習者全体の表現がある 学習を行うことによってどのようなに表現が変化したのかを特徴表現として抽出することを目的と している,そのため,個人の特徴的な表現(個人のみが利用して,みんなが使用しない表現)が学 習者全体の特徴表現として抽出されるのは好ましくない.. 1正確には,中條らの手法については,英語の文書からの特徴語を抽出する手法である.ただし,この手法は特徴表現の 抽出にも応用可能である.. 2各種尺度の精度を評価するときに,ここでは英語(TOEIC)リスト中の単語を各種尺度で順位付けたリスト(候補語 リスト)を作成し,そのリストと正解リストとの一致の度合いにより評価をする.そのときの評価の規準として平均精度 を利用する.平均精度は上位に正解が多いほど高い値をとる..

(9) 2.3.品詞に基づく手法. 13. 2.3 品詞に基づく手法』 品詞に基づく手法[9,10]では,抽出対象と比較対象をそれぞれ形態素解析[11]などを用いて品. 詞に変換する.得られた品詞列に対して品詞η一gramの抽出を行う.抽出された品詞η一gramに対 してスコアを計算する.スコアでソートした品詞列を特徴表現とする.手法[9]では,品詞η一gram. の統計量からX2値を計算し,スコアとしている.また,手法[10]では,品詞η一gramの順位差に 基づいてスコアを計算する.. 品詞に基づく手法[9,10]では,特徴表現が品詞列で得られるため,特徴表現の解釈が困難であ る.品詞列で得られた特徴表現を解釈するために,抽出対象中の用例に戻り,分析を人手で行わな ければならない..

(10) 15. 第3章 基本アイデア これから提案する手法でも,抽出対象と比較対象を用意する.例えば,小学校5年生が書いた メッセージ集合を抽出対象とし,・6年生が書いたメッセージ集合を比較対象とするボここでは,5. 年生の6年生に対する特徴表現,およびその逆の特徴表現を抽出できる.用意した5年生,6年生 の各メッセージ集合からη一gr㎜と呼ばれる文字列を抽出する.形態素解析ではなくπ一gramを利 用することで,流行言葉や方言,小学生が書く誤字・脱字などが混ざった文字列もそのまま抽出す ることが可能となる.η一gramは,どのような文字列でも区切ることができるからである. η一gramとは‘n個の文字列が隣りあって生じる共起関係のことである.『ただし,操案手法では,. 一般のη一gramと異なり,1≦η≦たを満たす全ての整数nについてのη一gramを対象とする.例 えば,た=3の場合,“楽しい本です”という文から抽出されるη一gramを図3.1に示す.抽出する際 に,文の始めと終わりがη一gramに反映されるよう,文頭記号(例えば,“^”)と文末記号(例え. ば,“$”)を付与している.記号を付与することで,その特徴表現が文頭や文末にある表現であ ることが一目でわかる.例えば,“この本は楽しい”と“楽しい本です”の二つに文があったときに, 両者が使用している“楽しい”は,た=3の場合,文末の“しい$”と文頭の“^楽し”となる.した. がって,文の始めまたは終わりにどのような表現がくるのか分析ができる.また,図3.1からわか るように,抽出されたη一gramには,特徴表現らしいもの(例えば,“楽しい”)とそうでないもの (例えば,“しい”)が含まれる.そのため,特徴表現らしいものを抽出し,そうでないものを抽出 しない働きが必要である(詳しくは,6.2で述べる).. 次に,抽出対象と比較対象から抽出されたη一gramとそのη一gramの出現頻度を降順に並べた 表を作成する.以降この表をプロファイル[12]と呼ぶ.プロファイルは抽出対象と比較対象のそれ. ぞれから作成するため,5年生のプロファイル,6年生のプロファイルのように2つプロ「ファイル が得られる.. 特徴表現の抽出は,図3.2に示されるように,両プロファイルの比較に基づいて行う.図3.2で は,“おもしろい”というη一gramは,5年生のプロファイルで上位に位置している.それに対して,. 6年生のプロファイルでは下位に位置している.言い換えると,5年生では,頻繁に使用される表 現であるが,6年生ではあまり使用されない表現であることがわかる.このような表現は,5年生 の特徴表現である可能性が高い.プロファイルは頻度の多いものから降順に並んでいるため,上位 から川頁に1,2,3と順位をつけて考える.これは,頻度の差ではなく,順位の差に着目するためで ある.頻度の差に基づいた場合,頻度差が小さく順位差が大きい場合や頻度差が大きく順位差が小 さい場合がある.これは,プロファイルによって各η一gramの頻度や順位1ま異なるためである.例. えば,抽出対象のプロファイルで1位に頻度200の“おもしろい”があるとする.一方,比較対象 のプロファイルで101位に頻度180の“おもしろい”がある場合,頻度の差は20であるがプロファ イル中の順位は100も差がある.提案手法では,各対象のプロファイル中でそのπ一gramがどこに.

(11) 第3章基本アイデア. 16. 入力文 “楽しい本です”・. nニ1のとき 楽 し. い. 本 で. す. 且=2のとき ^楽. 楽し しい. い本 本で です す$. nニ3のとき ^^. y. ^楽し. 楽しい しい本. い本で. 本です です$. す$$. 図3.1:抽出されるη一gramの例ド.

(12) 17. 位置しセいるかが重要であり,頻度差は必要としない.これは頻度差だけでは,プロファイル中で そのη一gramが使用が多いもしくは少ない表現なのかがわからないためである.そのため,順位の 差が必要である.順位の差が大きいほど特徴表現である可能性が高い.そこで提案手法では,順位 の差に基づいて特徴表現の抽出を行う.. 5年生プロファイル. 6年生プロファイル. 頻度 ルgram Q00 おもしる. P52 話 P00 楽しい @. =. 、. 順位差. 5年生プロファイル. 6年生プロファイル. 頻度 ルgram. 順位 π一gram. 順位 η一gram. Q10 主人公. 1 おもしろ、. 1・ 主人公. P80 話. 2. @. ≡. 3. T0 おもしろい. 話. 順. 楽しい =. 位差. 2. 話 量. 100 おもしろい. 葺. 頻度の多い順に 順位をつける. 図3.2:提案手法の基本アイデア. しかしながらながら,この基本アイデアには,第2章で述べたCSMに基づく手法[6]ように, 個人の特徴から影響を受けるという問題がある.すなわち,ある個人が,特定の表現を繰り返し 使用すると,プロファイル中での順位は高くなるが,抽出または比較対象全体の特徴ではなく個 人の特徴である可能性が高い.そのため,候補となるη一gra皿が抽出対象で,どれくらい一艀的に. 使用されているかの一般性の評価により補完することが必要となる.そこで提案手法では,次の ようにして一般性の評価を行う.まず,提案手法では,図3.3に示すように,抽出対象と比較対象 をあらかじめプロファイル作成用と一般性評価用に分割しておく.これは,コピー行うのでなく, メヅセージ集合から適当にメッセニジをプロシァイル作成用と一般性評価用にふり分ける.プロ ファイル作成用のメッセージ集合からプロファイルを作成し,各η一gramの順位差を求める.その 後,η一gramが一般性評価用のメッセージ集合の中でどれだけのメッセージに含まれているか(す なわちη一gramのメッセージ頻度)を計算する.提案手法では,この順位差とメッセージ頻度に基 づいて,抽出を行う.. 更に,一般性評価用のメッセージ集合とプロファイル作成用のメッセージ集合を分割する際 に,異なるメッセージが含まれるように変更し,1頃位差とメヅセージ頻度の計算を複数回(以後五 回)行い,信頼性の高い抽出を実現する.異なるメッセージを含んだプロファイルと一般性評価用 を繰り返し作成する方法としては,例えば,最初に各対象メッセージ集合を五つのメッセージ集合 にわけておく.1回目のプロファイル作成のときは,L−1つのメッセージ集合を利用する.このと. き使用しなかったメッセージ集合を一般性評価用にする.2回目のプロファイル作成のときは,五.

(13) 18. 第3章基本アイデア プロファイル作成弓。フ ル. プロファイル作成用 プロフ ル. 6年生の. 順 位 差. 一般性の評価. メッセージ集合. 一般性の評価. 図3.3:プロファイル作成と一般性の評価 (1回目の一般性評価用のメヅセージ集合を含む)一1・つのメッセージ集合を利用し,このとき使用. しなかったメッセージ集合を一般性評価用にする.以下同様に五回繰り返す.五回の繰り返しによ る順位差とメヅセージ頻度を計算することにより,.個人の影響を受けないようにするだけでなく, 1頂位差とメッセージ頻度の偏りを減らす効果がある.、プロファイルも一般性評価用のメッセージの. 対は,五種類作成さ・れることになる.この,L回の繰り返しによる順位差とメッセージ頻度の計 算の行う様子を図3.4に示す.図3.4からわかるように,メッセージ集合からプロファイル作成用. と一般性評価用をL回分割し,分割をおこなった五回数だけ順位差とメッセージ頻度の計算を行 う.つまり,五回の繰り返しは分割したL個のプロファイルと一般性評価用の総当りではなく,L 回目に作成されたプロファイルと一般性評価用のそれぞれの対同士で1頂位差とメッセージ頻度の計 算を行う..

(14) 19. プロファイル作成㌦フ 5年生の. ,. 酵⇒ ≡≡. プロファイル作成用’. ル. プロフ. レ. ル. プロファイル作成用 プロフ ル. 歴.……←組瓢集合. 薯檸. メッセージ集A. 一般性評価用. 、. 一般性の評価. プロファイル作成用 プロフ1. 一般性評価用. 面. 一般性評価用. 圏圏. 艦の評価圏圏. 一般性の評価 プロファイル作成用 プロフ. ⇒. ル. プロファイル作成用 プロフ ル. 澄巽く一報 差. 一般性評価用. 一般性評価用. 灘の評価晒.. 一般性の評価 昌 = = =. 唇. ■. ■. ■. ■. ■. ■. .. ■. 6. ■. 腫. ■. ■. 五回繰り返す スコアニ(平均)順位差×メッセージ数(の総和) 図3.4:繰り返しによる順位差とメッセージ頻度を計算.

(15) 21. 第4章 提案手法 4.1 特徴表現抽出前の処理 特徴表現抽出前の処理として,文書1集合中の各文書を文に分割する.文末記号は“。”,“?”,. “!”の3種類とした.文末記号までを一つの文として分割する.また,文末記号がない場合でも, 改行があればそこまでを一つの文とする.. 自由記述形式の文書で1ま,記号や全角,半角,英数字の使用が異なる.そこで,これらの記号な どの使用を統一する.まず,全角や半角の数字は数字記号を表すシンボル(例えば,“#”)に置換. する.これは,文書中で数字の使用(例えば,3回や全2巻)が何であっても数字を使用しているこ とがわかればよいためである.ただし,漢数字(例えば,二人)では置換は行わない.これは,四 字熟語や八山伝といった漢数字を含む語句が特徴表現となる可能性が高いためである.次に,全角 や半角の空白スペースがある場合はスペ「スを削除する.また,記号“♪★☆*○●○/(ε;)”. は,記号を表すシンボル(例えば,“☆”)に置換する.連続した支末記号や句読点は1回のみの表 示に置換する.ただし,3つ以上の連続した中点(例えば,“・…・”)は,3つの中点(“…”)に 置換する.. 4.2 特徴表現の抽出 提案手法では,スコアに基づいて特徴表現の抽出を行う.特徴表現の抽出に利用するスコアを説. 明するため,次の記号を導入する.抽出対象と比較対象を,それぞれM,Nで表し,プロファイ ル作成用から作成されたそれぞれのプロファイルを翫,p。で表す.また,ゴ番目(1<ゴく五)の プロファイルを,それぞれpゴm,pゴπで表す.また,プロファイル中のη一gramを記で表し,その 順位をr侮,p)で表す.例えば図3.2では,」r(話,Pm)=(話,Pの=2である(ただし, M,Nを. 5年隼,6年生とする).同順位のη一gramがある場合は, rは平均順位とする.また,プロファイ ルPm, pπ中に存在しない置については,両プロファイルの最大順位で小さくないほうの順位+1 を与える. このとき,η一grarl真の順位の差を, dゴ(④=・(詔,Pゴ。)一r@,P伽). 1第4章では,説明を簡単にするためメッセージを文書と表現する.. (4.1).

(16) 22. 第4章 提案手法. で定義する.7ロファイルは五種類あるので,順位の差も五種類得られる.そこで,実際の抽出 では,各順位の差の平均を利用する.すなわち,それぞれの認について,次式(4.2)により,. 確)一÷重伸伽)一幅鵬)}. (4.2). ゴ=1. 各¢の1頂位⑱差を計算する.次に,次式(4,3)は式(4.2)を用いて,Mの特徴表現を抽出するため. のスコア5を. ・(曜)=召㈲Σ乃(曜). (4・3). ゴ=1 で定義する.ただし,乃(諮,M’).は,プロファイルp伽に対応する一般性評価用文書のうちPjmに. 含まれ娩が串現する熔の数とする・したがってΣ髭、乃(¢,M)は・嘩含む文書頻度が搬 性評価用文書のうちどれだけ頻出するのかという一般性の指標と捉えられる.式(4.3)全体では, 順位の差(の平均)が大きく,且つ,一般性評価用文書に頻出するη一gramに高い値を与えること になる’.また,たとえ順位の差が聴き.くても,一般性評価用文書に出現しないη一gramにはスコア 0を与えることになる.. 式(4.3)のスコアに基づいて特徴表現の抽出を行う.まず,Mに関するプロファイル中の全ての ¢に対して式(4.3)のスコアを計算する.次に,スコアの降順で¢をソートする.そして,ソート. された灘の上位R件をMの特徴表現として抽出する.同様に,MをNに読み替えることで,比 較対象(図3.2では,6年生)の特徴表現が抽出できる.. 4.3 特徴表現抽出後のノイズの除去 特働表現抽出後の処理として,ノイズの除去を行う.これは,η一gramを利用すると,特徴表現 とならないものも抽出される場合があるからである.例えば,1文字からなる“あ”という表現が特. 徴表現となる可能性は低いので,1文字は全てノイズとして除去する.プロファイル作成段階で1 文字の表現の頻度は多い.この時点で,ノイズとして除去を行うことも考えちれるが,順位差やズ ロファイルの大きさに変化が起こるため,抽出された結果から除去を行う.例えば,抽出対象で, 同じ表現が多く,プロファイルが小さいとする.一方;比較対象では,表現が豊富で,プロファイ. ルが大きいとする・プロファイルの時点で1文字からなる表現をノイズとして削除すると,両プロ ファイルともプロファイルは小さくなる.その中でも比較対象では表現の種類が豊富のため,1文 字からなる表現をノイズとして削除するとプロファイルが小さくなりすぎ,順位差が小さくなる. そのため,順位差が小さくならない抽出後にノイズ除去を行う. まず,文頭記号と文末記号の成形を行う.図3.1で示したように文頭記号“:^”と文末記号“$”. を付与したため,“ ^”. おもしろい”や“∼おもしろ”などが抽出される.そこで,複数回の“. C“ 吹h記号を1回忌みの表示に置換する.したがって,“齢…おもしろい”は“^おもしろい”,. “…^ ィもしろ”は“^おもしろ”となる.. 次に,同スコアの場合,ある表現(文字列)とそのある表現の部分文字列(部分文字列)の関係 にあるものを集約する.同スコアであり,文字列とその部分文字列が存在する場合に情報量の少な い部分文字列を文字列に’集約する.例えば,スコアが両者とも1.0の“(おもしろい”と“^おもし.

(17) 4.3.特徴表現抽出後のノイズの除去. 23. ろ”があったとする.“(おもしろい”は“^おもしろ”の部分文字列である.よって,部分文字列で ある“^おもしろ”は“^おもしろい”に集約する.. 最後に,2−gram(2文字)については, iつでも記号を含む(例えば,記号とひらがなの“、あ”,. 記号とカタカナの“オ、”,記号と漢字の“、頭”)場合はノイズとして削除する.ひらがなとカタ. カナで構成される2−gram(2文字)も同様にノイズとして削除する..

(18) 25. 第5章評価実験 5.1 実験条件と実験手順 本評価実験では,プログシステム団を利用して収集したメッセージを提案手法の評価に用い る.収集したメッセージは,’いずれも小学生がプログを用いて発信したものである.メッセージ. の内容は,本の推薦文である.収集したメッセージは,大きく3種類に分けられる.収集したメッ セージについてまとめたものを表5.1に示す.. 表5.1の検索学習前とは,システムのメッセージ検索機能を利用する情報検索についての学習を 行う前の学習状態のことである.検索学習後とは,情報検索についての学習を行った後の学習のこ とである(表5.1の授業時間数の欄では,検索学習も含めた授業時間数を表している.).検索学習. により,児童は他者のメッセージを検索・閲覧する活動を学んだ.. 表5.1:対象のメヅ十一ジ. メッセージ. メッセージ数. 維バイト数1. 授業時間数. クラス数. 5年生の検索学習前. 185. 10867. 3. 3. ’98. 5年生の検索学習後. 162. 8911. 4. 3. 98. 6年生の検索学習前. 184. 12187. 3. 3. 114. 人数. 特徴表現の抽出は,5年置の検索学習以前のメッセージど6年生のメッセージを対象にして 行った.このメッセージの組み合わせからは,5年生および6年生の差異を表す特徴表現が抽出さ れると期待できる.また,5年生の検索の学習以前と以後のメッセージからも特徴表現を抽出した. この組み合わせからは,検索に関する学習効果を示唆する特徴表現が抽出されると予想される.プ. ロファイル作成用メッセージと一般性評価用メッセージの組み合わせば,6種類作成した.すなわ ち,式(4.3)のしを6に設定した.また,η∠gramを抽出する際のパラメ「タたは,た=9とした. これは,10文字以上ゐ・らなる特徴表現は稀であるとの予想からである.更に,メッセージ集合を. 分割せずに特徴表現を抽出した.これは,プロファイル作成と一般性評価用を五種類作成しない. 対象のメッセージ集合を一切分割せずに,プロファイルを作成し,対象のメッセージ集合を一般性 評価用にも使用する.そして,提案手法のスコアに基づき特徴表現を抽出した.. 評価は,5年生と6年生の比較,検索の学習前後ともに,提案手法で抽出された上位20件に対 して行った.抽出された特徴表現を人手で分析し定性的に評価を行った. 提案手法との比較をするために,第2章で述べた従来手法の頻度表に基づく手法[4]と統計指標 に基づく手法[6]を利用した.統計指標に基づく手法では,単独で用いられた場合に最も平均精度.

(19) 26. 第5章評価実験. が高いと報告されている補完類似度(CSM)を利用した.両手法とも,η=5としてη一gramを抽 出して,特徴表現の抽出を行った.両手法とも,η=5とした理由は,提案手法のようにた=9で行 うと,「. 鰹oされる表現は9以下の一文字や二文字と文字数の少ないものから順に上位を占める.そ. のため,9以下の数で固定する.そこで,両手法をπ=3,4,5でηを固定領で設定し,特徴表現の抽. 出を行った.その際に,η=5の時に特徴表現らしい表現が多いことが確認できたため,η=5で設 定を行った.更に,η一gramの利用ではなく形態素解析による文字列の区切りを利用し,従来手法 の頻度表に基づく手法[41とCSMに基づく手法[6]による特徴表現も抽出した.形態素解析は茶笙 を利用した.. 5.2 評価結果 5.2.1 5年生と6年生の特徴表現抽出の結果 表5.2に,提案手法で5年生の検索学習以前のメヅセージと6年生のメッセージから抽出され たそれぞれの特徴表現の上位20件を示す.表5.2は上位から順に並んでいる.表5.2から,5年生 では「この本」,「とっても」,「てもおもしろい」,「話です$」などが抽出されていることがわかる.. 同様に,提案手法で抽出された上位100件までを見るとその中には,「とってもおもしろい」が含 れていた.これらの表現が実際にどのように使用されているかを見るために,5年生の検索学習以 前のメッセージを調べると,「この本はおもしろいです」や「とってもおもしろい本です.」という. ような文が,非常に多く使用されていることが明らかになった.更に,大部分のメッセージでは, ほかの文は含まれず,「この本はおもしろいです」や「とってもおもしろい本です.」だけから成る. メッセージも非常に多いことも判明した.このようなメッセージは,どのような本についてもあて はまるため,本を推薦するために発信された情報としては,好ましくないといえる. 一方,6年生のメッセージからは,「主人公」や「^ある日」など,本に関する具体的な記述に 関する特徴表現が抽出されている.実際,6年生のメッセージには,「スザンナ(主人公)」や「あ る日、’カリブ海の」というような,具体的な本の内容が記述されていた.同様に,上位100件まで 見ると,「出会4「友達」「サッカー」などの本の具体的な内容を表す表現が含まれていた. 6年生では,「てください」,「てください6$」,「ます!$」などの特徴表現が抽出ぎれている.. これらの特徴表現から,丁寧な表現が特徴的であることもわかる.更に,「てください」と「てく ださい。$」は他の人に向けた表現であり,・6年生は情報の受け手を意識して情報発信をしている と予想できる.. 提案手法で抽出された特徴表現と以上の考察から,6年生は,5年生に比べ,情報発信の観点か ら優れたメッセージを発信できる能力があると分析できる.具体的な表現としては,5年生では, あまり本に関する情報がないもの(「話です$」や「もおもしろい」など),6年生では,本の内容 に関する表現(「主人公」など)や他人を意識した表現(「てください.$」)が抽出できた.. 表5.2からわかるように,6年生の特徴表現では「主人公の」という表現より下位に「主人公」 という表現がある.これは「主人公」の方が3文字でプロファイルの段階では「主人公の」より上 位であり,抽出される特徴表現でも「主人公の」より上位に位置すると考えることができる.しか し,実際の結果では,「主人公の」の方が上位である.これは,1頂位差とメッセージ頻度が異なるた.

(20) 27. 5.2。評価結果. 表5.2:提案手法による5,6年生の特徴表現. 5年生の特徴表現 6年生の特徴表現 いけど. おはなし てもお. とっても. 本を てもおもしろい. 主人公の ^主人公. 二人 の人 わかる. 書い. もおもしろい. てください. るお話ですr. になって ます!$. がのって がのってい するお ^いろ. 話です$ ほんで. ありま. 主人公. 学校 ^主人公の になる. めって. 二人の. けど、. のこと. この本. してお. 工ルマー 感動 よんで. ^ある日 てください。$ その. (^記号は文頭,$記号は文末を意味する). め,スコアが「主人公の」の方が高くなったためである.. 表5.3に,メッセージ分割を行わない提案手法で5年生の検索学習以前のメッセージと6年生 のメッセージから抽出されたそれぞれの特徴表現の上位20件を示す.表5.2の提案手法の特徴表 現と比較すると,順位に差があるが同じ表現が多く存在する.5年生の特徴表現では,提案手法で. は20位以下に存在する「勇気」や「するお話です」がある.6年生の特徴表現では,提案手法で は20位以下に存在する「ストー」や「出会い」がある. 表5.4に,頻度表に基づく手法[4}の抽出結果を示す.表5.4から,頻度表に基づく手法では, 「おもしろい」,「話です。$」,「^この本」,「いです。$」,「もしろいで」,「いろいろな」,「しろい. です」,「本です。$」など5年生の特徴表現と6年生の特徴表現が共通していることがわかるしこ. れは,抽出の際に,5年生と6年生の文書を独立に用いることに起因する. 表??に,形態素解析を用いた頻度表による5年生の検索学習以前のメッセージと6年生のメッ.

(21) 28. 第5章 評価実験. 表5.3:メッセージ集合の分割無しの特徴表現. 5年生の特徴表現 6年生の特徴表現 てもお. ^主人公 主人公の. おはなし. てください. .がのって. とっても いけど てもおもしろい がのってい. 本を もおもしろい けど、. るお話です. の人 てください。$ わかる. 書い ハ主人公の. 二人 出会い くして. 話です$. ます!$. ほんで. 書いて. ^いう. ストー. するお. になって …。$. エルマ・一. 本を読. この本を. 勇気 するお話です. になる. 出会い してい. (その. セージから抽出されたそれぞれの特徴表現の上位20件を示す.表5.4の特徴表現と比較すると, 上位の「おもしろい」は同じである.また,5年生の特徴表現と6年生の特徴表現で「お話」,「い. ろいろ」,「物語」,「いろんな」,「不思議」,「女の子」は共通していることがわかる.. 表5.6に,CSMにも基づく手法[6]で抽出された特徴表現を示す.表5.6から,5年生は「お もしろい」「話です$」が上位,6年生は「ください」「^主人公の」が上位であることから,6年 生の方が本の内容について書き,また,本をお薦めしていることが考察できる.. 表5.7に,形態素解析を用いたCSMにも基づく手法[6]で抽出された特徴表現を示す.表5.7 から,5年生は「おもしろい」「話です$」が上位,6年生は「主人公の」「ください」が上位であ. ることから,6年生の方が本の内容について書き,また,本をお薦めしていることが考察できる. 表5.6と比較すると,表5.7の方がより本の内容を指す表現が多いことがわかる..

(22) 29. 5.2.,評価結果. 表5.4:頻度表による5,6年生の特徴表現. 5年生の特徴表現 6年生の特徴表現 おもしろい. おもしろい. 話です。$. ださい。$. もしろいよ. ください。. ^この本は. てください. いです。$. ^この本は. ^おもしろ. 本です。$. るお話です. いです。$. もしろいで. もしろいで. もしろい$. ました。.. もおもしろ. いろいろな. てもおもし. ^主人公の. がのってい. …。$. いろいろな. ります。$. しろいです. もしろい$. 本です。$. しろいです. はなしです. この本は、. ておもしろ. 、おもしろ. するお話で. 話です。$. エルマー. 読んでくだ. ろいです。. 見てくださ. (同一の表現に対して下線をつけて表示). 5.2.2 検索の学習前後からの特徴表現抽出. 表5.8に実験結果を示す.検索の学習書では「ドキドキ」,「楽しい」,「感動」など,児童自身. の気持ちを表す表現が抽出されていることがわかる.また,「本」や「物語」など,どのような本 に対しても利用できる情報のない表現も抽出されている.このことから,検索の学習の以前では, 情報の受け手のことを考えず,情報発信していたと分析できる.一方,検索の学習以後では,「で すよ」,「みんな」,「ぜひ読んで」など,他者に対する呼びかけの表現が抽出されている.また,「の. ことが」のように,本の具体的な内容を示していると予想される表現も抽出されている.実際に, 「のことが」は,「動物のことがわかります」のように本の具体的な内容の記述で使用されていた.. 以上の分析から,児童は検索の学習以後に他者を意識した情報発信になったといえる.言い換え ると,検索の学習は,情報発信能力を生成するのに効果があると結論づけられる.. 表5.9に,メッセージ分割を行わない提案手法で5年生の検索学習以前のメッセージと学習 以後のメヅセージから抽出されたそれぞれの特徴表現の上位20件を示す.学習以後の特徴表現で.

(23) 30. 第5章 評価実験. 表5.5:形態素解析を用いた頻度表による特徴表現. 5年生の特徴表現 ・6年生の特徴表現 おもしろい. おもしろい. お話 動物. 主人公. はなし. いろいろ. 読ん お話 物語 学校. ドキドキ. 不思議. とっても. いろいろ. 読ん とても. ください. 物語. ところ. いろんな 「. という. 不思議. 冒険. 楽しい. わかる. すごく. 書い. という. 男の子. 感動 自分. いろんな かわいい. すごい. 出会い. 女の子. 女の子. 勇気. 年生. たくさん どきどき. (5年生の特徴表現で「すごく」から以下の「どきどき」までは同順位のため表示). 「☆・」がある.これはノイズとして「☆」の記号除去ができていなかったためである. 表5.10に頻度表に基づく手法[4]の結果を示す.表5.10から,検索の学習以前と以後も「お もしろい」「話です。$」が上位であり,検索以後に「ぜひ読んで」という表現はあるが,検索に よる影響を受けたといえる表現は少ない.頻度表に基づく手法では,文書集合の比較を行わないた め,両者に共通した特徴表現も抽出してしまう.そのため,検索の学習の効果を示す特徴表現を抽 出できない結果となった.. 表5.11に形態素解析を用いた頻度表による特徴表現を示す.表5.10の特徴表現と比較する と,上位の「おもしろい」は同じである.また,学習以前の特徴表現と学習以後の特徴表現で「お 話」,「はなし」,「読ん」,「すごい」,「いろんな」,「とても」は共通していることがわかる.. 表5.12に,CSMに基づく手法[6]の抽出結果を示す.表5.12から,頻度表に基づく手法に比.

(24) 31. 5.2.評価結果. 表5.6:CSMによる5,6年生の特徴表現 5年生の特徴表現. 6年生の特徴表現. おもしろい. ください。. 話です。$. ださい。$. てもおもし. てください. がのってい. ^主人公の. ハおもしろ. …。$. るお話です. がわかりま. もおもしろ. きょうだい. お話です。. みてくださ. エルマー. わかります. するお話で. ストーリー. のっている. 読んでくだ. とってもお. ・アラジン. ってもおも. ^ある日、. しろいよ一. ^かわいい. かわいそう. ^とにかく. い本です$. いうのはう. はなしです. うのはうそ. ておもしろ. おすすめで. 『なしです。. しです。$. かる本です がよくわか. べると,CSMに基づく手法[6]では,検索の学習の効果を示す表現が抽出されていることがわか る.しかしながらながら,提案手法に比べるとその数は少ない.これは,統計指標に基づく手法 は,一般性の評価を行わないためである.例えば,学習以前の「リカちゃん」,「カちゃんの」や学. 習以後の「ウォンバッ」「オンバット」という表現は,少数のメッセージで繰り返し使用されるた め特徴表現として抽出されている.(例えば,一つのメッセージ内で“ウォンバットはさるになりた. くてウォンバットはウォンバヅトでいる∼。”)この手法では,学習者全体の学習以後の特徴表現 とは限らない表現も含まれて抽出されている.. 表5。13に,形態素解析を用いたCSMにも基づく手法[6]で抽出された特徴表現を示す.表5.12 に比べると学習による影響を受けた表現が少ない.また,学習以後の「ウォン」「バット」という 表現は,少数のメッセージで繰り返し使用されている表現だが特徴表現として抽出されている..

(25) 32. 第5章 評価実験. 表5.7:形態素解析を用いたCSMによる特徴表現 5年生の特徴表現. 6年生の特徴表現. おもしろい. 主人公. お話 動物. ください. わかる. はなし.. 書い. とっても. 学校. とても. .ストーリー. 勇気. アラジン. ドキドキ. 先生. すごく. 仲間. 感動 探偵. きょう わかり. 工ルマー. 危険. さがし. 出会い. 死神 かわいそう. .選手 ところ.. ハフハフ. 妖精. たくさん. そして. どきどき. 重要. 子供. エリザベス. ミルキー. ページ.

(26) 33. 5.2,評価結果1. 黍5.8:提案手法による学習前後の特徴表現. 学習以前の特徴表現 学習以後の特徴表現. 物語. のこと. ドキドキ. のことが. とっても. い話. いろいろ. 怖い. のほん. 、魔法. 楽しい. いですよ. いろいろな. 感動. ています。$ 』ぜひ読んで. さがし. 戦い. さんの. うまく. 本を読. ハみんな. ちゃん. 野球. 見て. 人気 ’. どきどき. たのしいよ. 勇気 がある. ですよ みんな. 不思議. いっぱい. 自分 でおもし. ね一$ だけで. 本です。$. が、あ‘.

(27) 34. 第5章 評価実験. 表5.9:メッセージ集合の分割無しの特徴表現. 学習以前の特徴表現 学習以律の特徴表環. 物語 ドキドキ とっても. のこと い話 戦い. ちゃん. ぜひ読んで. のほん. のことが. 楽しい さがし. ています。$. 怖い. なこと. (ぜひ読んで. やさし. ^みんな. さんの. いですよ 人気. このほん ぼうけん. うまく. んは、. たのしいよ. おもしろいです。$. 、魔法. 物語です. 野球. ハラハラ1. ☆・. 本を読. あった. 感動 勇気 自分. うまくな むずかしい. のはなしです.

(28) 35. 52.評価結果. 表5.10:頻度表による学習前後の特徴表現. 学習以前の特徴表現 学習以後の特徴表現 おもしろい. おもしろい. 話です。$. 話です。$. もしろいよ. お話です。. ^この本は. います。$. いです。$. (おもしろ. ^おもしろ. もしろいよ. るお話です. もしろい$. もしろいで. ています。. もしろい$ もおもしち. っています. ぜひ読んで. てもおもし. この本は、. がのってい. 力零いっ1;ま1い. いろいろな. ^この本は. しろいです. オンバット. 本です。$. ウオンバツ. はなしです. んでみてね. ておもしろ. るお話です. するお話で. ります。$. エルマー. のっていま. ろいです。. なしです。. (同一の表現に対して下線をつけて表示).

(29) 36. 第5章 評価実験. 表5.11:形態素解析を用いた頻度表による特徴表現. 学習以前の特徴表現 学習以後の特徴表現 おもしろい. お話 動物. おもしろい.. お話 はなし. はなし. 読ん. 読ん. いっぱい1. とても. たのしい. いろいろ. 戦い. ドキドキ. いろんな. とっても. 物語. 動物 怖い. いろんな. みんな. 不思議. うまく. 楽しい. ウオン. すごく. おすすめ. という. すごい. 感動 自分. 事件 とても. すごい. バット. 女の子. 野球 魔法. 勇気 たくさん どきどき. (5年生の特徴表現で「すごく」から以下の「どきどき」までは同順位のため表示).

(30) 37. 52.評価結果. 表5.12:CSMによる学習前後の特徴表現 学習以前の特徴表現 学習以後の特徴表現 おもしろい いちいうな. 話です。$. ぜひ読んで. ろいです。. ています。. 物語です。. ^ぜひ読ん、. 語です。$. ウオンバツ. ロミケイオ. ォンバット. リカちゃん. います。$. ヤツクとア. はなしです. ケイオミス. たのしいよ. ドロミケイ. お話です。. ックとアニ. しいよ。$. ケイオミム. のおはなし. カちゃんの. のばなしで. オミムスは. ました!$. イオミムス. みてね。$. やんの電話. ぢずかしい. ちゃんの電. わかり賦す. たくさん(η. がいっぱい. しておもし. っています. このほんは. のっていま.

(31) 38. 第5章 評価実験. 表5.13:形態素解析を用いたCSMによる特徴表現 学習以前の特徴表現 学習以後の特徴表現 おもしろい. いっぱい. ドキドキ. はなし. 物語 いろいろ. 戦い 怖い. とっても. ウオン. 楽しい ちゃん. バヅト. 探偵. うまく. さがし. 魔法 野球. 少年 男の子. みんな. むずかしい「. ヘレン. ハフハフ とセも. 可愛い. 感動’. わかり. 自分 勇気. マンガ. どきどき. 動物. たのしい. お話 力、っこいい. 不思議. 本当に. 知り. ことわざ. hline.

(32) 39. 第6章 考察 6.1 抽出された特徴表現を利用した分析支援 5年生と6年生の比較では,提案手法で抽出ざれた特徴表現から,5年生よりも6年生の方が本 を推薦する情報発信能力があることがわかった.具体的には,5年生はどのような本についても当 てはまる表現(例えば,表5.2の「おもしろい」や「話です」など)が特徴表現としで抽出されて. いる.5年生は本の感想,自分の感情をメッセージに書いている.これに対して6年生は,本に関 する具体的な記述に関する表現(例えば,表5.2の「主人公の」や「^ある日」など)がある.他者 が呼んでも本の内容がわかるようにメッセージを書いてい「 驕Dまた,丁寧な表現(例えば,表5.を. の「てください」や「ます」など)もある.他者に対して丁寧にメッセージを書いている.これら. のことから,6年生は5年生よりも他者を意識して情報発信を行っていると分析できる.与年生と 6年生の比較では,・対象者に一学年の差がある.つまり,もともとの対象者に学年の差やクラス間 の差,教員の指導による差があると考えれる.提案手法によって,対象者の差異が具体的な特徴表 現として抽出された.. 学習の指導をする際に,特徴表現を活かすことができる.5年生に他者を意識した情報発信を薦 めるために,本に関する具体的な記述に関する表現を提示する.例えば,「主人公」というキーワー ドを含めたメッセージを紹介する.または,6年生で抽出された本に関ナる具体的な記述に関する. 表現などをキーワードとしてシステムが提示すれば,5年生のメヅセージにも変化がおきると予想 できる.教師の負担も減らすことができる.. 検索学習前と学習後の比較では,提案手法で抽出された特徴表現から,検索学習後の方が学習前 より他者を意識した情報発信を行っていることが判明した.具体的には,学習前は児童自身の気持. ちや感情を表す表現(例えば,表53の「ドキドキ」や「感動」など)やどのような本でも利用が できる表現(例えば,表5.8の「楽しい」,「物語」,「ほん」)が抽出されている.学習前は本の感. 想,自分の感情をメッセージに書いている.一方,学習後は他者に対する呼びかけととれる表現 (例えば,表5.8の「楽しいよ」,「ぜひ読んで」,「^みんな」)や本の具体的な内容を示す表現(例. えば,表5,8の「のこと」や「のことが」など),本を検索する際にキーワードとなる表現(例え ば,表5.8の「魔法」,「戦い」,「野球」)が抽出されている.学習後は,本の具体的な内容や他者. を意識した呼びかけをメッセージに書いている.このことから,学習後の方が他者を意識した情報 発信を行っており,検索学習による効果があったと分析できる.. 頻度表に基づく手法[4]で抽出された特徴表現からは,5年生と6年生とも共通する表現が20件 中8、件もあった.また,学習前後でもともに共通する表現が20件中6件もあった.また,統計指 標に基づく手法[6]で抽出された特徴表現からは,5年生と6年生の比較では,6年生の方に本に 関する具体的な記述に関する表現(例え1ぎ,表5.6の「主人公の」や「^ある日」)や丁寧な表現 (例えば,表5.6の「ください。」や「てください」)がある.6年生の方が本をお薦めしているこ.

(33) 40. 第6章 考察. とがわかった.しかしながら,表5.6での「アラジン」は1つのメヅセージの中で繰り返し使用し ている表現ぞあり,個人の表現である.学習前後でも,少数のメッセージで繰り返し使用している 表現(表5.12の「リカちゃん」や「ウォンバッ」など)が特徴表現として抽出されている.この 手法では,個人の表現も抽出される.. 5年生と6年生あ比較,学習前後あ比較から,提案手法は5年生と6年生という対象者の差異 や学習による効果を分析する際の支援となることがわかった.提案手法で抽出された特徴表現は, 頻度表に基づく手法[4]とCSMに基づく手法[6]で抽出された特徴表現よりも,学習効果を含めた 差異ととれる表現が多いためである.これは,頻度表に基づく手法[4]では,両者の比較を行わず,. 独立でメッセージ集合を用いるため両者に共通の表現も特徴表現として抽出される.CSMに基づ く手法同では,メッセージ集合の比較を行っているので,学習効果を含めた差異を特徴表現とし て抽出される.しかしながら,蕊般性の評価を行っていないので,個人の表現である可能性の高い ものも特徴表現として抽出される.よって,提案手法は頻度表に基づく手法[4]とCSMに基づく 手法同よりも,一般性の評価を行っているため,共通の表現や個人の表現を含まずに特徴表現を 抽出する.そのため,学習効果を含めた差異ととれる表現が提案手法の方が従来手法より多い.ま た,抽出された特徴表現の解釈は品詞列ではないため解釈は容易である.また,メッセージの分割 無しの提案手法と比べた際に,提案手法のほうが学習効果や対象者の差異がある表現がわかりやす かった.これは,メヅセージ分割を行い繰り返しによる補強をし,一般性の評価を行うことでメッ セージの偏りを減らす効果がある.. 実験結果から,特徴表現によってはメッセージ文に一度戻ちないと,どのような表現であるかわ からないものもあった.例えば,表5.8の「のこと」や「のことが」のような特徴表現である.こ の「のこと」などは,一度,メッセージの文(例えば,「鳥のことがのっているよ」など)に戻ら ないとどのような表現であるか考察することはできない.つまり,メッセージ文に戻る手間がかか る.しかしながら,従来手法の2.3で述べたような品詞列で得られた特徴表現を解釈するために, メッセージ文に戻り分析するわけではない.抽出された特徴表現をキーワードとしてメッセージ文 に戻るため効率が良い.. 実験を行う前に,人手でメッセージを読み,メッセージにどのような変化があるかを探った.全 体的に「おもしろい」や「楽しい」という表現が多いと感じることは出来た.しかしながら,どう のような表現の変化があったかは,わかる表現(「ぜひ読んで」)もあれば気付かない表現があっ た.実際に,抽出された特徴表現から「のこと」のような本の具体的な内容をさす表現があること に気付くことが出来た.人手では予想していない表現や気付けない表現も,提案手法では特徴表現 として抽出された.更に,予想していない表現は新たな発見にも繋がる可能性があり,また,特徴 表現から運心する表現というものも考えることができる?つまり,特徴表現は,予想していること や知りたいこと,新たな発見をするキーワードとして,分析をする際の支援となる.特徴表現を抽 出する際に,正解にあたる表現のリストは作成していない.そのため,抽出された特徴表現がどの. 程度,正解に近いのかどうかの評価は行っていない.しかしながら,従来手法との比較も考える と,提案手法は今出来る特徴表現抽出で一番最良の方法である..

(34) 6.2.表現の分割方法に対する考察. 41. 6.2 表現の分割方法に対する考察 提案手法では,小学生の書いた自由記述文でも特徴表現を抽出できることを確認した.小学生の 書く文章は,ひらがなが多く単語への分割が難しい.また,文法的な誤りも含む場合がある.実際. に,評価実験で用いた文書も「おもしろいほんだよ」などのひらがなのみで記述された文や「と ても、チームワークが、とても、かんじます。」などの文法的な誤りを含むものも存在した.また,. 方言である関西弁の「おもろいで」という文や流行言葉なども存在した.提案手法では形態素解析 ツールではなくη一gramを利用している.そのため,小学生が書いた自由記述文でも,うまく文字. 列を区切ることができ,特徴表現を抽出する.ここでのうまく文字列を区切ることは,単語や形 態素解析,文節で区切れていることではない.形態素解析で区切ると例えば“楽しいよ”という表 現は“楽しい”と“よ”にわかれてしまう.提案手法では,η一gramを利用するたゆ“楽しいよ”とい う対象者が使用する状態のまま表現や“楽しい”,“よ”も特徴表現や特徴表現候補として抽出する.. しかしながら,文字列を区切る際に,うまく区切れている文字列もあれば変な区切りの文字列も含 まれる.変な区切りの文字列とは,対象者があまり使用しない表現や状態で区切れている文字列の ことを表す.例えば,「おもしろいほんだよ」というメッセージがある.これの変な区切り文字列 は,例えば,“んだ”などである.逆に,うまく区切れている文字列は,例えば,“おもしろい”や“. ほん”などである.他のメッセージでも使用が多い状態の区切り文字列はうまく区切れている文字 列,他のメッセージでの使用が少ない状態の区切り文字列は変な区切り文字列である.. 提案手法では,変な区切りの文字列が特徴表現として抽出されない.抽出されない理由は2つあ る.1つ目の理由は,変な区切りの文字列は,順位差が低い,かつ,メッセージ数が少ないためス コアが低いためである.逆に,順位差が高く,かつ,メッセージ数が多ければスコアが高くなる.. 提案手法では,スコアの値が高い順にソートし,上位数十件を特徴表現としているため,スコア の低いものは特徴表現候補ではあるが上位数十件の特徴表現としては抽出されない.上記の例の“ んだ”という表現は抽出対象と比較対象の両者であまり使用されないと予想ができる.つまり,両 者のプロファイルを作成したときにどちらの順位も低い位置にある.そのため,順位の差は低い.. しかしながら,プロファイル中で頻度が少ない文字列は数が多いため,順位差が大きい可能性も ある.次のプロセス,一般性の評価で一般性評価用の表現を含んだメッセージ数を数え際に,“ん だ”は使用頻度が低い表現のため,“んだ”を含んだメヅセージ数は少ない.よって,変な区切り文. 字列は,順位差が低い,もしくは順位差が高くでも,メッセージ数が少ないためスコアは低い.2 つ目の理由は,部分文字列は文字列に集約されるからである.例えば,“私は修士論文を書いた”と. いう文字列を区切る.この例での,変な区切り文字列は,“士論文”とする.うまく区切れている文 字列は“修士論文”である.“士論文”は“修士論文”の部分文字列である.この場合,“士論文”は“. 修士論文”の部分文字列のため,使用頻度が同じであり,一般性の評価でのメッセージ数が同じで ある可能性が高い.そのため,スコアが同じである.4.3でも述べたように,スコアが同じ場合は, 部分文字列は文字列に集約される.つまり,・“士論文”は“修士論文”に集約され特徴表現としては 抽出されない.もし,“修士論文”以外に“博士論文”を使用するメッセージ数が多くあれば,スコ. アが異なり,“士論文”の方が“修士論文”よりスコアが高くなる可能性がある.よって,この場合 は上記のようなスコアが同じで部分文字列として集約されることはない..

(35) 42. 第6章考察. 6.3「一般性評価の解釈 CSMに基づく手法[6]の結果からは,個人の特徴的な表現が抽出された.表5.6の「アラジン」 や表5.12の「リカちゃん」,「ウォンバッ」などの表現である.これは,一般性の評価を行ってい ないため個人の表現も抽出されている.提案手法では,一般性の評価を行うことで個人の表現は抽 出せず,一般的な表現が抽出される.. 一般性の評価では,プロファイル中のη一gramがどれくらい一般的に使用されているかどうかを. 確認する.そのため,プロファイルを作成する際に使用したメッセージ集合ではない,メッセー ジ集合を利用する.そのメッセージ集合は提案手法でいうと一般性評価用のことである.つまり, 一般性評価用として集合したメッセージは,プロファイル作成時に使用されていないメッセージ集 合なので,まだどのようなメッセージ集合なのかわからない状態である.つまり,未知のメッセー ジ集合と捉えることができる.提案手法では,この未知のメッセージ集合の中に,η一gramを含む メッセージがどれくらいあるかを問うことで一般性の評価としている.よって,提案手法の一般性 の評価は,未知めメッセージで一般性の評価を行っていると解釈できる.. 6.4 課題と改良にむけてのアイデア 実験では,5年生と6年目の比較,検索学習前後の比較を行った.他の比較でも,分析する際の 支援となるが,極端に差異が大きいと予想される対象(例えば,大人のメッセージと小学生のメッ セージの比較)では抽出された特徴表現は明らかな差がありすぎセ分析するのが難しい可能性があ る.そこで,提案手法では,差異が極端ではなく,なにか違いがありそうだがどのような差がある のかをわからない時に利用する方が分析する際に役に立つ. 提案手法では,一般性の評価を行うことから,より一般的な表現の抽出を目指す.そのために,. 個人の特徴を抽出する場合には適さない.一般性の評価を行う際に,個人の表現は抽出しないた め,実際にどのような個人の表現があるのかはわからない.しかしながら,個人の特徴を特徴表現 として知りたい場合は,抽出されなかった個人の表現を収集することで,個人の特徴的な表現の抽 出を考える際に使用できる可能性がある.または,別の手法を考える必要がある..

(36) 43. 第7章. おわりに. 本論文では,自由記述メッセージから特徴表現を自動的に抽出する手法を提案した.実験の結 果,提案手法で抽出された特徴表現は}学習者の差異や学習効果の分析の支援となることを確認し た.また,提案手法は,従来手法に比べノイズが少なく,ひらがなを多く含む文や文法的な誤りを 含む文からでも特徴表現が抽出できることも確認した.抽出された特徴表現の解釈は容易である.. 更に,提案手法の利点として,対象となるメッセージ集合を2つ用意するだけで特徴表現の抽出が 行える低コストな手法であることが挙げられる.また,対象をウェブ上のメッセージを対象として いるが,紙ベースのものでも利用できる.例えば,アンケートや作文などがある.ただし,紙ベー スのものを電子上に入力を行う必要があるが,音声入力ソフトを使えば読み上げるだけで良いので 負担は少ない.. 実験結果から,特徴表現は対象者の差異や学習による効果を分析する際の支援となることがわ かった.また,予想している表現や人手の作業では気付けない表現を特徴表現として抽出できた. 特徴表現がキーワードとなり,更に連想する表現を分析することが出来る. 提案手法では学習者 全体の特徴表現の抽出を行ったため,個人の特徴表現は考慮しない.個人の特徴を知りたい場合に は,提案手法を一部を改善する必要がある.例えば,ある児童の学習による変化を知りたい場合は,. メッセージ集合をその児童のみのメッセージ集合でプロファイル作成を行うことで児童個人の特徴. 表現抽出ができる可能性がある.また,一般性の評価で,一般性評価用文書にルgramを含む文書 が少なければスコアの値も低く,特徴表現として抽出されなかった特徴表現候補がある.その特徴 表現候補は個人の表現である可能性は高いが,どのような表現があるのか評価は行っていない. 小学生だけではなく,大人が書いた文書と小学生の文書の比較など,違う対象での比較を行って いない.これは,大人と小学生などの明らかな違いがある場合での特徴表現抽出より,.この手法で. は,人手の比較・分析では曖昧となるものを対象とするのに有効である可能性が高いと考察した. この考察の検証を行う必要がある..

(37) 45. 謝辞. 兵庫教育大学院の2年間の研究に際し,時には厳しく,時には優しく1常に親切で的確なご指 導・ご助言をいただいた永田亮先生,主任指導教員として支えてくださった森広浩一郎先生には深 く感謝いたします.また,教育内容・開発コースの正司和彦先生,掛川淳一先生,総合学習系コー スの諸先生方には,研究に関するご指導・ご助言いただきました.深く感謝し,御礼申し上げます.. この2年閻,研究を含め充実した2年間であったと思います.つらく苦しい日々も多くありまし たが,この2年間で学んだこと一生大切にしていきたいと思います.これから先,教員を目指すに. あたり,学校現場に出てもこの2年間で学んだことを生かすことが出来るように努力していきま す..これまで私を支えでくださった皆様へ心よりお礼を申し上げます.. 2007年12月森田千寿.

(38) 47. 関連図書 −[1]須田幸次,森広浩一郎,永田亮,正司和彦,掛川淳一(2006)小学校における図書をテーマ. にしたプログを用いた情報活用能力育成に関する研究.日本教育工学会第22回全章大会論文 集, pp.763−764. [2]安藤玲子,高比良美詠子,坂元章(2004)小学生のインタニネット使用と情報活用の実践力 との因果関係.日本教育工学会論文誌,VoL28(Suppl),』pp.65−68 [3]森田千寿,永田亮,掛川淳一,須田幸次,森広浩一郎(2007)自由記述メッセージからの学習 者の特徴表現抽出.日本教育工学会研究報告集,JSETO7−5, pp。215−222. [4]杉浦正利(2000)n−gramを使用した学習者コーパスにおける共起頻度の分析.朝尾幸次郎 (代表)第二言語習得研究のための英語学習者コーパスの構築とその利用.pp.37−43,平成9. 年度一平成11年度科学研究費補助金(基盤研究(B)(1))研究成果報告書,研究課題番号 09558018.. [5}長尾真,佐藤理史,黒橋禎夫,角田達彦(1996)自然言語処理.岩波書店,東京 [6]中條清美,西垣知佳子,内山将夫,中村隆宏,山崎淳史(2006)子供話し言葉コーパスの特. 徴語抽出に関する研究.日本大学生工学部研究報告B,2006年6月,第39巻 [7]Ma且ning,C.D.andSchutze,H.(1999)Foundations of Statistical Natural正anguage Procesing.. Ca血bridge:The MIT Press.. [8}内山将夫,中條清美,山本英子,伊佐原均(2004)英語教育のための分野特徴単語の選定尺 度の比較.自然言語処理,Vol.11, Number3, p.182 [9]Aartsj. and Granger,S.(1998)Tag sequences in learner corpora. In Learner English oh. computer, pp.132−141. [10]田中平作,小野望,平尾弘司(2007)NS/NNS文章分類モデルに基づいた日本語文章の推敲 支援.教育システム情報学会研究報告,vol。22, No.2, pp.38−44. [11]内元清貴,関根聡,井佐原均(2001)最大エントロピーモデルに基づく形態素解析一未知 語の問題の解決策一.自然言語処理,Vol.8, No.1, Jan.2001, pp 127−141 [121Cavnar,W.Bβnd TrenklelJ.M.(1994)N−gram−based七ext categorization. In Proc.3rd An−. nual Symposium on Document Analysis and Info照ation Retrieval, pp.161−175.

(39)

参照

Outline

関連したドキュメント

「~せいで」 「~おかげで」Q句の意味がP句の表す事態から被害を

 (4)以上の如き現状に鑑み,これらの関係 を明らかにする目的を以て,私は雌雄において

この説明から,数学的活動の二つの特徴が留意される.一つは,数学の世界と現実の

以上のことから,心情の発現の機能を「創造的感性」による宗獅勺感情の表現であると

 その後、徐々に「均等範囲 (range of equivalents) 」という表現をクレーム解釈の 基準として使用する判例が現れるようになり

現実感のもてる問題場面からスタートし,問題 場面を自らの考えや表現を用いて表し,教師の

向老期に分けられる。成人看護学では第二次性徴の出現がみられる思春期を含めず 18 歳前後から

板岡優里  芸術学部アート・デザイン表現学科ヒーリング表現領域