• 検索結果がありません。

6.1 抽出された特徴表現を利用した分析支援

 5年生と6年生の比較では,提案手法で抽出ざれた特徴表現から,5年生よりも6年生の方が本

を推薦する情報発信能力があることがわかった.具体的には,5年生はどのような本についても当 てはまる表現(例えば,表5.2の「おもしろい」や「話です」など)が特徴表現としで抽出されて いる.5年生は本の感想,自分の感情をメッセージに書いている.これに対して6年生は,本に関 する具体的な記述に関する表現(例えば,表5.2の「主人公の」や「^ある日」など)がある.他者 が呼んでも本の内容がわかるようにメッセージを書いてい「 驕Dまた,丁寧な表現(例えば,表5.を の「てください」や「ます」など)もある.他者に対して丁寧にメッセージを書いている.これら のことから,6年生は5年生よりも他者を意識して情報発信を行っていると分析できる.与年生と 6年生の比較では,・対象者に一学年の差がある.つまり,もともとの対象者に学年の差やクラス間 の差,教員の指導による差があると考えれる.提案手法によって,対象者の差異が具体的な特徴表 現として抽出された.

 学習の指導をする際に,特徴表現を活かすことができる.5年生に他者を意識した情報発信を薦 めるために,本に関する具体的な記述に関する表現を提示する.例えば,「主人公」というキーワー

ドを含めたメッセージを紹介する.または,6年生で抽出された本に関ナる具体的な記述に関する 表現などをキーワードとしてシステムが提示すれば,5年生のメヅセージにも変化がおきると予想 できる.教師の負担も減らすことができる.

 検索学習前と学習後の比較では,提案手法で抽出された特徴表現から,検索学習後の方が学習前 より他者を意識した情報発信を行っていることが判明した.具体的には,学習前は児童自身の気持 ちや感情を表す表現(例えば,表53の「ドキドキ」や「感動」など)やどのような本でも利用が できる表現(例えば,表5.8の「楽しい」,「物語」,「ほん」)が抽出されている.学習前は本の感 想,自分の感情をメッセージに書いている.一方,学習後は他者に対する呼びかけととれる表現

(例えば,表5.8の「楽しいよ」,「ぜひ読んで」,「^みんな」)や本の具体的な内容を示す表現(例 えば,表5,8の「のこと」や「のことが」など),本を検索する際にキーワードとなる表現(例え ば,表5.8の「魔法」,「戦い」,「野球」)が抽出されている.学習後は,本の具体的な内容や他者 を意識した呼びかけをメッセージに書いている.このことから,学習後の方が他者を意識した情報 発信を行っており,検索学習による効果があったと分析できる.

 頻度表に基づく手法[4]で抽出された特徴表現からは,5年生と6年生とも共通する表現が20件 中8、件もあった.また,学習前後でもともに共通する表現が20件中6件もあった.また,統計指 標に基づく手法[6]で抽出された特徴表現からは,5年生と6年生の比較では,6年生の方に本に 関する具体的な記述に関する表現(例え1ぎ,表5.6の「主人公の」や「^ある日」)や丁寧な表現

(例えば,表5.6の「ください。」や「てください」)がある.6年生の方が本をお薦めしているこ

40

第6章 考察

とがわかった.しかしながら,表5.6での「アラジン」は1つのメヅセージの中で繰り返し使用し ている表現ぞあり,個人の表現である.学習前後でも,少数のメッセージで繰り返し使用している 表現(表5.12の「リカちゃん」や「ウォンバッ」など)が特徴表現として抽出されている.この 手法では,個人の表現も抽出される.

 5年生と6年生あ比較,学習前後あ比較から,提案手法は5年生と6年生という対象者の差異

や学習による効果を分析する際の支援となることがわかった.提案手法で抽出された特徴表現は,

頻度表に基づく手法[4]とCSMに基づく手法[6]で抽出された特徴表現よりも,学習効果を含めた 差異ととれる表現が多いためである.これは,頻度表に基づく手法[4]では,両者の比較を行わず,

独立でメッセージ集合を用いるため両者に共通の表現も特徴表現として抽出される.CSMに基づ く手法同では,メッセージ集合の比較を行っているので,学習効果を含めた差異を特徴表現とし て抽出される.しかしながら,蕊般性の評価を行っていないので,個人の表現である可能性の高い ものも特徴表現として抽出される.よって,提案手法は頻度表に基づく手法[4]とCSMに基づく 手法同よりも,一般性の評価を行っているため,共通の表現や個人の表現を含まずに特徴表現を 抽出する.そのため,学習効果を含めた差異ととれる表現が提案手法の方が従来手法より多い.ま た,抽出された特徴表現の解釈は品詞列ではないため解釈は容易である.また,メッセージの分割 無しの提案手法と比べた際に,提案手法のほうが学習効果や対象者の差異がある表現がわかりやす かった.これは,メヅセージ分割を行い繰り返しによる補強をし,一般性の評価を行うことでメッ セージの偏りを減らす効果がある.

 実験結果から,特徴表現によってはメッセージ文に一度戻ちないと,どのような表現であるかわ からないものもあった.例えば,表5.8の「のこと」や「のことが」のような特徴表現である.こ の「のこと」などは,一度,メッセージの文(例えば,「鳥のことがのっているよ」など)に戻ら ないとどのような表現であるか考察することはできない.つまり,メッセージ文に戻る手間がかか る.しかしながら,従来手法の2.3で述べたような品詞列で得られた特徴表現を解釈するために,

メッセージ文に戻り分析するわけではない.抽出された特徴表現をキーワードとしてメッセージ文 に戻るため効率が良い.

 実験を行う前に,人手でメッセージを読み,メッセージにどのような変化があるかを探った.全 体的に「おもしろい」や「楽しい」という表現が多いと感じることは出来た.しかしながら,どう のような表現の変化があったかは,わかる表現(「ぜひ読んで」)もあれば気付かない表現があっ た.実際に,抽出された特徴表現から「のこと」のような本の具体的な内容をさす表現があること に気付くことが出来た.人手では予想していない表現や気付けない表現も,提案手法では特徴表現 として抽出された.更に,予想していない表現は新たな発見にも繋がる可能性があり,また,特徴 表現から運心する表現というものも考えることができる?つまり,特徴表現は,予想していること や知りたいこと,新たな発見をするキーワードとして,分析をする際の支援となる.特徴表現を抽 出する際に,正解にあたる表現のリストは作成していない.そのため,抽出された特徴表現がどの 程度,正解に近いのかどうかの評価は行っていない.しかしながら,従来手法との比較も考える

と,提案手法は今出来る特徴表現抽出で一番最良の方法である.

6.2 表現の分割方法に対する考察

 提案手法では,小学生の書いた自由記述文でも特徴表現を抽出できることを確認した.小学生の 書く文章は,ひらがなが多く単語への分割が難しい.また,文法的な誤りも含む場合がある.実際

に,評価実験で用いた文書も「おもしろいほんだよ」などのひらがなのみで記述された文や「と ても、チームワークが、とても、かんじます。」などの文法的な誤りを含むものも存在した.また,

方言である関西弁の「おもろいで」という文や流行言葉なども存在した.提案手法では形態素解析 ツールではなくη一gramを利用している.そのため,小学生が書いた自由記述文でも,うまく文字 列を区切ることができ,特徴表現を抽出する.ここでのうまく文字列を区切ることは,単語や形 態素解析,文節で区切れていることではない.形態素解析で区切ると例えば 楽しいよ という表 現は 楽しい と よ にわかれてしまう.提案手法では,η一gramを利用するたゆ 楽しいよ とい

う対象者が使用する状態のまま表現や 楽しい , よ も特徴表現や特徴表現候補として抽出する.

しかしながら,文字列を区切る際に,うまく区切れている文字列もあれば変な区切りの文字列も含 まれる.変な区切りの文字列とは,対象者があまり使用しない表現や状態で区切れている文字列の ことを表す.例えば,「おもしろいほんだよ」というメッセージがある.これの変な区切り文字列 は,例えば, んだ などである.逆に,うまく区切れている文字列は,例えば, おもしろい や ほん などである.他のメッセージでも使用が多い状態の区切り文字列はうまく区切れている文字 列,他のメッセージでの使用が少ない状態の区切り文字列は変な区切り文字列である.

 提案手法では,変な区切りの文字列が特徴表現として抽出されない.抽出されない理由は2つあ る.1つ目の理由は,変な区切りの文字列は,順位差が低い,かつ,メッセージ数が少ないためス コアが低いためである.逆に,順位差が高く,かつ,メッセージ数が多ければスコアが高くなる.

提案手法では,スコアの値が高い順にソートし,上位数十件を特徴表現としているため,スコア の低いものは特徴表現候補ではあるが上位数十件の特徴表現としては抽出されない.上記の例の んだ という表現は抽出対象と比較対象の両者であまり使用されないと予想ができる.つまり,両 者のプロファイルを作成したときにどちらの順位も低い位置にある.そのため,順位の差は低い.

しかしながら,プロファイル中で頻度が少ない文字列は数が多いため,順位差が大きい可能性も ある.次のプロセス,一般性の評価で一般性評価用の表現を含んだメッセージ数を数え際に, ん だ は使用頻度が低い表現のため, んだ を含んだメヅセージ数は少ない.よって,変な区切り文 字列は,順位差が低い,もしくは順位差が高くでも,メッセージ数が少ないためスコアは低い.2 つ目の理由は,部分文字列は文字列に集約されるからである.例えば, 私は修士論文を書いた と いう文字列を区切る.この例での,変な区切り文字列は, 士論文 とする.うまく区切れている文 字列は 修士論文 である. 士論文 は 修士論文 の部分文字列である.この場合, 士論文 は 修士論文 の部分文字列のため,使用頻度が同じであり,一般性の評価でのメッセージ数が同じで ある可能性が高い.そのため,スコアが同じである.4.3でも述べたように,スコアが同じ場合は,

部分文字列は文字列に集約される.つまり,・ 士論文 は 修士論文 に集約され特徴表現としては 抽出されない.もし, 修士論文 以外に 博士論文 を使用するメッセージ数が多くあれば,スコ アが異なり, 士論文 の方が 修士論文 よりスコアが高くなる可能性がある.よって,この場合 は上記のようなスコアが同じで部分文字列として集約されることはない.

関連したドキュメント