考察 - 自由記述メッセージからの学習者の特徴表現抽出に関する研究

6．1 抽出された特徴表現を利用した分析支援

5年生と6年生の比較では，提案手法で抽出ざれた特徴表現から，5年生よりも6年生の方が本

を推薦する情報発信能力があることがわかった．具体的には，5年生はどのような本についても当てはまる表現（例えば，表5．2の「おもしろい」や「話です」など）が特徴表現としで抽出されている．5年生は本の感想，自分の感情をメッセージに書いている．これに対して6年生は，本に関する具体的な記述に関する表現（例えば，表5．2の「主人公の」や「＾ある日」など）がある．他者が呼んでも本の内容がわかるようにメッセージを書いてい「驕Dまた，丁寧な表現（例えば，表5．をの「てください」や「ます」など）もある．他者に対して丁寧にメッセージを書いている．これらのことから，6年生は5年生よりも他者を意識して情報発信を行っていると分析できる．与年生と 6年生の比較では，・対象者に一学年の差がある．つまり，もともとの対象者に学年の差やクラス間の差，教員の指導による差があると考えれる．提案手法によって，対象者の差異が具体的な特徴表現として抽出された．

学習の指導をする際に，特徴表現を活かすことができる．5年生に他者を意識した情報発信を薦めるために，本に関する具体的な記述に関する表現を提示する．例えば，「主人公」というキーワー

ドを含めたメッセージを紹介する．または，6年生で抽出された本に関ナる具体的な記述に関する表現などをキーワードとしてシステムが提示すれば，5年生のメヅセージにも変化がおきると予想できる．教師の負担も減らすことができる．

検索学習前と学習後の比較では，提案手法で抽出された特徴表現から，検索学習後の方が学習前より他者を意識した情報発信を行っていることが判明した．具体的には，学習前は児童自身の気持ちや感情を表す表現（例えば，表53の「ドキドキ」や「感動」など）やどのような本でも利用ができる表現（例えば，表5．8の「楽しい」，「物語」，「ほん」）が抽出されている．学習前は本の感想，自分の感情をメッセージに書いている．一方，学習後は他者に対する呼びかけととれる表現

（例えば，表5．8の「楽しいよ」，「ぜひ読んで」，「＾みんな」）や本の具体的な内容を示す表現（例えば，表5，8の「のこと」や「のことが」など），本を検索する際にキーワードとなる表現（例えば，表5．8の「魔法」，「戦い」，「野球」）が抽出されている．学習後は，本の具体的な内容や他者を意識した呼びかけをメッセージに書いている．このことから，学習後の方が他者を意識した情報発信を行っており，検索学習による効果があったと分析できる．

頻度表に基づく手法［4］で抽出された特徴表現からは，5年生と6年生とも共通する表現が20件中8、件もあった．また，学習前後でもともに共通する表現が20件中6件もあった．また，統計指標に基づく手法［6］で抽出された特徴表現からは，5年生と6年生の比較では，6年生の方に本に関する具体的な記述に関する表現（例え1ぎ，表5．6の「主人公の」や「＾ある日」）や丁寧な表現

（例えば，表5．6の「ください。」や「てください」）がある．6年生の方が本をお薦めしているこ

第6章考察

とがわかった．しかしながら，表5．6での「アラジン」は1つのメヅセージの中で繰り返し使用している表現ぞあり，個人の表現である．学習前後でも，少数のメッセージで繰り返し使用している表現（表5．12の「リカちゃん」や「ウォンバッ」など）が特徴表現として抽出されている．この手法では，個人の表現も抽出される．

5年生と6年生あ比較，学習前後あ比較から，提案手法は5年生と6年生という対象者の差異

や学習による効果を分析する際の支援となることがわかった．提案手法で抽出された特徴表現は，

頻度表に基づく手法［4］とCSMに基づく手法［6］で抽出された特徴表現よりも，学習効果を含めた差異ととれる表現が多いためである．これは，頻度表に基づく手法［4］では，両者の比較を行わず，

独立でメッセージ集合を用いるため両者に共通の表現も特徴表現として抽出される．CSMに基づく手法同では，メッセージ集合の比較を行っているので，学習効果を含めた差異を特徴表現として抽出される．しかしながら，蕊般性の評価を行っていないので，個人の表現である可能性の高いものも特徴表現として抽出される．よって，提案手法は頻度表に基づく手法［4］とCSMに基づく手法同よりも，一般性の評価を行っているため，共通の表現や個人の表現を含まずに特徴表現を抽出する．そのため，学習効果を含めた差異ととれる表現が提案手法の方が従来手法より多い．また，抽出された特徴表現の解釈は品詞列ではないため解釈は容易である．また，メッセージの分割無しの提案手法と比べた際に，提案手法のほうが学習効果や対象者の差異がある表現がわかりやすかった．これは，メヅセージ分割を行い繰り返しによる補強をし，一般性の評価を行うことでメッセージの偏りを減らす効果がある．

実験結果から，特徴表現によってはメッセージ文に一度戻ちないと，どのような表現であるかわからないものもあった．例えば，表5．8の「のこと」や「のことが」のような特徴表現である．この「のこと」などは，一度，メッセージの文（例えば，「鳥のことがのっているよ」など）に戻らないとどのような表現であるか考察することはできない．つまり，メッセージ文に戻る手間がかかる．しかしながら，従来手法の2．3で述べたような品詞列で得られた特徴表現を解釈するために，

メッセージ文に戻り分析するわけではない．抽出された特徴表現をキーワードとしてメッセージ文に戻るため効率が良い．

実験を行う前に，人手でメッセージを読み，メッセージにどのような変化があるかを探った．全体的に「おもしろい」や「楽しい」という表現が多いと感じることは出来た．しかしながら，どうのような表現の変化があったかは，わかる表現（「ぜひ読んで」）もあれば気付かない表現があった．実際に，抽出された特徴表現から「のこと」のような本の具体的な内容をさす表現があることに気付くことが出来た．人手では予想していない表現や気付けない表現も，提案手法では特徴表現として抽出された．更に，予想していない表現は新たな発見にも繋がる可能性があり，また，特徴表現から運心する表現というものも考えることができる？つまり，特徴表現は，予想していることや知りたいこと，新たな発見をするキーワードとして，分析をする際の支援となる．特徴表現を抽出する際に，正解にあたる表現のリストは作成していない．そのため，抽出された特徴表現がどの程度，正解に近いのかどうかの評価は行っていない．しかしながら，従来手法との比較も考える

と，提案手法は今出来る特徴表現抽出で一番最良の方法である．

6．2 表現の分割方法に対する考察

提案手法では，小学生の書いた自由記述文でも特徴表現を抽出できることを確認した．小学生の書く文章は，ひらがなが多く単語への分割が難しい．また，文法的な誤りも含む場合がある．実際

に，評価実験で用いた文書も「おもしろいほんだよ」などのひらがなのみで記述された文や「とても、チームワークが、とても、かんじます。」などの文法的な誤りを含むものも存在した．また，

方言である関西弁の「おもろいで」という文や流行言葉なども存在した．提案手法では形態素解析ツールではなくη一gramを利用している．そのため，小学生が書いた自由記述文でも，うまく文字列を区切ることができ，特徴表現を抽出する．ここでのうまく文字列を区切ることは，単語や形態素解析，文節で区切れていることではない．形態素解析で区切ると例えば楽しいよという表現は楽しいとよにわかれてしまう．提案手法では，η一gramを利用するたゆ楽しいよとい

う対象者が使用する状態のまま表現や楽しい，よも特徴表現や特徴表現候補として抽出する．

しかしながら，文字列を区切る際に，うまく区切れている文字列もあれば変な区切りの文字列も含まれる．変な区切りの文字列とは，対象者があまり使用しない表現や状態で区切れている文字列のことを表す．例えば，「おもしろいほんだよ」というメッセージがある．これの変な区切り文字列は，例えば，んだなどである．逆に，うまく区切れている文字列は，例えば，おもしろいやほんなどである．他のメッセージでも使用が多い状態の区切り文字列はうまく区切れている文字列，他のメッセージでの使用が少ない状態の区切り文字列は変な区切り文字列である．

提案手法では，変な区切りの文字列が特徴表現として抽出されない．抽出されない理由は2つある．1つ目の理由は，変な区切りの文字列は，順位差が低い，かつ，メッセージ数が少ないためスコアが低いためである．逆に，順位差が高く，かつ，メッセージ数が多ければスコアが高くなる．

提案手法では，スコアの値が高い順にソートし，上位数十件を特徴表現としているため，スコアの低いものは特徴表現候補ではあるが上位数十件の特徴表現としては抽出されない．上記の例のんだという表現は抽出対象と比較対象の両者であまり使用されないと予想ができる．つまり，両者のプロファイルを作成したときにどちらの順位も低い位置にある．そのため，順位の差は低い．

しかしながら，プロファイル中で頻度が少ない文字列は数が多いため，順位差が大きい可能性もある．次のプロセス，一般性の評価で一般性評価用の表現を含んだメッセージ数を数え際に，んだは使用頻度が低い表現のため，んだを含んだメヅセージ数は少ない．よって，変な区切り文字列は，順位差が低い，もしくは順位差が高くでも，メッセージ数が少ないためスコアは低い．2 つ目の理由は，部分文字列は文字列に集約されるからである．例えば，私は修士論文を書いたという文字列を区切る．この例での，変な区切り文字列は，士論文とする．うまく区切れている文字列は修士論文である．士論文は修士論文の部分文字列である．この場合，士論文は修士論文の部分文字列のため，使用頻度が同じであり，一般性の評価でのメッセージ数が同じである可能性が高い．そのため，スコアが同じである．4．3でも述べたように，スコアが同じ場合は，

部分文字列は文字列に集約される．つまり，・士論文は修士論文に集約され特徴表現としては抽出されない．もし，修士論文以外に博士論文を使用するメッセージ数が多くあれば，スコアが異なり，士論文の方が修士論文よりスコアが高くなる可能性がある．よって，この場合は上記のようなスコアが同じで部分文字列として集約されることはない．

ドキュメント内自由記述メッセージからの学習者の特徴表現抽出に関する研究 (ページ 32-38)

考察

6．1 抽出された特徴表現を利用した分析支援

5年生と6年生の比較では，提案手法で抽出ざれた特徴表現から，5年生よりも6年生の方が本

第6章 考察

5年生と6年生あ比較，学習前後あ比較から，提案手法は5年生と6年生という対象者の差異

6．2 表現の分割方法に対する考察

第6章考察