• 検索結果がありません。

AES 支援システムの評価実験

本章では,自動採点支援システムを用いた実験結果を報告する1.5.1節で,実験の目的を,

5.2節で実験で用いたレポートの概要を述べる.5.3節で評価項目および総合成績の採点結果 を述べ,5.4節でむすびとする.

5.1 はじめに

ここでの評価実験は,システムの基盤となる自動採点部分の妥当性を確認することをねら いとする.学生が提出した小レポートを用いて,提案ルーブリックの評価項目のうちの自動 採点可能項目を計算し,教員の手動採点結果と比較することで採点精度を確認する.

5.2 分析対象レポート

本システムで扱うレポートは,初年次教育や教養教育,リテラシー教育など,大学の基礎教 育の授業で課す記述文や,エッセイタイプの100〜4000字程度の日本語論作文である.ここ では,表計算ソフトを使ったデータ解析をテーマとする情報リテラシー科目を受講する,大 学1年次生が提出した小レポートを評価実験に用いた.レポートのテーマは,「外国人旅行客 に関する調査報告書」の作成である.国土交通省観光庁のオープンデータをもとに表とグラ フを作成し,そこからわかることなど自分の見解を,200文字以上で記述するものである.表

5.2.1に,採点するレポートの特徴を示す.レポート全体での平均文字数は378.4,標準偏差

201.5であった.

表5.2.1: 採点対象レポートの特徴

クラス 人数(レポート数) 平均文字数(標準偏差)

A 43 427.6 (216.0)

B 40 325.5 (171.7)

全体の集計 83 378.4 (201.5)

1本章は文献[66] [76] [77]を加筆・訂正したものである

5.3 自動採点項目の評価実験

教員はルーブリックにしたがい,手作業で評価観点の採点を行った.一方で,構築したAES 支援システムにより,評価項目No.1および,No.1525StyleSkill項目群の自動採点を 行った.自動採点の結果から,StyleおよびSkillの評価観点の評価値を予測し,さらに,分類 器により総合成績レベルに分類した.以下,5.3.1項で,評価観点の採点結果を,また,5.3.2 項で総合成績レベルの分類結果について報告する.

5.3.1 評価観点の採点結果

評価観点StyleSkillの教員採点と自動採点によるスピアマンの順位相関を求めた結果を,

表5.3.1に示す.特にSkill観点の値が小さく改善すべき課題であることが確認できた.

表5.3.1: 重回帰モデルによる評価観点のクラス別予測結果の精度

手動採点との相関 クラス 文書数 平均文字数

 Style Skill

A 43 427.6 0.602 0.210

B 40 325.5 0.463 0.089

合計 83 378.4 0.493 0.255

5.3.2 総合成績レベル分類結果

分類器は今回の実験データで再作成した.4.4.2項で示した方針で,SVMと決定木で確認 した.何れも交差検定により行うとして,レポートの2/3に相当する55件をランダムに選択 し学習データとし,残りの28件をテストデータとした.図5.3.1SVMによる評価結果と,

分類器作成時のパラメータ及び精度である.また図5.3.2は決定木による分類結果である.や はりSVMの方が精度が高いため,SVMで分類器を作成した.

図5.3.1: SVMによる分類

図5.3.2: 決定木による分類

表5.3.2はクラス別の成績レベル分類結果の精度を示したものである.

表5.3.2: クラス別総合席積レベル分類精度

クラス 人数(レポート数) 分類精度

A 43 0.581

B 40 0.550

全体の集計 83 0.536

図5.3.3は,教員が採点処理を行うと表示される画面のキャプチャである.StyleSkillの各

評価項目から重回帰モデルで求めた評価観点Style・Skillの各スコアを,ルーブリックと同様 に,9点満点に正規化して提示する.また成績レベルは,前節で述べた分類器により求める.

図 5.3.3: 採点結果アウトプットの例

5.4 むすび

レポート採点用の詳細な評価項目をもつルーブリックを提案し,自動採点が可能な評価項 目と評価観点を明らかにした.特にStyle項目群のほとんどが,教員による採点結果との相関 を認め,自動採点可能であることがわかった.また,5つの評価観点間すべてについて相関を 認めたことから,SSの自動採点結果により,CSEの予測が可能であることがわかった.ただ

し,Skill項目群は,アルゴリズムの再検討もしくは,評価項目を追加して精度を高める必要

がある.今後はSSの自動採点の精度を高める必要がある.提案手法では,評価項目を手動と

自動に区分して採点し,自動採点結果から手動採点部分を推測して成績レベルを提示するこ とで教員の採点支援を目指している.またテキストデータの統計基礎値から,論作文指導に 有用な多くの情報を得ることができる.今後は,採点結果や統計情報をより明確に提示する インターフェースの作成,テストデータによる処理速度の評価,新たな採点評価項目の検討,

そして機械学習アルゴリズムによる成績分類精度の向上などを目指す.また,教育方針や授 業方法に応じ,動的にルーブリックを切り替える技術の導入を検討する