AES 支援システムの評価実験 - ルーブリックに基づくレポート自動採点システムの研究

本章では，自動採点支援システムを用いた実験結果を報告する¹．5.1節で，実験の目的を，

5.2節で実験で用いたレポートの概要を述べる．5.3節で評価項目および総合成績の採点結果を述べ，5.4節でむすびとする．

5.1 はじめに

ここでの評価実験は，システムの基盤となる自動採点部分の妥当性を確認することをねらいとする．学生が提出した小レポートを用いて，提案ルーブリックの評価項目のうちの自動採点可能項目を計算し，教員の手動採点結果と比較することで採点精度を確認する．

5.2 分析対象レポート

本システムで扱うレポートは，初年次教育や教養教育，リテラシー教育など，大学の基礎教育の授業で課す記述文や，エッセイタイプの100〜4000字程度の日本語論作文である．ここでは，表計算ソフトを使ったデータ解析をテーマとする情報リテラシー科目を受講する，大学1年次生が提出した小レポートを評価実験に用いた．レポートのテーマは，「外国人旅行客に関する調査報告書」の作成である．国土交通省観光庁のオープンデータをもとに表とグラフを作成し，そこからわかることなど自分の見解を，200文字以上で記述するものである．表

5.2.1に，採点するレポートの特徴を示す．レポート全体での平均文字数は378.4^{，標準偏差}

201.5^{であった．}

表5.2.1: 採点対象レポートの特徴

クラス人数（レポート数）平均文字数（標準偏差）

A 43 427.6 (216.0)

B 40 325.5 (171.7)

全体の集計 83 378.4 (201.5)

1本章は文献[66] [76] [77]を加筆・訂正したものである

5.3 自動採点項目の評価実験

教員はルーブリックにしたがい，手作業で評価観点の採点を行った．一方で，構築したAES 支援システムにより，評価項目No.1^および，No.15^〜25^のStyle^・Skill^{項目群の自動採点を} 行った．自動採点の結果から，Style^およびSkillの評価観点の評価値を予測し，さらに，分類器により総合成績レベルに分類した．以下，5.3.1項で，評価観点の採点結果を，また，5.3.2 項で総合成績レベルの分類結果について報告する．

5.3.1 評価観点の採点結果

評価観点Style^・Skillの教員採点と自動採点によるスピアマンの順位相関を求めた結果を，

表5.3.1^{に示す．特に}Skill観点の値が小さく改善すべき課題であることが確認できた．

表5.3.1: 重回帰モデルによる評価観点のクラス別予測結果の精度

手動採点との相関クラス文書数平均文字数

Style Skill

A 43 427.6 0.602 0.210

B 40 325.5 0.463 0.089

合計 83 378.4 0.493 0.255

5.3.2 総合成績レベル分類結果

分類器は今回の実験データで再作成した．4.4.2項で示した方針で，SVMと決定木で確認した．何れも交差検定により行うとして，レポートの2/3^{に相当する}55^{件をランダムに選択} し学習データとし，残りの28件をテストデータとした．図5.3.1^はSVM^{による評価結果と，}

分類器作成時のパラメータ及び精度である．また図5.3.2は決定木による分類結果である．やはりSVMの方が精度が高いため，SVM^{で分類器を作成した．}

図5.3.1: SVM^{による分類}

図5.3.2: 決定木による分類

表5.3.2はクラス別の成績レベル分類結果の精度を示したものである．

表5.3.2: クラス別総合席積レベル分類精度

クラス人数（レポート数）分類精度

A 43 0.581

B 40 0.550

全体の集計 83 0.536

図5.3.3は，教員が採点処理を行うと表示される画面のキャプチャである．Style^・Skill^の各

評価項目から重回帰モデルで求めた評価観点Style・Skillの各スコアを，ルーブリックと同様に，9点満点に正規化して提示する．また成績レベルは，前節で述べた分類器により求める.

図 5.3.3: 採点結果アウトプットの例

5.4 むすび

レポート採点用の詳細な評価項目をもつルーブリックを提案し，自動採点が可能な評価項目と評価観点を明らかにした．特にStyle項目群のほとんどが，教員による採点結果との相関を認め，自動採点可能であることがわかった．また，5つの評価観点間すべてについて相関を認めたことから，SSの自動採点結果により，CSEの予測が可能であることがわかった．ただ

し，Skill項目群は，アルゴリズムの再検討もしくは，評価項目を追加して精度を高める必要

がある．今後はSSの自動採点の精度を高める必要がある．提案手法では，評価項目を手動と

自動に区分して採点し，自動採点結果から手動採点部分を推測して成績レベルを提示することで教員の採点支援を目指している．またテキストデータの統計基礎値から，論作文指導に有用な多くの情報を得ることができる．今後は，採点結果や統計情報をより明確に提示するインターフェースの作成，テストデータによる処理速度の評価，新たな採点評価項目の検討，

そして機械学習アルゴリズムによる成績分類精度の向上などを目指す．また，教育方針や授業方法に応じ，動的にルーブリックを切り替える技術の導入を検討する

ドキュメント内ルーブリックに基づくレポート自動採点システムの研究 (ページ 63-68)