• 検索結果がありません。

知能と情報,Vol.27, No.5, pp

N/A
N/A
Protected

Academic year: 2021

シェア "知能と情報,Vol.27, No.5, pp"

Copied!
13
0
0

読み込み中.... (全文を見る)

全文

(1)

TETDM を用いたテキストマイニングのスキル

獲得を支援するためのチュートリアルシステムの開発

西原 陽子

*1

・中垣内 李菜

*2

・川本 佳代

*2

・砂山 渡

*2  テキストマイニングを用いたデータの分析に関心が高まっており,コンピュータ上で扱えるソフトウェ アも数多く開発されている.ソフトウェアを用いてテキストマイニングを行うには,テキストマイニング の手法が実現されたツールの選択・操作やデータの分析をするためのスキルを身につける必要がある.ス キルを身につけるためには,ツールの選択・操作やデータの分析などを,課題を通じて繰り返し練習する ことが重要になると考えられる.そこで,本論文では,テキストマイニングのソフトウェアであるTETDM を用いたテキストマイニングのスキル獲得を支援するチュートリアルシステムを開発する.提案システム では,テキストマイニングの課題を基礎的なものから応用的なものへと順に解かせることにより,スキル 獲得を支援する.被験者実験を行い,提案システムがテキストマイニングのスキル獲得を支援することを 確認した. キーワード:テキストマイニング,スキル,利用者,チュートリアル,利用者の特性

Development of Tutorial System on Text Mining Skill for Users of TETDM

Yoko NISHIHARA, Rina NAKAGOCHI, Kayo KAWAMOTO and Wataru SUNAYAMA

*1 立命館大学情報理工学部

College of Information Science and Engineering, Ritsumeikan University

*2 広島市立大学大学院情報科学研究科

Graduate School of Information Sciences, Hiroshima City Uni-versity

1.はじめに

テキストデータの取得方法や解析方法に関心が高 まっている.特に社会調査や市場調査の分野における 定量的な調査手法や解析手法と,自由回答型,自由記 述型の設問を併用することによって,生活者や消費者 の生の声を取得し,生の声を計量化することによって データの分析を充実させたいという要請は日増しに高 まっている[1].このようなデータ分析技術の1つに テキストマイニングがある.膨大な量のデータであっ ても分析可能とするために,コンピュータ上で動作す るテキストマイニングのソフトウェアが多数開発され ている.有償の例としては,IBM 社の IBM SPSS Text Analytics for Surveys や,SAS 社の Text Miner など があり,無償の例としては,RやWeka,TETDM(Total Environment for Text Data Mining)などがある.

テキストマイニングのソフトウェアは慣れている人 にとっては利用することは簡単だが,慣れていない初 心者にとっては利用することが難しい.ここで挙げた 初心者には,2通りの意味が考えられる.1つには, 個々のソフトウェアの利用経験が少ないという意味で の初心者がある.ソフトウェアの操作方法を知らない ことが多いが,操作方法が記述された説明書を与える ことにより,この問題は解決できると期待される.も う1つには,テキストマイニングによりデータを分析 して価値のある知識を発見した経験が少ないという意 味での初心者がある. ソフトウェアを用いたテキストマイニングでは,一 般的に以下の1から6の手順を踏むことが多い[2, 3]. 1.データ取得:テキストマイニングの目的を設定 し,必要なテキストデータを取得する. 2.前処理:テキストデータから単語や,文の係受 け関係を抽出するなどの処理を行う. 3.データ変換:マイニングツールや可視化ツール が適用できるように,データを変換する.例え ば,テキストデータから抽出した単語と単語の 頻度をリストとして表現するなどの処理を行う. ツールとは,テキストマイニングの手法を,ソ フトウェアの1つの機能として実現したものを 指す. 4.マイニングツールの選択・操作 5.可視化ツールの選択・操作 6.データ分析:マイニングツールにより,テキス トマイニングされた結果を可視化ツール上で眺 め,データを分析し,価値のある知識を発見する.

(2)

手順の6においては,価値のある知識を発見しやす い形でマイニングの結果を可視化して出力する必要が ある.発見しやすい形は,テキストマイニングの目的 によって異なり,目的ごとに発見しやすい形を得るた めの手順書を用意することは困難である.テキストマ イニングを行うためには,手順の1から6に対応した スキルを獲得する必要がある.手順に対応したスキル とは,データを獲得するスキル,前処理を行うスキ ル,データを変換するスキル,マイニングツールの選 択・操作を行うスキル,可視化ツールの選択・操作を 行うスキル,データを分析するスキルの6つである. 初心者はテキストマイニングを行う上で必要なスキル を持ち合わせていないことが多い.スキルはテキスト マイニングの繰り返しによって獲得可能なため[4], 例題を示し,例題を用いて練習をさせることが重要に なると考えられる. そこで,本論文では,テキストマイニングのスキル 獲得を支援するチュートリアルシステムを開発する. 本論文では,テキストマイニングのスキル獲得を支援 するシステムを,チュートリアルシステムと定義する. 本論文では,無償のソフトウェアの一つであるTETDM を用いて,TETDM の機能の一つとしてチュートリア ルシステムを実装する.TETDM は,テキストデータ が入力されると,データの前処理,変換までを自動的 に行う.そのため,本論文で獲得を支援するスキル は,一般的なテキストマイニングの手順の4から6で 必要になる,マイニングツールの選択・操作を行うス キル,可視化ツールの選択・操作を行うスキル,デー タを分析するスキルになる.チュートリアルシステム により,まずは,T E T D M を操作するスキルと, TETDM を用いてテキストマイニングを行うスキルの 獲得を支援し,将来的には中級者や上級者向けの チュートリアルも開発し,中級者,上級者のテキスト マイニングのスキル獲得も支援する.

2.関連研究

スキル獲得に関する既存研究,コンピュータ上の チュートリアルに関する既存研究,およびテキストマ イニングのソフトウェアの1つであるTETDM につい て紹介し,本研究の位置づけを行う. 2.1 スキル獲得の関連研究 テキストマイニングのソフトウェアを利用する上で は,操作方法を憶えるだけでは不十分で,分析の目的 にあったツールを選び,得られたデータを分析するた めのスキルを身につける必要がある.個人が持つスキ ルを他者が獲得可能とするために,スキル獲得に関す る研究が行われてきた.テキストマイニングのスキル は認知的なスキルの一種である.同じく認知的なスキ ルの一種であるプログラミングのスキルに対しては, スキルの獲得を支援するための手法が多数提案されて いる.例えば,サンプルプログラムを元にして,別の プログラムを作る学習において,プログラムを作成す る上でのヒントを提示することにより,プログラミン グスキルの向上を支援するシステム[5]や,誤ったプ ログラムを自動的に生成して,プログラムを読むスキ ルや,誤り訂正をするスキルを向上するための支援シ ステム[6]などが提案されている.プログラミングに 必要なスキルも複数の研究者により提案されており [7, 8],スキルのレベルを評価するシステムも提案さ れている[9]. 一方で,テキストマイニングのスキル獲得を支援す るシステムはほとんど見当たらない.本論文で提案す るチュートリアルシステムは,テキストマイニングの スキル獲得を支援することを目指した新しいものであ る.本チュートリアルを提供することによって,テキ ストマイニングを行いたくても行うことが難しかった 人たちを支援することが可能となる.例えば,ビジネ スの場でデータを分析,活用する必要に迫られている ユーザや,研究室で普段から研究に関する情報収集, 論文執筆や助成金獲得のための文章作成を行い,情報 収集,文章作成の支援を求めているユーザなどは,テ キストマイニングの技術を必要としている.情報収集 を行うユーザであれば,関連研究のテキストを収集 し,それらを入力とすることで,関連研究同士のつな がりや関連研究全体におけるキーワードを得て,研究 分野の概観を知ることを欲している.文章作成を行う ユーザであれば,執筆した文章とタイトルとの間に, 一貫性があるかどうかを確認することを欲している. これらのユーザは,重要な単語を抽出する技術や,文 間の関連を評価する技術などを必要としており,テキ ストマイニングではこれらの技術が実現されている. テキストマイニングの技術を必要とするユーザに対し て,本チュートリアルを提供することによって,ユー ザの知的活動を大きく支援することが可能となる. 2.2 コンピュータ上のチュートリアルの関連研究 本研究ではテキストマイニングのスキル獲得に,コ ンピュータ上で動くチュートリアルシステムを用い る.コンピュータを用いて,学習者の個々のペースに 合わせて教育を支援するシステムは古くから研究がさ れており,その中に e −ラーニングシステムがある. e −ラーニングシステムは,情報技術を用いて学習者 の自主的な学習を支援するシステムであり,大まかに

(3)

は教材と学習管理システムの2つに分けることができ る.学習者は,自らの理解速度に合わせて,個別に学 習を進めることができるようになっている[10].本研 究で提案するチュートリアルシステムも,テキストマ イニングのスキルの獲得を支援するための課題と,課 題の進捗を管理する機能をもっており,e −ラーニン グシステムの一つと考えられる. e −ラーニングシステムは,プログラミングの演習 など,大学の講義でも利用されている.単に教材を提 示するだけでなく,学習に行き詰まっている学習者を 検知して,教授者に知らせることによって,効率的な 演習の運営,学生の学力向上を目指すものもある[11]. 一方で,教授者が個別に対応することのコストを削減 するために,教授者は直接関与することなく,学習者 の学力向上を支援するものもある[12].本研究で開発 するチュートリアルシステムも,行き詰まった学習者 がいても教授者は直接関与はしない.その代わりに, 学習者に対して課題を出し,その課題が解けたら,解 けた旨を可視化するフィードバックを用意する. フィードバックによって,学習者は,自分が解けた課 題と解けなかった課題を容易に把握できるようになる. 本研究で開発するチュートリアルシステムは,e − ラーニングシステムの教材として,複数の課題を持つ. 学習者は課題を順番に解いて行くことによって,テキ ストマイニングのスキルを獲得していく.課題の順序 は,講義のシラバスを組むときと同じ要領で,基礎的 な知識を初めにおさえ,徐々に応用的な知識をおさえ ていくようにすることが望ましいと考えられる[13]. ただし,1つ1つの課題の順番を厳密に固定してしま うと,1つ課題が解けなかった場合に,次の課題に進 めず,学習者の学習がそこで止まってしまう恐れがあ る.そこで,本研究では課題を解く1つ1つの順番は 定めず,同じような内容の課題をまとめてグループを 作り,グループに関しては解く順序を決定する.この ように柔軟な設定を採ることにより,後から課題の内 容を追加,削除することも容易にできる. 2.3 テキストマイニングソフトウェアTETDM TETDM 1 はテキストマイニングのソフトウェアで ある.TETDM は,世の中に分散しているテキストマ イニングツールを統一的に扱え,分析に没入して新た な発想を得られる環境として,2010 年度から開発が 進められている[14].Windows OS( XP, Vista, 7)ま たはMac OS(Snow Leopard, Lion, Mountain Lion)が インストールされているコンピュータに, Java(バージョ ン1.6以上)がインストールされていれば,TETDMは 動作する.TETDM はプログラミング言語 Java を用 いて実装されている. 図1にTETDM のインタフェースの概観の一例を示 す.一番上にあるのはメニューバーであり,その下に あるのが複数のマイニング結果を可視化するパネルで ある. メニューバーにはTETDM に用意されている機能が 並んでいる.機能としては,分析をするテキストを読 込む,分析結果を表示するパネルを追加する,表示 フォントを拡大するなどがある. メニューバーの下にある各パネルでは,分析の結果 が可視化されている.TETDM では,データを分析す るために,マイニングのツールとマイニングの結果を 可視化するツールの2つを選択する必要がある.1つ のパネルには,マイニングツールと可視化ツールの組 合せを割り当てる.マイニングツールと可視化ツール の組合せを変更することによって,さまざまな分析結 果を得ることが可能である. 2014 年6月現在において,TETDM の中に含まれ ているツールは,マイニングツール,可視化ツール共 に 35 個ずつある.1つのマイニングツールに対して, 35 個の可視化ツールの全てが組合せられるわけでは なく,可能なツールの組合せは限られており,現在, 推奨される組合せは 46 通りとなっている.どのツー ルを組み合わせるかは,図2に示したツール選択ウィ ンドウにおいて決定することができる.マイニング ツールか可視化ツールの中の1つのツールを選択する と,組合せ可能なツールが反転表示されるので,ツー ル選択の助けとなる.図2上にあるツールを示す文字 列にマウスを乗せると,ツールの説明文がポップアッ プ表示される. 1 http://tetdm.jp/ からダウンロードして利用可能. 図1 テキストマイニングソフトウェア TETDM の概 観の一例.一番上にメニューバーがあり,その 下にマイニング結果を可視化するパネルが並ん でいる.

(4)

3.提案システム:TETDM を用いたテ

キストマイニングのスキル獲得を支援

するチュートリアルシステム

本チュートリアルシステムの概要を図3に示す. チュートリアルシステムは TETDM の機能の一つに なる.図3においては,灰色の網掛け部分が,本論文 で提案するチュートリアルシステムになる.チュート リアルシステムは2つの部分から構成される.1つは 課題操作部であり,ここでは課題リストの中から, ユーザが選択した課題を出題し,ユーザが入力した解 答の正誤判定を行う.もう1つは表示部の表示インタ フェースであり,ここではユーザの課題選択の入力 や,課題の解答入力を受け付け,選択された課題を表 示し,解答の正否を表示する.ユーザは表示された課 題を読み,必要に応じてキーボードやマウスを操作し て解答を入力する.入力された解答が正答であれば, 表示インタフェースにその旨が表示される.課題の中 には,TETDM 上での操作が正しく行われたかを判定 するものがある.このため,本チュートリアルシステ ムはTETDM の機能の一つとして実装されており, TETDM 上でなされた操作内容を情報として受け取る ことが可能である. 本チュートリアルシステムが対象としている利用者 が満たすべき条件を説明する.チュートリアルシステ ムを利用するためには,キーボードやマウス操作に よって,Web ブラウザ,Office など何らかのソフト 図2 ツール選択ウィンドウ.マイニングツールか可 視化ツールのどちらか一方を選択すると,組合 せ可能なツールがオレンジ色で反転表示される. ウェアの利用経験があることを条件とする.テキスト マイニングに関する知識の多寡は問わない. 本チュートリアルシステムは TETDM が動作する 環境であれば動作する.実装に用いたプログラミング 言語は TETDM と同じ Java である. 3.1 表示インタフェース チュートリアルシステムの表示インタフェースは3 種類の表示ウィンドウにより構成される.それぞれ, チュートリアルのメインウィンドウ(図4),課題の詳 細ウィンドウ(図5),課題の解答ウィンドウ(図6)で ある.それぞれのウィンドウの役割と連携について, 説明する. 3.1.1 チュートリアルのメインウィンドウ 図4に示したチュートリアルのメインウィンドウ は,上部にユーザのテキストマイニングスキルのレベ ルを表す数値や,既に獲得した経験値,ユーザが現在 挑戦している課題のタイトルを表示する.課題は類似 するものでまとめられて,各グループには MISS ION 0から7までの番号が付与されている.MISS ION は 0から7の順に簡単な課題から難しい課題になるよう に並んでいる.挑戦する課題は,図4中の宝箱をク リックすることにより選択され,図5の課題の詳細 ウィンドウ内に課題の詳細が表示される.解答を記述 する必要がある課題が選択された場合のみ,図6の課 題の解答ウィンドウが表示される.各課題をクリアす ることによって,宝箱の中に宝物が表示され,経験値 が入る.経験値が貯まるとレベルが1つ上がる.各 MISSION の最後の課題をクリアすることにより,次 のMISSION の課題を選択できるようになる. 3.1.2 課題の詳細ウィンドウと課題の解答ウィンドウ 図5に示された課題の詳細ウィンドウでは,ユーザ によって選択された課題について具体的な説明や課題 図3 T E T D M とチュートリアルシステムの構成. チュートリアルシステムは図中の灰色の網掛け 部分.

(5)

図4 チュートリアルのメインウィンドウ 文が表示される.課題に対する解答は,図6に示され た課題の解答ウィンドウに入力する.課題の詳細ウィ ンドウは,上部に課題の詳細を表示し,下部にはその 前 後 の 説 明 を 表 示 す る た め の ペ ー ジ 送 り ボ タ ン (「back <」と「next >」がある),説明を補助する画像 を表示するボタン(「figure」),課題の詳細ウィンドウ を閉じるボタン(「close」)が配置されている.各課題 は1から3のいずれかの処理を行うことにより,クリ アしたと見なされる. 1.課題の詳細ウィンドウとともに課題の解答ウィ ンドウが表示された場合,課題の詳細ウィンド ウに記述されている説明を読んだ後,必要な ツールを探し出してTETDM 上にセットし,表 示された分析結果から見つけた答えを解答ウィ ンドウに入力する.答えが正解であれば,解答 ウィンドウ上に「clear」と表示され,課題をク リアしたことになる.答えが不正解であれば, 「miss」と不正解の旨のみが表示され,ヒントな どは表示されない.ユーザは,再度,説明を読 み直して,分析を行い,「clear」と出るまで答 えを入力する必要がある. 2.課題の詳細ウィンドウの文章中に【クリア条件】 という記述があった場合,【クリア条件】として 書かれている操作を行うと,課題をクリアした ことになる.【クリア条件】の内容は,指定され たツールをセットしたり,指定されたボタンを 押すといった操作である. 3. 1, 2のいずれでもない場合は,課題の詳細ウィ ンドウに記述されている説明を最後まで読む 2 図5 課題の詳細ウィンドウ 図6 課題の解答ウィンドウ 2 4章の実験では,説明を最後まで読む課題において,実験群の 被験者は平均して1秒間に3.1 文字読んでいた.読書では遅く とも1秒間に 6.7 文字読むと言われている[15] .また,詳細 ウィンドウの説明は,next ボタンを押して最後のウィンドウ まで辿りつかねば,最後まで読んだとチュートリアルシステ ムは判定しない.読書でかける時間よりも多くの時間をかけ, 最後のウィンドウの説明まで辿りついたことから,学習者は 十分な時間をかけて説明を読んだと考えられる.

(6)

最後まで読むことにより課題をクリアしたこと になる. 3.2 課題操作部 課題操作部では,ユーザが選択した課題を課題リス トから取り出して,表示する.表1に用意されている 課題リストを示す.今回用意した課題では,課題は8 つのグループに分けられており,グループ名はMIS-SION0から7となっている.各MISSION のグルー プには,5個から8個の課題が設定されており,全部 で46 個の課題がある. 各MISSION には獲得支援を目指したスキルがあ る.MISSION 0から2までの3つのMISSION は, TETDM を操作するスキルの獲得支援を目指す.残り のMISSION 3から7までの5つのMISSION では, TETDM を用いてテキストマイニングを行うスキルの 獲得支援を目指す.1章で述べたテキストマイニング の手順について,(4) マイニングツールの選択・操 作,(5) 可視化ツールの選択・操作,に関するスキル を,MISSION3からMISSION5で修得することを支 援し,(6 ) データ分析,に関するスキルを,M I S -SION6とMISSION7で修得することを支援する.課 題はMISSION0から順にMISSION7までこなすよう に求められる.同じMISSION 内であればどの課題か ら解いても良い.TETDM ではマイニングツールと可 視化ツールの両方を選択せねば結果を表示できず,課 題を解くことができないため,主な課題内容が「マイ ニングツールの操作」であっても,獲得目標スキルに は「マイニングツールを選択・操作するスキル,可視 化ツールを選択するスキル」と,マイニングと可視化 の両方が記述されている. チュートリアルの課題の一部を表2に示す.1列目 の1番目の数字がMISSION 番号,2番目の数字が MISSION 内での課題番号を表す.現在用意されてい る課題リストは,テキストマイニングのことをあまり 知らない初心者を念頭において作成されたものであ る.現在,初心者向けとなっている課題リストを変更 することにより,中級者や上級者用のチュートリアル システムとして利用できるようにする予定である. 3.3 ユーザのモチベーションを維持するためのゲーム 要素 チュートリアルのメインウィンドウに表示するレベ ルや経験値,宝箱はチュートリアルのゲーム要素とし て用いている.ゲーム要素によって,単に課題を解い て行くだけのチュートリアルではなく,ユーザが楽し 表2 チュートリルの課題の一部.1列目の1番目の 数字が MISSION 番号,2番目の数字が MIS-SION 内での課題番号. 表1 チュートリアルシステムの課題リスト

(7)

みながらツールの利用を学んで行くことができる.経 験値や宝箱の表示などは,ゲームの要素としても広く 利用されており,学習のモチベーションを与えること も確認されている[16].本研究では既存研究の知見を 活かして,単に課題を解かせるだけでなく,解くこと による楽しみも加えることによって,学習者の学習モ チベーションを維持する.

4.チュートリアルシステムの評価実験

提案したチュートリアルシステムのテキストマイニ ングのスキル獲得における有効性を評価した. 4.1 実験手順 実験者は以下の手順により実験を行った.実験者は 著者のうちの1名であった. 1.被験者は特性調査アンケートに回答する. 2.被験者はMISSION0から2に含まれる21 種類 の課題を解く. 3.被験者は事前テストに解答する. 4.被験者はMISSION3から7に含まれる25 種類 の課題を解く. 5.被験者は事後テストに解答する. 4.1.1 実験手順の詳細 実験群の被験者は成人の男女 20 名であった.20 名 の被験者は,それぞれTETDM の利用経験が異なって おり,全く利用したことのない被験者は7名,数回程 度の利用経験がある被験者は8名,数十回以上の利用 経験がある被験者は5名であった. MISSION0から7までの想定所要時間は 90 分とし た.90 分あれば,十分な時間をかけてチュートリア ルの課題に取り組むことができると判断し,実験者が 時間を設定した.しかし,90 分を超えても課題を達成 していない場合は,時間を延長して解答することを許 可した. 事前テストと事後テストはそれぞれ制限時間30 分 で解答することとした.テストの課題の例を表3に示 す.いずれのテストでも,実験者が用意したテキスト ファイルを読込み,TETDM 内のツールを利用して分 析することによって,解答できる課題が用意されてい た. 課題数はそれぞれ 20 問で,MISSION0から2の内 容に対応する問題3問,MISSION3から5の内容に 対応する問題 11 問,MISSION6と7の内容に対応す る問題6問から構成されている.1問1点とし,正答 数から各被験者の得点を算出した.両者の難易度はほ ぼ同じになるように,実験者がテスト課題を作成し た.事前テストと事後テストの問題文は全く同じ文面 ではなく,質問の仕方を変える,解答する項目を変え るなどしたが,問題を解く上で用いるツールは,事前 テストと事後テストで問題番号ごとに統一した.事前 テストで用いたテキストは Wikipedia の「お好み焼 き」のページであり,事後テストで用いたテキストは Wikipedia の「もみじ饅頭」のページであった.両方共 に,特殊な専門知識がなくとも内容が理解できるテキ ストであった.テキストマイニングを行ったテキスト の文字数は,事前テストが 2,812 文字,事後テストが 2,821 文字でほぼ同じであった. テストの問題には ツールを操作した上で,可視化されたデータの内容を 理解せねば,問題に回答することはできない.すなわ ち,TETDM の操作に慣れるだけでは回答できず, チュートリアルを通じて,テキストマイニングのスキ ルを獲得していなければ解けない問題とした.テスト を受けている最中には,それまでに達成したチュート リアルの課題を見直すことを許可した.このため,実 験結果には,テスト中のチュートリアルの効果と,テ スト前のチュートリアルの効果が混在することにな る.本研究で獲得を促すスキルは,ツール名や操作を 記憶する知識能力ではなく,得た知識を実際の問題に 活用するスキルとしており,テスト中であっても,適 切なチュートリアル課題を参照して課題の解答に結び つけられた場合は,スキルを獲得できたと判断する. 特性調査アンケートでは,65 個の項目に対してア ンケートをとった.初めの 20 個の項目は,コンピュー タやテキストマイニングのスキルを問うものであり, 表3 事前テスト,事後テストの例

(8)

後の項目は,文章の読み・書きに関する能力,方法, 好み,経験を問う15 個の項目と,難しい課題に当たっ た場合の態度,計画性,集中力,協調性等を問う30 個 の項目であった.文章に関する 15 個の項目は,本チュ ートリアルがテキストを対象とする課題を解くもので あったため,文章に関する特性を問うことによって, チュートリアルに向いている特性を明らかにしようと いう意図があった. 4.1.2 事前テスト,事後テストの難易度が同程度であ ることを確認した予備実験 事前テストと事後テストの難易度が同程度であるこ とを確認するために予備実験を行った.予備実験の被 験者は 16 名で,いずれもTETDM を利用したことが なかった.被験者はまずMISSION0から2の課題を 解いた.その後,7名は事前テスト,9名は事後テス ト(各テストはMISSION0からMISSION7までの課 題を含む) を解いた. 7名の被験者が解いた事前テストの平均点は 7.89 点,標準偏差は 2.20 であった.9名の被験者が解いた 事後テストの平均点は 7.71 点,標準偏差は 2.36 であっ た.20 点満点に対して平均点が 0.18 点の差は十分に 小さいと考えられる.事前テストと事後テストの難易 度は同程度とみなせる 3 4.1.3 ツールの説明文を読むことによりスキル獲得を 行わせた比較群 本チュートリアルシステムで,TETDM を用いてテ キストマイニングを行うスキルの獲得支援を目指した MISSION は3から7までで,評価実験の手順4に相 当する.手順4でチュートリアルシステムを使わずに 学習する比較群を設け,実験群と比較することによ り,チュートリアルシステムがテキストマイニングの スキル獲得を支援すると示すことができる.そこで, 比較群を作り,実験を行った. 比較群を構成する被験者は,成人の男女 20 名とし た.TETDM の利用経験はそれぞれ異なっており,全 く利用したことのない被験者は8名,数回程度の利用 経験がある被験者は9名,数十回以上の利用経験があ る被験者は3名であった.比較群による実験は実験群 とは異なる被験者によって行った.TETDM の利用経 験の構成比が実験群と少し異なっているが,事前テス トや事後テストのように,特定の文章に対して,デー タを分析するための具体的な課題に取り組んだ経験は 3 事前テストと事後テストの難易度に差がないことについては, 平均値に有意の差がないことを検定で示すことはできないた め,検定は行っていない. いずれの被験者も持ち合わせておらず,目的とするス キル獲得の評価には大きな影響はないと考えた.比較 群には,実験手順の4において,図2のツール選択 ウィンドウ内においてツールを示す文字列にマウスを 乗せ,ツールの説明文を読むことや,ツールをセット したパネル上にある「説明」ボタンを利用して,各ツー ルの操作方法や表示の見方を確認する中で,テキスト マイニングのスキルを獲得してもらった.その他の手 順1から3と5は実験群と同じとした.実験手順の1 から5にかける時間も,実験群と同じとした.特性調 査アンケート,事前テスト,事後テストも実験群と同 じものを使用した. 4.1.4 チュートリアルシステムの評価方法 実験データを得た後,チュートリアルシステムの評 価を次のようにして行った. 1.チュートリアルシステムの有効性:実験群,比 較群の被験者ごとに,事後テストの点数から事 前テストの点数を引いた差,即ち点数の伸びを 算出する.実験群の方が点数の伸びが有意に 高ければ,チュートリアルを用いた方が,用い ない場合に比べ,テキストマイニングのスキル 獲得が支援されたと評価する. 2.チュートリアルシステムの妥当性:実験群の チュートリアル,事前テスト,事後テストの所 要時間を用いて評価する. 3.チュートリアルシステムが有効な利用者の特 性:実験群の特性調査アンケートで回答された 項目と,事前テスト,事後テストの正答数,課 題解答に要した時間を用いて評価する. 3でチュートリアルシステムが有効な利用者の特性 を評価する際には,相関ルール分析を行った.特性調 査アンケートでの回答項目を条件,事前テストの点 数,事後テストの点数,課題に要した時間などを結果 として,相関ルールを作成し,ルールの信頼度,支持 度,リフト値を算出した.信頼度は式(1)により算出 し,支持度は式(2),リフト値は式(3)により算出した. (1) (2) (3)

(9)

信頼度と支持度の値が高いルールが事象を良く説明 するルールになる.信頼度と支持度が共に高いルール を抽出するために,まず,信頼度と支持度の積をルー ルごとに算出した.ルールの総数は 4,099 個であった が,およそ 10 %に相当するルールを取り出せる信頼度 と支持度の閾値を検討したところ,信頼度が 75,支 持度が 15 となった.そこで,信頼度が 75 以上,支持 度が 15 以上のルールを抽出した.結果として,リフ ト値は1以上となり,313 個のルールが得られた.こ の結果を用いて,チュートリアルが有効な利用者の特 性を考察した. 4.2 チュートリアルシステムの有効性の評価 表4に実験群と比較群の事前テスト,事後テスト, 点数の伸びの平均と標準偏差を示す.事前テストと事 後テストの点数の差,すなわち点数の伸びに対して分 散分析を行ったところ,表5の結果が得られた.表5 では,条件を「手順4でチュートリアルを利用する」と したところ,条件の要因は有意であった(F(1, 38)= 4.165,*p 0.048< .05).したがって,実験群は比較 群より点数の伸びが高かったといえる.事前テストと 事後テストでは,各問題の番号ごとに問うた内容は異 なるが,回答にあたって用いるツールは統一してい た.そこで,実験群に対して,事前テストでは正解率 が低かったが,事後テストでは正解率が高くなった問 題を調べ,どのスキル獲得において差が生じたかを考 察した.事前テストでは正解率が 50 %未満であり,事 後テストでは正解率が 50 %以上となった問題を表6に 示す.表6の3列目の「MISSION」は,問題を解く上 で必要なスキルを獲得できたMISSION の番号を指 す.6つの問題で正解率に差があった.6つの問題の うち,3つはM I S S I O N 5で獲得できるスキルを使 い,2つはMISSION6で獲得できるスキルを使い, それぞれ回答する問題であった.このことから, チュートリアルを使うことによって,可視化ツールを 操作するスキルと,マイニングツールと可視化ツール の両方を操作するスキルの獲得において差が生じたこ とが分かった以上のことから,本チュートリアルは TETDM の中にある一通りのマイニングツールと可視 化ツールの利用に関するスキルを獲得する上で,有効 であることが確認された. 表4 実験群と比較群の事前テスト,事後テスト,点 数の伸びの平均と標準偏差(上段が実験群,下 段が比較群) 表5 点数の伸びに対する分散分析の結果.表中の条 件は「手順4でチュートリアルを利用する」と した. 表6 事前テストでの正解率が 50 %未満で,事後テス トでの正解率が 50 %以上となった問題.3列目 の「MISSION」は,問題を解く上で必要なスキ ルを獲得できた MISSION の番号を指す.

(10)

4.3 チュートリアルシステムの妥当性の評価 実験者が想定した所要時間を超えても,課題を達成 できないならば,設定された課題が利用者のレベルに 適しておらず,チュートリアルシステムは妥当なもの ではないと評価できる.そこで,チュートリアル,事 前テスト,事後テストの平均所要時間を算出した.表7 に示す.20 人の被験者は 46 個の課題から構成される チュートリアルを,平均 3729 秒(約 62 分,標準偏差 は約 23 分)で達成した.あらかじめ設定されていた所 要時間は 90 分であったが,所要時間内に 20 名中 18 名 が 46 個の全ての課題を達成し,残り2名は 42 個の課 題を達成した.90 %の被験者が所要時間内に全ての課 題を達成したことから,チュートリアルの課題は利用 者のレベルにあった適切なものであったと評価できる. 事前テストの平均所要時間は 1795 秒,事後テスト の平均所要時間は 1762 秒であり,両者の間に有意な 差はなかった(対応あり t 検定,t(19)=1.40, p=n.s.). 加えて,制限時間 30 分以内に全ての問題に解答した 被験者はいなかった.この結果から,チュートリアル の課題を1回解くことでは,テストに解答する時間に 変化は起きないことが分かった.今後,チュートリア ルを複数回解くことにより,テストに解答する時間が どう変化するかを調べ,チュートリアルの効果を更に 検証していきたい. 4.4 チュートリアルが有効な利用者の特性の評価 4.4.1 得られた2つの利用者の特性 相関ルール分析によって得られたルールを用いて, チュートリアルが有効な利用者の特性を評価した.得 られた2つの特性は以下の通りである. 1.TETDM の利用経験がない方が,マイニングス キルの伸びが大きい可能性が高い 2.プログラミングが得意,または物事の説明能力 が高いことと,チュートリアルの達成所要時間 が短いこととの間には相関がある 2つの特性を導きだした過程を 4.4.2 以降で説明する. 表7 チュートリアル,事前テスト,事後テストの平 均所要時間 4.4.2 TETDM の利用経験とマイニングスキルの関連 実験群の被験者は,TETDM の利用経験に差があっ た.この点に関するルールを調べることによって, チュートリアルが有効な利用者の特性を明らかにする ことができると考えられる.そこで,条件を「 TETDM を使ったことがある/ない」とした時に,信頼度 70 以 上,支持度 15 以上であった7個のルールを表8に示 す.7個のルールの中で,1と7のルールは条件部に TETDMの利用経験の有無を持ち,結論部に事前テス トの正解数を持っていた.ルールは,「1.TETDM を これまでに使ったことがある=>事前テスト正解数が 11∼15 個」と「7.TETDM をこれまでに使ったことが ない=>事前テスト正解数が6∼10 個」の2つである. この2つのルールから言えることは,TETDMの利用 経験はチュートリアル利用前に持っているマイニング スキルと関連があり,経験があるほどスキルがあると いうことになる. 続いて,利用経験の有無により,チュートリアルに より得られるマイニングスキルの伸びの違いを調査し た.TETDM を数十回以上使ったことがある人は 20 人 中5人で,平均 2.2 個の正答数が増えた.一方あまり 使ったことがない人は 15 人で,平均 4.7 個の正答数が 増えた(対応なし t 検定,t =2.24, p =0.049< .05). このことから,TETDM の利用経験がない方が,マイ ニングスキルの伸びが大きい可能性が高いことが明ら かになった. 表8 条件「TETDM を使ったことがある/ない」と した時に,信頼度 70 以上,支持度 15 以上であっ た7個のルール

(11)

4.4.3 プログラミングの能力,または物事の説明能力 と,チュートリアルの達成所要時間の関連 結論部にチュートリアルの所要時間を持つルールを 考察し,チュートリアルに向いている利用者の特性を 明らかにする.表9に信頼度 70 以上と支持度 15 以上 の相関ルールの内,チュートリアルの所要時間に関す る結論を持ち,条件にプログラミングの得意/苦手を 条件として持つルールと,文章を書く時に一文の長 さに注意する/しないを持つルールを示す. プログラミングが得意で,かつチュートリアルを 3000 秒未満で達成した被験者は6人であった.一方, プログラミングが苦手で,かつチュートリアルを 3000 秒以上で達成した被験者は 10 人であった.この データを元にし,表 10 にクロス表を作成し,フィッ シャーの検定を行ったところ,人数に有意な偏りが あった( p =0.019< .05).この結果から,プログラミ ングが得意な人と,チュートリアルを短時間で達成す る人との間に相関があることが明らかとなった. 文章を書く時に一文の長さに注意し,かつチュート リアルを 3000 秒未満で達成した被験者は5名であり, 文章を書く時に一文の長さに注意せず,かつチュート リアルを 3000 秒以上で達成した被験者は 10 名であっ た.このデータを元にし,表 11 にクロス表を作成し, フィッシャーの検定を行ったところ,人数に有意な偏 りがあった( p =0.062< .10).文章を書く能力は物事 の説明能力と関連があると考えられる.この結果か ら,物事の説明能力が高い人と,チュートリアルを短 時間で達成する人との間に相関があることが明らかと なった. 4.4.4 2つの特性に対する考察 4.4.1 で示した2つの特性に対して考察を行う.特 性の1は,TETDM の利用経験がない方が,マイニン グスキルの伸びが大きい可能性が高いであった.一般 的に,事前の学習量が少ないほど学習できる量が多く なるため,一見当たり前の結果にも思えるが,マイニ ングスキルという一般的ではないスキルに対して, チュートリアルが当たり前の学習結果をもたらす効果 があり,テキストマイニングを行ったことがない初心 者に対しても,テキストマイニングが行えるようにな ることが期待できる. 特性の2は,プログラミングが得意な人と,チュー トリアルを短時間で達成できる人との間には相関があ る,であった.プログラミングが得意であるためには 論理的思考力が不可欠と考えられることから,論理的 思考力があることと課題を素早くこなすこととの間の 相関が示唆される.しかし,プログラミングが得意な ことと,マイニングスキルが身に付きやすいこととの 間の相関は示されなかった.そのため,課題を素早く こなせることと,スキルが身に付きやすいこととの間 に相関があるわけではなく,他人に物事を説明でき る,すなわち物事の意味をとらえる能力が高く,課題 の意味を考える人と,スキルが身に付きやすい人との 間に相関があると考えられる.したがって,チュート リアルで学んだことを何らかの形で説明してもらうな ど,意味の理解が不可欠な課題をチュートリアルに採 り入れて,スキルの修得につなげることが検討される.

5.おわりに

本論文では,テキストマイニングの利用者向けの チュートリアルシステムを開発し,テキストマイニン グのスキルを獲得しようとする利用者の支援を行っ た.ソフトウェアの操作方法ではなく,ツールの選 表9 結論にチュートリアルの所要時間を持ち,条件 部分が対称関係にあった相関ルール 表 10 チュートリアルの達成時間とプログラミングの 得意,不得意に関するクロス表 表 11 チュートリアルの達成時間と文章を書く時に一 文の長さに注意する,しないに関するクロス表

(12)

択,データの分析といったスキルを獲得させるための チュートリアルシステムである.対象としたソフト ウェアはマイニングツールと可視化ツールを自由に組 合わせ,テキストマイニングが行えるTETDM であっ た. 開発したチュートリアルシステムを用いた評価実験 を行った.チュートリアルシステムを使い,テキスト マイニングのスキルを獲得する実験群と,チュートリ アルシステムをTETDM の操作を学ぶところまで使用 し,テキストマイニングのスキルを獲得するところで は使用せず,TETDM のツールの説明文を読むことで スキルを獲得する比較群を用意した.各群は,チュー トリアルによりTETDM の操作を学んだ時点で事前テ ストに解答し,マイニングのスキル獲得を行った後, 事後テストに解答した.事前テストから事後テストの 点数の伸びを算出し,分散分析を行った結果,実験群 は比較群よりも点数の伸びが高かった.このことか ら,チュートリアルシステムはTETDM を用いたテキ ストマイニングのスキル獲得を支援することが確認さ れた. 被験者に対して行った特性調査アンケートで回答さ れた項目と,テストの正答数,課題解答に要した時間 を用いて,本チュートリアルシステムが有効に働く学 習者の特性を相関ルール分析を用いて分析した.その 結果,以下の2つの特性が明らかになった. 1.TETDM の利用経験がない方が,マイニングスキ ルの伸びが大きい可能性が高い,2.プログラミング が得意,または物事の説明能力が高いことと,チュー トリアルの達成所要時間が短いこととの間には相関が ある. 今後の課題としては,コンピュータの使用に慣れて いない利用者であっても,高い学習効果を生み出せる ようなチュートリアルシステムを実装することや, TETDM の中級者や上級者に合わせた新たなチュート リアル課題やシステムを実装していくこと,本論文で 明らかになった利用者の特性に応じてチュートリアル システムを改善していくことが挙げられる. 参 考 文 献 [1] 保田明夫,須永恭子,テキスト型データ解析ソフトウェ ア WordMiner,薬学図書館,Vol.49,No.1,pp.34 − 41(2004). [2] 那須川哲哉,テキストマイニングを使う技術/作る技 術,東京電気大学出版局(2006). [3] 元田浩,津本周作,山口高平,沼尾正行,データマイ ニングの基礎,オーム社(2006). [4] 山本洋雄,國宗永佳,鬼頭強,山田保,相澤哲也,知 識修得と機器実習が混在する教育における e − Learn-ing の開発と評価,信州大学教育システム研究開発セ ンター紀要,Vol.10,pp.53 − 60(2004). [5] 中村拓哉,舩曳信生,中西透,天野憲樹,Java プログ ラミング学習支援システムのコード作成問題における Javadoc を用いたヒント機能,電子情報通信学会技術 研究報告(教育工学),Vol.113,No.377,pp.115 − 120 (2014). [6] 蜂巣吉成,吉田敦,プログラミング学習における誤り 訂正問題の自動生成方法の提案,電子情報通信学会技 術研究報告(システム数理と応用),Vol.112,No.457, pp.63 − 68(2013). [7] 山本三雄,関谷貴之,山口和紀,プログラミングのス キル階層に関する研究,情報処理学会研究報告(コン ピュータと教育),Vol.2010,No.3,pp.1 − 25(2010). [8] Lopez M., Relationships between reading, tracing and

writing skills in introductory programming, Proceed-ings of the fourth international workshop on Comput-ing education research, pp.101 − 112(2008). [9] 朽木拓,山田敬三,佐々木淳,プログラミングスキル レベル評価手法の研究,情報処理学会創立 50 周年記 念全国大会講演論文集,Vol.72,No.1,pp.1 − 521 − 1 − 522(2010). [10] 木村捨雄,センタ方式による CAI,電子情報通信学会 論文誌,Vol.71,No.4,pp.372 − 379(1988). [11] 玉城幹介,桑原恒夫,山田光一,中村喜宏,満永豊, 小西納子,天野和哉,個人進度別教育支援システムMESIA, 情報処理学会論文誌,Vol.41,No.8,pp.2351 − 2362 (2000). [12] 武岡さおり,尾崎正弘,岩下紀久雄,江島徹郎,足達 義則,学習者の理解度を考慮したハイパーテキスト型 CAI 教材の開発に向けて,日本教育情報学会年会論文 集,No.16,pp.178 − 181(2000). [13] 中野裕司,杉谷賢一,入口紀男,喜多敏博,松葉龍一, 右田雅裕,武藏泰雄,太田泰史,合林亨,辻一隆,島 本勝,木田健,宇佐川毅,全学共通情報基礎教育にお けるオンライン繰返しテストの学習効果,第3回日本 WebCT ユーザカンファレンス(2005). [14] 砂山渡,高間康史,Danushka Bollegala,西原陽子, 徳永秀和,串間宗夫,松下光範,Total Environment for Text Data Mining,人工知能学会論文誌,Vol.26, No.4,pp.483 − 493(2011). [15] http://www.robasan.com/learn1011.html [16] 砂山渡,渥美峻,西村和則,川本佳代,オンライン対 戦型クイズシステムによる学習支援環境,知能と情 報,Vol.26,No.2,pp.637 − 646(2014). (2015年3月 2日 受付) (2015年7月22日 採録) [問い合わせ先] 〒525−8577 滋賀県草津市野路東 1−1−1 立命館大学情報理工学部 西原 陽子 E−mail:[email protected]

(13)

著 者 紹 介 にしはら よう こ 西原 陽子 [非会員]  2003年大阪大学基礎工学部卒業. 2005 年同大大学院基礎工学研究科博 士前期課程修了.2007 年同研究科博 士後期課程修了.博士(工学).日本学 術振興会特別研究員を経て,2008年 東京大学大学院工学系研究科助教, 2009年同講師, 2012年立命館大学情 報理工学部准教授,現在に至る.コ ミュニケーション支援,インタラク ション研究に興味を持つ.情報処理学 会,人工知能学会,医療情報学会各会 員. かわもと か よ 川本 佳代 [非会員]  1989年東京学芸大学教育学部卒業. 1991年同大大学院博士前期課程修了. 1994年国際基督教大学大学院博士後 期課程中退.同年広島市立大学助手. 2007年同助教.現在に至る.修士(教 育学).高度な思考力の育成を目的と する e−learning に関する研究に従事. 教育システム情報学会,日本教育工学 会,日本科学教育学会,教育メディア 学会各会員. なかごう ち り な 中垣内 李菜 [非会員]  2013年広島市立大学情報科学部シ ステム工学科卒業.2015年同大大学 院情報科学研究科博士前期課程修了. 現在,株式会社ミウラ勤務. すなやま わたる 砂山 渡 [正会員]  1995年大阪大学基礎工学部制御工 学科卒業.1997年同大大学院博士前 期課程修了.1999 年同大大学院博士 後期課程中退.同年同大学院助手, 2003年広島市立大学助教授,2007年 同准教授,現在に至る.博士(工学). 人間の創造活動を支援する研究に興味 を持つ.人工知能学会,電子情報通信 学会,言語処理学会,IEEE 各会員.

Development of Tutorial System on Text Mining Skill for Users of TETDM

by

Yoko NISHIHARA, Rina NAKAGOCHI, Kayo KAWAMOTO and Wataru SUNAYAMA

Abstract:

Data analysis with text mining is now attracting many people. Many softwares of text mining are also available. Users of text mining softwares need to acquire text mining skills to select and operate tools, to analyze data, and so on. In order to acquire the skills, users have to be assigned exercises about selection and operation of suitable tools, and interpretation of analyzed data. So, this paper proposes a tutorial system for users to acquire the text mining skills with a software TETDM. The tutorial system gives users exercises. The exercises are ordered according to its level: basic one is arranged in the former and advanced one is in the latter. We evaluated the proposed tutorial system in an evaluation experiment. It was confirmed that the subjects of the experiment could have acquired text mining skills with TETDM by the tutorial.

Keywords:text mining, skill, user, tutorial, user’s characteristics Contact Address:Yoko Nishihara

College of Information Science and Engineering, Ritsumeikan University 1−1−1, Nohi−higashi, Kusatsu, Shiga, 525−8577, Japan

参照

関連したドキュメント

予備調査として、現状の Notification サービスの手法で、 Usability を考慮したサービスと

義 強度行動障害がある者へのチーム 支援に関する講義 強度行動障害と生活の組立てに関 する講義

平成 27 年 2 月 17 日に開催した第 4 回では,図-3 の基 本計画案を提案し了承を得た上で,敷地 1 の整備計画に

This paper introduces an on-line cooperative planning and design system and studies its educational application as an exercise tool for practicing public

現在入手可能な情報から得られたソニーの経営者の判断にもとづいています。実

当社は、お客様が本サイトを通じて取得された個人情報(個人情報とは、個人に関する情報

「系統情報の公開」に関する留意事項

個別の事情等もあり提出を断念したケースがある。また、提案書を提出はしたものの、ニ