DEIM Forum 2016 G2-2
知識間の語彙出現分布に基づく学習順序推定手法の提案
久保
直人
†佐藤 哲司
†††
筑波大学情報学群知識情報・図書館学類 〒 305–8550 茨城県つくば市春日 1-2
††
筑波大学図書館情報メディア系
〒 305–8550 茨城県つくば市春日 1-2
E-mail:
†{
otona,satoh
}
@ce.slis.tsukuba.ac.jp
あらまし 学習には知識全体を学ぶ体系的な学びだけではなく,特定の知識を修得することを目的とした学びもある.
特定の知識の習得では,その知識を獲得するために必要な知識群を選択し,適切な順序で学習することが効果的であ
るといえる.本研究では,知識間の関係性に基づいて学習順序を推定する手法を提案する.教科書などの文章群を知
識群と捉え,出現する語彙を要素知識とし,各文章間で共通する語彙の分布から学習順序を推定する.提案法を物理
学の教科書に適用し,特定の知識を効果的に獲得する学習順序を推定する実験を行ったので報告する.
キーワード
学習順序, 情報抽出, 知識
1.
は じ め に
学習方法は学習目的によって変化する.初中等学校教育のよ うに体系的な学問の習得を目的とする場合,その学問を構成す る知識を網羅的に習得するような学習方法が一般的である.網 羅的な学習は幅広い知識が習得でき,多くの学問においては教 科書という形で学習順序が示されている.一方,特定の知識を 選択的に習得したい場合,その知識だけでなく前提となってい る知識群を先に理解しておく必要がある.このような学習方法 では必要知識のみを得ようとするため,獲得できる知識は限定 的であるが目的を達する合計時間は網羅的学習より短縮できる 可能性がある.例えば,「独楽はなぜ倒れず回るのか」といった 課題を急ぎ理解しないといけなかったとする.この時,物理学 を網羅的に学習するより,「ジャイロ効果」や「トルク」といっ た課題解決に必要な知識を設定した上で必要知識に限定して学 んでいく方が,課題解決までの時間を短縮できるであろう.こ の際,目的の知識に対しての必要となる知識を知識の関連性か ら動的に選ばなければならず,多くの場合に学習順序が自明で ない. 本研究では,学習順序が未知の知識群において知識間の関連 性を導出し並べ替えることで学習順序を推定する手法の提案を 目的とする.目的の知識を設定し,知識間の関連性から動的に 必要知識を抽出し並べ替える.本研究は最短学習順序を推定す るための要素研究である. 知識群に対する学習順序を得るためには,知識間の関係を機 械的に得る必要がある.そこで,知識を要素知識の集合体であ るとし,知識間の関係は要素知識の出現傾向によって得られる とする.出現傾向を表す指標として難易度,重要度,幅広さを 仮定し,学習順序が未知の知識群の学習順序を推定する.また, 得られた学習順序を評価し,知識間の関係を得る方法として要 素知識の出現傾向を見ることが,適切であるかを評価する. 本論文では,まず2章で知識間関係の抽出,学習順序推定に 関する関連研究を挙げ,それらの手法・目的について述べた上 で本研究の位置づけを示す.3章では学習順序を決定する要素 を示し,それらを定式化し,知識群に対する学習順序の推定手 法を提案する.4章では提案した手法を実際の教材に適用して 推定した学習順序を示す.5章は各指標の有効性を検証し,並 べ替え結果および並べ替え手法に関する考察を示す.6章にま とめを示す.2.
関 連 研 究
Wikipedia上の情報より知識間の関係を抽出する研究が盛ん である.中山ら[1]や伊藤ら伊藤ら[2],山田ら[3]は,リンク構 造やリンクの共起性を解析することでWikipediaの記事間の 関連度を測定している.Weiら[4]はWikipediaの記事をノー ド,リンクをエッジとしたネットワークをモチーフ分析し,学 習することで記事間の上下関係の自動抽出法を提案している. これらの研究は文章間の関連性を抽出するのに文章間の語彙の 共通性や分布を用いることの有効性を示している.Web上の 情報を理解するための学習順序の提案の研究として西原ら[5] の研究がある.類似度と独立度を指標にWebページ集合クラ スターを作成し,難易度に基づいてクラスターに順序を与え, Webページ理解のための学習順序を推定している.西原らは単 語の出現頻度や出現傾向に基づいてWebページ群の並べ替え を行い,ケンドールの順位相関係数にて正の相関が得られたこ とと,利用者実験の結果からその有効性を示している. 本研究では,特定の知識について記述されている文章を知識 とし,その文書内に出現する語彙を要素知識と仮定し,要素知 識の出現傾向を用いて知識間の関係を抽出し,3つの指標に基 づく学習順序推定手法を提案する.学習順序推定において西原 ら[5]との違いは,学習順序を決定する指標を重要度のほかに, 難易度や幅広さを用いて学習順序を推定する点である.3.
学習順序の推定手法
3. 1 学習順序決定法 学習順序とは,学習者が獲得したい知識を習得するのに必要 となる種々の知識を学びやすくなるように並べ替え構築される. 知識は様々な知識(要素知識)の集合体である.教科書などの章で構成された学習順序の場合,章タイトルが知識名,章に出 現する語彙が要素知識に相当する.このとき学びやすさは,「知 識そのものの難しさ」「知識間の遷移の難しさ」で測られる.「知 識そのものの難しさ」は要素知識の数や,要素知識の学問的難 しさで計算され,知識そのものの評価である.「知識間の遷移の 難しさ」は,知識Aを学んだ後知識Bを学ぶときの難しさであ り,知識間の評価である.この学びやすさを最大化することで, 効果的な学習順序を構築することを目指す.以下に学びやすさ を定式化し,3. 2節で学習順序推定システムについて示す. 3. 1. 1 「知識そのものの難しさ」:重要度,学問的幅広さ 本研究では知識そのものの難しさを定式化するにあたって, 知識間の要素知識の出現分布に注目する.特定の知識群におい て全ての要素知識は以下の2通りに分類される.
(1) 基礎要素知識. 知識群中で出現頻度が高い要素知識.知識群中では重要 度が高く,基礎となる知識.図1aにおいて要素知識は全 5つの知識のうち4つに共通しているため重要度が高い. (2) 専門要素知識. 知識郡中で出現頻度が低い要素知識.知識郡中では重要 度が低く,専門的な知識.図1bにおいて要素知識は2つ の知識にしか出現していないため重要度が低い. 要素知識をノードとし,知識間で共通の要素知識がある場合 それらをエッジで結んだときの要素知識モデルを図1に示す. この図は5つの知識群がありA,Bの要素知識があるときのモ デルを示している. 基礎要素知識を多く持つ知識は,学んだ要素知識が他の知識 で出現する可能性が高いため習得優先度が高いとする.一方, 専門要素知識を多く持つ知識は,学んだ要素知識が他の知識で 出現する可能性は低いため優先度が低い.したがって,知識の 習得優先度は基礎要素知識と専門要素知識の割合によって決定 され,重要度として算出される. 実際の教科書などの章立てされた文章を対象に重要度を算 出する場合,各章を知識,出現する語彙を要素知識とする.例 として図2 のように,章AからDがあり,出現する語彙が (a) 基礎知識 (b) 専門知識 図1:要素知識モデル 表1: 語彙が出現する章数 語彙 出現回数 章 山 3 A,B,C 川 2 A,D 谷 2 A,C 空 3 A,B,C 林 2 B 滝 1 B 野 1 D 湖 1 D 海 1 D わかっているとき,始めに語彙ごとの文章群内における出現 頻度の表1を得る.出現頻度表を用いて語彙出現分布の表2 を得る,表2を出現回数方向に正規化して表3を得る.章A において,山と空は全体で3回出現しているため出現数分布 Dd,xが3の箇所に2と記述している.川と谷は全体で2回出 現しているため出現数分布Dd,xが2の箇所に2と記述して いる.このとき,章Dの重要度Idは正規化した語彙出現分布 表3を用いて出現回数分布xと実際の正規化された出現回数 Dd,xの積の総和によって求められる.(式(1))章Aの重要度 IA= 1× 0 + 2 × 0.5 + 3 × 0.5 + 4 × 0 = 2.5となる. Id= n∑
x=1 xDd,x (1) また,最適な学習順序を推定するにあたって知識の学問的難 しさも定式化しなければならない.本論文において特定の知識 の学問的難しさとは,その知識について記述された文章の難易 度によって決定されるものとする.文章の難易度は文中の一般 用語以外,専門用語の多さと依存関係がある[6] [7].本研究で は知識について記述している文章を得るために,Wikipediaを 用いる.Wikipediaにおいてアウトリンクとは他の知識との関 連を示しており,一般用語がリンクとなっている可能性は低い. そこで特定の知識に相当するWikipediaページにおいて,リン ク数の多い知識は,学問的に難しいとし学問的幅広さWdとし て算出する.したがって,文章dの要素知識数sd,xがn個あ るとき,学問的幅広さWdは式(2)によって求める. Wd=∑
n x=1要素知識sd,xのWikipedia内でのリンク数 n (2) 図2: 重要度算出例表2: 語彙出現分布 文章 d 出現回数分布 Dd,x 1 2 3 4 A 0 2 2 0 B 2 0 2 0 C 1 1 2 0 D 3 1 0 0 表3: 正規化した語彙出現分布 文章 d 出現回数分布 Dd,x 重要度 Id 1 2 3 4 A 0 0.5 0.5 0 2.5 B 0.5 0 0.5 0 2 C 0.25 0.25 0.5 0 2.25 D 0.75 0.25 0 0 1.25 表4:文章xy間の共通知識|Sx∩ Sy| 文章 y 文章 x A B C A 3 3 B 3 1 C 3 1 3. 1. 2 「知識間の遷移の難しさ」:難易度 知識間の遷移の難しさとは知識Aを学んだ後知識Bを学ぶ ときの難しさである.新しい知識を学ぶときの難しさとは,知 識そのものの学問的難しさによって測られるが,同時に新しい 要素知識の出現数によっても測られる.既知の要素知識が多く 出現する知識は学びやすく,逆に少ない場合,可読性が低く理 解するための難易度が高い.図3のような知識群を想定したと き,共通知識の数は表4のようになる.このとき知識Aに対し て知識B,知識Cの共通知識数は同じであるため同列であると 考えられる. 一方で,知識Aに対し知識B,知識Cは共通の要素知識が同 じであるが,それ以外の要素知識の数が大きく異なる.知識間 の遷移の難しさを考えるのであれば,新たに学ばなければな らない要素知識の数は知識Cのほうが圧倒的に多く,それだけ 難しくなると考えられる.そこで本研究では,知識xから知 識yへと学ぶ時の難易度Dxyはx,yそれぞれの要素知識群 をSy,Sxとしたとき式3で算出する.表5においては知識 Aを学んだ後知識Bを学ぶときの難易度(知識AB間の遷移 の難易度)DAB= 1−34 = 0.25,知識AC間の遷移の難易度 DAC = 1−38 = 0.62となり,知識AC間を遷移するほうが難 しいということがわかる.また,知識CB間の遷移の難易度 DCB= 1−18 = 0.87と最も遷移が難しいことがわかる. Dxy = 1−|Sx∩ Sy| |Sy| (3) 3. 2 学習順序推定システム 学習順序推定システムは,実際の教科書などから抽出した文 章群を対象に用いる.図4にシステム全体図を示す. 図3: 難易度想定モデル 表5: 文章xy間の難易度Dxy 文章 x 文章 y A B C A 0.25 0.62 B 0.40 0.75 C 0.40 0.87 図4: 学習順序推定システム 3. 3 学習順序推定のためのデータセット生成 図4における工程1∼6の学習順序推定のために用いるデー タセットの生成方法について示す. (1) 語彙抽出 本研究では,教科書や参考書などの特定の知識について記述 された文章集合を知識群とし,その文章を知識とする.文章中 の単語より3Gram以上の単語を抽出した.得られた単語群中 でWikipediaの記事タイトルとして存在する単語で重複を削除 したものを語彙とし抽出した. (2) 文章間の共通語彙抽出. 対象文章群に対して表4に示すような文章間の共通語彙数の 行列を生成する. (3) 文章間の語彙出現数抽出. 対象文章群に対し表3に示すような,正規化した語彙出現分 布表を生成する. (4) 用語のWikipediaにおけるリンク抽出. 対象文章群に対し..各語彙に相当するWikipedia記事内の リンクを抽出する. (5) 3指標算出. 式(1)式(2)式(3)でそれぞれ定義した重要度,学問的幅広 さ,難易度を各文章において算出する. (6) 3指標に基づく並べ替え. 得られた3指標を用いて,文章を並べ替えることにより学習 順序を推定する.
3. 3. 1 難易度Dxy,重要度Id,学問的な幅広さWdの算出 式(1),式(2),式(3)を用いてそれぞれ重要度Id ,学問的 な幅広さWd,難易度Ddを算出する. これらを総称して3指 標と呼ぶ. 3. 4 3指標に基づく文章の並べ替え 前項で得られた3指標を用いて文章の並べ替えをすることに よって学習順序を得る. 学習順序を推定するにあたり,本研究 では効率的な学習をするためには,基礎的で簡単な知識を前半 に学び,専門的で難しい知識は後半に学ぶこと.が適切であり, 知識間遷移の難易度が一定かつ総合的に低い学習順序が.適切 であると仮定する.そこで,3指標それぞれを用いて並べ替え 手法を提案した. • 難易度Dxyに基づく並べ替え. 難易度Dxyとは文章間を遷移するときの難しさを表す.し たがって推定された学習順序における文章間の難易度の合計値 が低いものは総合的に学びやすい学習順序であるといえる.ま た,合計値が低くても,急激に難易度が増加,減少する学習順 序はスムーズに学びにくいと考え,文章間の難易度の分散が低 い学習順序ほどよい学習順序とする.そこで,対象文章群に対 して表5に示すような難易度行列を得る.そして以下のフロー に従って学習順序を推定する. Step1. スタート文章を設定し,学習順序リストに追加する. Step2. 難易度行列においてスタート文章から最も難易度が 低い文章を見つけ,文章番号を学習順序リストに追加する.ま た難易度を記録する. Step3. 見つけた文章より,既に学習順序リストにない文章の 中から最も難易度が低い文章を見つけ,文章番号を学習順序リ ストに追加.難易度を記録する Step4. 学習順序リストに全ての文章番号が追加されるまで Step3の工程を行う.全て追加されたら記録されている難易度 の分散を計算し,得られた学習順序リストを学習順序候補と する.
Step5. 全ての文章をスタートページにしてStep1からStep4
の工程を実行し,学習順序候補を得る. Step6. 全ての学習順序候補において難易度の分散が最も低 いものを難易度に基づく学習順序とする. • 重要度Idに基づく並べ替え. 重要度が高い文章とは,他の文章に共通して出てくる語彙が 出現しやすい図1aのAのような語彙を多く持つ基礎的な文章 であると考えられる.また,重要度が低い文章は図1bに示す Bのような語彙を多く持つ文章であり専門的な文章であると考 えられる.従って,重要度Idが降順になるように並び替える ことで,段階的に重要度が低くなる学習順序を推定する. • 学問的幅広さWdに基づく並び替え. 学問的幅広さが高い文章とは,Wikipedia内において多くの 文章をリンク(参照)している文章である.Wikipediaの記事 においてリンクの相当する単語が未知の場合,その記事は可読 性が低くなり,文章を理解するのが難しくなる.リンク数が多 いほど,未知の単語の出現可能性が高くなるため理解が難しい 知識と考えられる.従って,学問的幅広さWdが昇順になるよ 表6: HTSSP章タイトルおよび語彙数 章番号 タイトル 語彙数 1 Units 623 2 Waves and Wavelike Motion 248 3 Geometrical Optics 686 4 Vectors 686 5 Forces 638 6 Rectilinear Motion 370 7 Momentum 325 8 Work and Energy 884 9 Collisions and Explosions 425 10 Newtonian Gravitation 404 11 Preddure 210 12 Heat and Properties of Matter 1140 13 Electrostatics 612 14 Electricity 1321 15 Magnets and Electromagnetism 1277 16 Electronics 1260 17 The Atom 636 18 Modern Physics 283 19 Inside atomic nucleus 1842
う文章を並び替えることで,段階的に学問的幅広さWdが上昇 する学習順序を推定する.
4.
評 価 実 験
本研究では,学習順序が既知の文章群に対し,提案手法を用 いて学習順序を推定する.提案手法によって得られた学習順序 が,本来の学習順序をどの程度再現できているか相関係数に よって検証する.また,知識間の語彙出現分布によって推定し た学習順序の有効性についても検証する. 4. 1 対象のデータセット本実験では,Free High School Science Textsの「A Text-book for High School Students Studying Physics.」(THSSP) [8]を対象に学習順序を推定した.このテキストはWikibook を参考に作られた初等物理学のpdfの教科書で,全19章にわ たって書かれている.各章番に対する章タイトルおよび語彙数 を表6に示す. 4. 2 システムによって得られた3指標 THSSPの各章を文章群とし3.章で示した学習順序推定手法 を用いて文章を並べ替え学習順序を推定した.システムによっ て得られた重要度I,学問的幅広さWdのグラフ化したものを それぞれ図5図6に示す. 重要度Iは直線近似をしたところ,下降傾向が見られたため 学習順序推定に用いる. 学問的幅広さWdは学習順序において後半に出現する文章は 学問的幅広さが高くなると仮定したものの,直線近似の結果下 降傾向が見られた.そのため,学習順序推定に用いる指標とし て適切でないとし,並べ替えに用いなかった.しかし,学問的 幅広さWdは当初の狙い通りであれば上昇傾向が見られるはず であったが,下降傾向が見られたため学習順序推定には適さな いと判断し用いなかった.全ての文章の組み合わせに対する難 易度Dxyの行列を表7に示す.この表は,各行の章を基点と して,列に示す他の章に遷移する際の難易度を示している.例 えば,第1章から第2章に遷移する難易度(1→2)は0.49で
表7: 文章間の難易度Dxy 基点 遷移先の文章 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 1 0.00 0.49 0.66 0.58 0.59 0.54 0.55 0.66 0.60 0.54 0.66 0.67 0.62 0.71 0.70 0.70 0.64 0.54 0.73 2 0.78 0.00 0.78 0.78 0.78 0.69 0.73 0.82 0.75 0.71 0.79 0.82 0.76 0.85 0.84 0.85 0.80 0.68 0.87 3 0.62 0.45 0.00 0.58 0.58 0.51 0.51 0.64 0.53 0.53 0.64 0.66 0.56 0.69 0.68 0.66 0.62 0.50 0.69 4 0.50 0.41 0.55 0.00 0.43 0.34 0.33 0.61 0.51 0.44 0.58 0.63 0.50 0.63 0.64 0.66 0.60 0.52 0.70 5 0.55 0.45 0.58 0.48 0.00 0.42 0.37 0.61 0.50 0.40 0.61 0.63 0.47 0.66 0.65 0.68 0.59 0.53 0.70 6 0.70 0.55 0.71 0.64 0.65 0.00 0.51 0.75 0.59 0.56 0.72 0.76 0.66 0.77 0.78 0.79 0.74 0.66 0.82 7 0.73 0.63 0.74 0.66 0.66 0.56 0.00 0.76 0.59 0.62 0.68 0.77 0.69 0.81 0.81 0.81 0.77 0.68 0.83 8 0.53 0.44 0.55 0.55 0.51 0.47 0.45 0.00 0.47 0.46 0.23 0.57 0.48 0.62 0.62 0.59 0.56 0.48 0.64 9 0.71 0.59 0.69 0.70 0.67 0.55 0.50 0.72 0.00 0.59 0.68 0.74 0.64 0.77 0.78 0.77 0.71 0.66 0.79 10 0.68 0.54 0.69 0.66 0.61 0.53 0.55 0.72 0.60 0.00 0.65 0.74 0.63 0.78 0.77 0.78 0.69 0.63 0.80 11 0.87 0.83 0.88 0.87 0.87 0.84 0.81 0.79 0.84 0.82 0.00 0.88 0.86 0.89 0.89 0.89 0.87 0.85 0.91 12 0.40 0.28 0.45 0.43 0.39 0.33 0.30 0.43 0.35 0.34 0.40 0.00 0.35 0.49 0.50 0.51 0.41 0.32 0.51 13 0.59 0.41 0.57 0.55 0.48 0.44 0.44 0.60 0.46 0.44 0.58 0.62 0.00 0.65 0.66 0.65 0.54 0.47 0.69 14 0.38 0.27 0.41 0.35 0.36 0.26 0.32 0.43 0.33 0.34 0.38 0.40 0.31 0.00 0.36 0.39 0.37 0.36 0.48 15 0.42 0.31 0.44 0.42 0.39 0.36 0.39 0.47 0.41 0.39 0.45 0.46 0.39 0.42 0.00 0.44 0.41 0.37 0.52 16 0.47 0.39 0.45 0.50 0.48 0.45 0.45 0.49 0.45 0.46 0.46 0.53 0.43 0.49 0.49 0.00 0.44 0.41 0.56 17 0.63 0.54 0.64 0.65 0.61 0.59 0.60 0.67 0.59 0.55 0.64 0.66 0.56 0.69 0.68 0.66 0.00 0.47 0.68 18 0.78 0.65 0.78 0.80 0.79 0.75 0.74 0.82 0.78 0.75 0.80 0.82 0.76 0.85 0.84 0.84 0.76 0.00 0.85 19 0.30 0.24 0.27 0.35 0.29 0.28 0.25 0.33 0.26 0.27 0.35 0.31 0.27 0.36 0.36 0.35 0.22 0.20 0.00 図5: 重要度I 図6: 学問的幅広さWd あることを示している.一方(2→1)は0.78であり,難易度に は指向性があることがわかる. 4. 3 評 価 方 法 システムによって得られた学習順序がTHSSPの章立て(正 順序)をどの程度再現できているかの評価法として,スピアマ ンの順位相関係数をを用いる. • スピアマンの順位相関係数ρ. スピアマンの順位相関係数ρは2つのリスト間の関係が任意 の単調関数によってどの程度表現できるかを評価する指標であ る.全アイテム数をn,評価対象の第i位のアイテムriとし, 評価基準のリストの第i位をsiとした時,相関係数ρは,式 (4)で求められる. ρ = 1−6
∑
n i=1(xi− yi) 2 n(n2− 1) (4) 4. 4 各指標に基づく並べ替えと評価 THSSPを対象に抽出した,重要度Idおよび難易度Dxyを 用いて並べ替えた学習順序を示し4. 3節で示した評価指標を用 いて評価する. 4. 4. 1 重要度Idに基づく並べ替え 重要度Idが降順になるように並べ替えた学習順序の結果を 表9に示す.またその分布図を図7に示す.分布図は横軸は本 来割り当てられるべき章番号で,縦軸は推定された学習順序に おいて実際に割り当てられた章である.図7においては,並べ 替えの結果1章が来るべき箇所に2章が割り当てられているこ とがわかる.完全に再現できたのであれば,正解順序の線と同 等の直線が得られる.並べ替えの結果を評価指標式(4)で評価 した結果を表10に示す. 4. 4. 2 難易度Dxyに基づく並べ替え 各文章をスタート文章としたときの分散の値を表8に示す. 分散の値より1章がスタート文章となった.このとき難易度に図7: 重要度Idに基づく並べ替え 表8: スタート文章を変化させたときの難易度分散 スタート文章 分散 V スタート文章 分散 V 1 0.0109 11 0.0121 2 0.0113 12 0.0151 3 0.0118 13 0.0125 4 0.0139 14 0.0226 5 0.0208 15 0.0135 6 0.0200 16 0.0125 7 0.0114 17 0.0187 8 0.0181 18 0.0180 9 0.0193 19 0.0247 10 0.0200 表9: 並べ替え結果 正解順序 並べ替え法 重要度 Id 難易度 Dxy 1 2 1 2 7 2 3 6 18 4 10 7 5 18 6 6 9 10 7 13 9 8 11 13 9 5 5 10 4 4 11 1 3 12 17 17 13 3 11 14 8 8 15 12 12 16 16 14 17 15 15 18 14 16 19 19 19 基づいて得られた学習順序を表9に示す.またその分布図を図 8に示す.並べ替えの結果を評価指標式(4)で評価した結果を 表10に示す. 図8: 難易度Dxyに基づく並べ替え 表10:並べ替え結果のスピアマンの順位相関係数ρによる評価 結果 並べ替え法 結果 有意確率 検定結果 重要度 Id 0.4421 0.0581 0.01<P<0.05 難易度 Dxy 0.5771 0.00967 P<0.01
5.
考
察
本研究では,知識間の語彙出現分布に基づく学習順序推定手 法を提案した.具体的には,知識間の関係を表す難易度Dxy, 重要度Id,幅広さWdの3つの指標を提案し,その各指標と学 習順序との関係を仮定し,並べ替えを試みた.また並べ替えの 結果をスピアマンの順位相関係数を用いて評価した. 本章では,各指標,並べ替え手法それぞれに関する考察を述 べる.また,最後に全体を通じた考察を行う. 5. 1 3指標に関する考察 本研究では,知識間の学習順序を決定する知識の難しさを定 式化し,物理学の教科書(THSSP)の章群を対象に式を用いて 数値を抽出した. 5. 1. 1 重 要 度Id 3. 1節で示した重要性算出の定義に従えば,学習順序におい て後半に来る知識は専門性が高く重要度が低くなるはずである. 実際に重要度を章ごとに算出した結果のグラフ図5を直線近似 したところ,傾きが負の直線が得られたため本実験に用いた教 科書THSSPは重要度Idが徐々に減少していく傾向があるこ とが分った.また,2章や18章のように急激に重要度が上昇す る章は表6より共通して語彙数が少ないことが分る.このこと から,語彙数の少ない章は適切に重要度を算出できていないこ とが分る. 5. 1. 2 難易度Dxy 難易度Dxyは全ての章の間において計算されている.難易 度算出の定義に従えば,学習順序の後半に専門性の高い章が出 現する可能性が高く,他章からの難易度が高くなると考えられ る.表7において他章からの難易度の合計値Dsumをグラフ化 したものを図9に示す. 図9において直線近似の結果,上昇傾向が見られたため本実 験に用いた教科書THSSPは徐々に難易度が上昇する傾向があ ることが分った.また,2章や18章などの語彙数の少ない章図9:各章に対する難易度合計値Dsum は,急激に難易度が下降しているため適切に難易度を算出でき ていないことが分る. 5. 1. 3 学問的幅広さWd 各章に対する学問的幅広さWdをグラフ化した図6を直線近 似したところ,傾きが負の直線が得られたため,本論文におい て学習順序推定には用いなかった.従って,「知識そのものの難 しさ」を測る指標として適切でないことがわかった.学問的幅 広さの仮定として,Wikipediaにおいてリンク数が多いページ (知識)は難易度が高いとしたが,参考文献が多いページ,リ ンク数がもとよりおおいポータル的ページなどにより,有意な 傾向が得られなかったのだと考えられる.また,文中に出現す る語彙に相当するWikipediaのページをWikipediaAPIで抽 出した際,本システムではAPIを用いて一番初めにマッチし たページを用いたが,表記ゆれのある語彙や,複数の意味を持 つ語彙の場合検索結果は一つでなく複数得られるため,適切に 語彙とマッチするページが得られていない可能性がある.その ため検索語と正しくマッチする同時に,正しくないものは抽出 しない検索手法を提案する必要がある. 5. 2 並べ替え手法に関する考察 本節では算出した重要度Id難易度Dxyを用いた学習順序推 定手法に関する考察をする. 5. 2. 1 重要度Idに基づく学習順序推定 システムを用いて推定された重要度Idに基づく学習順序推 定結果表10により,THSSPの章立てと正の相関がえられ重要 度 I に基づく並べ替えがある程度有効であることがわかった. スピアマンの順位相関係数ρにおいて,THSSPの章立てと並 べ替えの結果得られた章立ての間に0.442とやや強い相関があ ることがわかった. 5. 2. 2 難易度Dxyに基づく学習順序推定 システムを用いて推定された難易度Dxyに基づく学習順序 推定結果表10により,THSSPの章立てと正の相関がえられ難 易度 I に基づく並べ替えがある程度有効であることがわかっ た.スピアマンの順位相関係数ρにおいて,THSSPの章立て と並べ替えの結果得られた章立ての間に0.577とやや強い相関 があることがわかった. また,難易度に基づく並べ替え結果の分布図8において,重 要度に基づく並べ替えと比較して部分的なまとまりを再現でき ていることがわかる.例えば,16章から18章のように完全に 元の章立てを再現できている箇所や,9章から11章のように逆 転はしているもののまとまりは再現できている箇所が多く見ら れた.重要度に対して難易度は各々の章間で算出され,内容が 近いものほど難易度が低く算出される.そのとめ9章から11 章のように電気電子系という共通の内容をもつ章がまとまって 並び替えられたのだと考えられる.また,学習順序的に隣り合 う章の関係は再現できたものの,5章の次に4章が並べられる, 7章の次に6章が並べられるなど章関係が逆順に検出された箇 所が多く見られた.これらに共通していることは,逆順でも正 順でも難易度Dxyが低いということである.たとえば4章5 章間において,4章から5章へ遷移するときの難易度D4,5は 0.43,5章から4章へ遷移するときの難易度D5,4は0.48とほ ぼ同値かつ低い数値であった.難易度Dxyに基づく並べ替え の場合,一度学習順序リストに検出されると,それより低い難 易度で遷移できる章が存在しても検出できないという欠点があ る.仮に,どちらからも難易度Dxyの低い結びつきの強い2つ の章があったとき,先に後続の章が検出された場合このような 逆転現象が起こる可能性がある.逆転現象を解消するためには 学習順序推定において1つの章が複数の章の基礎となる可能性 を加味することで解決されるものと考えられる.1つの章から 複数の章につながりを持てるような並べ替え手法の考案が今後 の課題となる. 5. 3 全体を通じた考察と今後の課題 重要度Id難易度Dxyにおいて,ある程度定義通りの数値を 抽出することができた.2つの並べ替え手法は2つの評価指標 で評価した結果ある程度の有効性が確認された.図10に2つ の並べ替え手法の分布図を示す.評価結果を比較したところ難 易度に基づく並べ替えのほうが並べ替え精度が高かったが,2 手法に共通して語彙数が少ない章は適切に指標が得られていな いことが分る.そのため今後は,語彙数が少ない章をどのよう に評価し指標を得ていくかが今後の課題となる.また、図にお いて2つの並べ替え結果間においてかなり強い相関が見られる. これは,別々の2指標間に相関があるものと考えられ,指標の 構造を再構成する必要があることが分った.また,研究の目的 である目的の知識に対する最短ルートを得るために,学習順序 に必要でない知識を検出する手法の提案も今後の課題となる.
6.
結
論
本研究では,知識間の語彙出現分布に基づく学習順序推定手 法を提案した.学習順序を決定する要素として,「知識そのもの の難しさ」「知識間の遷移の難しさ」を定義し,この定義を重 要度Id難易度Dxy学問的幅広さWdの3指標で定式化した. 定式化した式を用いて知識の並べ替え手法を提案し,実際の物 理学の教科書を対象に章立てを再構成し評価を行った. 知識群内での語彙出現分布より知識の重要度Idを算出し,こ れが徐々に減少していくように知識を並び替えることで,基礎 的な知識を学習順序前半に専門的な知識を後半に出現するよう な学習順序の推定手法を提案した.知識間の共通語彙数および,図10:難易度に基づく並べ替えDsortと重要度に基づく並べ替 えIsortの結果比較 共通でない知識のより知識間の遷移の難易度Dxyを算出した. 共通でない知識の出現確率を学習順序全体で下げ,学習順序の 知識間難易度Dxyの分散が最も低くなるように並べ替えるこ とで,未知の語彙が出現する確立が少なくかつ一定である学習 順序の推定手法を提案した.知識そのものがどれだけ専門的で あるか,学問的幅広さWdが幅広いかをWikipediaを用いて算 出した.算出した学問的幅広さWdが上昇するように知識を並 び替えることで,学習順序全体を通じて徐々に難しくなる学習 順序の推定手法を提案した. 実際に物理学の教科書を対象に提案した学習順序推定手法を 用いて学習順序を推定し,得られた学習順序をスピアマンの順 位相関係数ρを用いて評価した.重要度Idに基づく並べ替え によって得られた学習順序は,実際の章立てに対しスピアマン の順位相関係数ρで0.442とやや弱い相関が得られた.難易度 Dxyに基づく並べ替えによって得られた学習順序は,スピアマ ンの順位相関係数ρで0.577とやや強い相関が得られた.この 結果提案した学習順序推定手法が,実際の学習順序を再現する のにある程度有効であることがわかった.今後の課題として, 教科書において語彙数の少ない章を適切に評価できるようにす ること,最短の学習順序推定法の構築が挙げられる.
7.
謝
辞
本研究は,JSPS科研費25540159の助成を受けたものです. ここに記して謝意を示します. 文 献 [1] 中山浩太郎, 原隆浩, 西尾章治郎. Wikipedia マイニングによ るシソーラス辞書の構築手法. 情報処理学会論文誌, Vol. 47, No. 10, pp. 2917–2928, oct 2006. [2] 伊藤雅弘. Wikipedia を用いた概念間の関連度測定に関する研 究. 博士論文, 大阪大学, 2011. [3] 山田一郎, 鳥澤健太郎, 風間淳一, 黒田航, 村田真樹, ステイン デ・サーガ, フランシスボンド, 隅田飛鳥, 橋本力. 分布類似度 と wikipedia から獲得した構造情報を利用した上位下位関係獲 得. 情報処理学会論文誌, Vol. 52, No. 12, pp. 3435–3447, dec 2011.[4] Bifan Wei, Jun Liu, Jian Ma, Qinghua Zheng, Wei Zhang, and Boqin Feng. Motif-based hyponym relation extraction from wikipedia hyperlinks. Knowledge and Data
Engineer-ing, IEEE Transactions on, Vol. 26, No. 10, pp. 2507–2519,
oct 2014.
[5] 西原陽子, 砂山渡, 谷内田正彦. Web ページの難易度と学習順序
に基づく情報理解支援システム (コンテンツ技術,web 情報シス テム). 電子情報通信学会論文誌. D, 情報・システム, Vol. 89, No. 9, pp. 1963–1975, sep 2006.
[6] John R. Bormuth. Readability: A New Approach, Vol. 1. [Wiley, International Reading Association], 1966.
[7] George Spache. A new readability formula for primary-grade reading materials. The Elementary School Journal, pp. 410–413, mar 1953.
[8] Mark Horner, Samuel Halliday, Sarah Blyth, Rory Adams, and Spencer Wheaton. A textbook for high school students studying physics. http://www.nongnu.org/fhsst/fhsstphy.pdf.