• 検索結果がありません。

PDFファイル 3D4 「教育支援におけるテキスト・自然言語処理」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 3D4 「教育支援におけるテキスト・自然言語処理」"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

Wikipedia

情報

歴史学習問題

自動生

手法

Generating Exercises for History Learning based on Wikipedia Articles

*1

山内

崇資

*2

佑樹

*1

紀子

*1

Yoshihiro TAMURA Takashi YAMAUCHI Yuki HAYASHI Yukiko NAKANO

*1

蹊大学理工学部

*2

蹊大学大学院理工学研究科

Faculty of Science and Technology, Seikei University Graduate School of Science and Technology, Seikei University

Since knowledge-base for ITS is manually developed in most cases, it requires high cost to create large-scale and multi-domain knowledge base. Aiming at reducing the cost for developing knowledge base for ITS, this study constructs a data base for Wikipedia articles about historical people and events, and proposes a method for generating history quizzes using the data base. Moreover, we propose a method for assigning categories and the level of importance in terms of history education based on Wikipedia article information and its link structure. Finally, an evaluation study showed that about 50% of the generated quizzes were educationally appropriate, and 85% of educationally important articles can be successfully chosen using the proposed method.

1.

じめに

近 ,情報技術 達 ,e ニン ム 代表さ 学習 ン ュ 情報機器 用い 個 学習 支 援 ム 場 い . う 中 ン ュ 教 師 う 役割 担わ ITS(Intelligent Tutoring System)研 究 盛 行わ い [舟生 2010, 菅 2005]. ,

う ム 利用さ 知識 や, 学 習 問題 多 人手 作 さ い , 構築 大 掛 いう 問題 あ .

々 問題生 知識 一 利

用さ [Higashinaka 2007],学習 利用 知識 格

納さ い 考え Wikipedia 着目 .Wikipedia

知識 , 問題文及び,教育 用い 難易度 情報 自動 付 ば , ム構築

削減 ,個 学習 様々 学習 知的 支援 家庭教師 ン 開 行う 可能

あ . 研究 基礎検討 ,歴史 人物や出来 関 記 情報 収 作 ,一問一 答形式 日 史人物 学習問題 自動生 目的

. ,作 さ 問題 学習 利用 ,記 情報

やWikipedia固 情報 利用 難易度や 情報

付 手法 提案 .

2.

日本史人物問題用

ータベー

2.1 Wikipedia

Wikipedia 世界最大規模 イン ネッ 百科 典 あ .

誰 自 編 特 あ ,2010 8 時 全言語 併 1600万以 記 存在 い .査 機構 存在 ,記 情報 正確性 保証さ い い , 多数 編 者 編 さ 結果, 情報 正確性 近 向 ,学習教 利用 問題 い 考 え .

研究 日 語 記 約 136万記 対象 ,

中 歴史 関連 記 抽出 基 , 歴史学習用 問題 自動生 行う.

2.2

ータベー

構造

日 史 関係 あ 人物 記 ,各時代 人物一覧 記載さ ン 基 抽出 ,記 情報 え 記 要度や時代区 情報 保持 歴史 人 物 問 題 用

作 .

構築 MySQL 用い .図1

構造 示 . 間 結ぶ矢印 外部参 照 表 .今回対象 日 史 時代区 ,鎌倉,室町, 朝,戦後,安土桃山,江戸,幕 ,明 ,各記 時 代 属 性 人物 一覧 載 い 定 . 複数 時代 存在 い 人物 2 以 時 代情報 付 さ あ . ,歴史 様々 人物 主 体 出来 う ,最 多 人物 関わ 出来 ,

戦い 関 記 人物 様 一覧 収 ,

格納 .person 3986 格

納さ ,battle 500 格納さ い .表1

保 持 各 内 容 示 .era,

person,battle 各 関連 関係付

い .

図1.日本史問題用 ータベー の ーブ 構造

連絡先: 宏, 蹊大学理工学部,東京都武蔵 市 祥 寺 町3-3-1,yoshihiro.tamura@hotmail.co.jp

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

表1.各 ーブ の内容 ーブ 名 内容

era 時代区分情報

person

記事タイ ,記事内容(タグあり), 重要度,被引用数情報

battle 記事タイ ,記事内容(タグあり),

重要度,被引用数情報

person_era personとeraの関連 ーブ

person_battle personとbattleの関連 ーブ

battle_era battleとeraの関連 ーブ

3.

人物問題文

生成手法

2 章 作 基 問題生 行う.person

格納さ meta_text 用 い 問 題生 行 う .

meta_text Wikipedia 編 用 残 い ,問題

生 行う際 削除 .

文 中 記 先頭部 あ ア ,人目 多 触 記 全体 最 正確性 高い部 あ ,書 方 一貫性 存在 [3]. ,書い あ 情報 記 全体

概略 い . 研究 ,問題文 雛型 記 ア 部 着目 , 情報 用い ア

部 抽出 ,記 イ 人物 問う 一問一答形 式 問題文 生 .

3.1

問題文生成ア

問題生 あ , ,今回解答 イ 消去 行 う.ア 最初 文 記 イ 含 ,

続 文 主語 省略さ い . 最初 文 イ 削除 ば イ 含 い文 大 生

. イ 消去 Wikipedia 固 利用

正規表現 用い 削除 行 .

次 叙文 疑問文 変換 .疑問文 生 際, 日 語 ~ ? 助辞 含 助詞 語尾 付 ば疑問文 着目 .自然 疑問文

,文 表現 繋 役目 果 語句 間

挟 必要 あ . ,Wikipedia記 ア 部

文 表現 調査 , う パ ン あ 類 結果, 文

助詞 助動詞 変接続 体言 変接続以外 体言

3 場 多い わ , 文

誰 ? 誰 ? 誰 ?

追 ,自然 疑問文 生 .

,文 表現 置換 , 幼 竹千代 あ 誰 ? 様 1 節 助詞 あ 節 2

以 掛 , 助詞 あ 文節 他 助詞 あ 文節 掛 い ,日 語 自然 表現

う場 あ . 問題 解決 , 日 語

係 受 解析 ン ン Cabocha1用い ,助詞 存在

1CaboCha: Yet Another Japanese Dependency Structure

Analyzer: https://code.google.com/p/cabocha/

場 , 助詞 変換 機能 追 .以 処理 問題生 ャ 図2 示 .

川家康 記 ア 例 挙 処 理 流 示 . 川家康 ア 箇所 文 句 割 以 7 文 .

1. 江戸幕府 初 代征夷 大将軍

2. 英傑 一人

3. 姓 先 藤 原氏、次 い 源氏 称

4. 家系 河国 国人 士豪 松 氏

5. 永禄9 12 29日 勅許 得 、 川氏 改

6. 松 元信 時代 通称 次郎 郎

7.幼 竹 千代

次 助詞 探索 , 属 い 文節 最後 文 係 い 場 変換 .今回 例 割

文 3,4,6,7番目 線部 当 変換対象 .最後 文 部 形態素解析結果 応 , 記 ~

③ 変換パ ン 致 語句 補完 .今回 例 ,

1, 2, 4, 6, 7番目 文 体言 終わ い 誰

? 文 ,3, 5 番目 文 助動詞 終わ い

誰 ? 文 付 . 結 果 ,生 さ

1*~7* 問題文 自然 疑問文 い

わ .

1*江戸幕府 初 代征夷大 将軍 あ 誰 ?

2* 英傑 一人 あ 誰 ?

3* 姓 先 藤 原氏、 次い 源氏 称 誰 ?

4* 家系 河国 国 人士豪 松 氏 あ 誰 ?

5* 永禄9 12 29日 勅許 得 、 川氏 改

誰 ?

6*松 元信 時代 通称 次郎 郎 あ 誰 ?

7* 幼 竹千代 あ 誰 ?

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

4.

記事

重要度

4.1 Wikipedia

主要カ

記 要度 測定 ,Wikipedia ン

構造 着目 . 主要 呼ば 公式 設定さ

9 総記,学問,技術,自然,社会,地理,人間,文

,歴史 歴史 最 近い日 史関連

日 歴史 第5階層:主要 > 歴史 > 地域史 > 大 陸 歴史 > ア ア史 > 日 歴史 あ . 日 歴 史 中 あ 日 歴史 記 , 前

主要 近い日 史関連 あ

え, 日 史 Wikipedia 検索 際 イ さ

あ , 記 Wikipedia内 最 日

史全体 記 あ .

一般的 細 明 載 い 複数 記

概要記 作 う ,各記 載 い 全 情報 複 写 ,情報 精査 , 要 部

優先的 記述 う .Wikipedia い 様 記

約 記 要 情報 残 い い 考え . , 研究 日 歴史 ン 張 い 人物 日 史 最 要人物 あ , 日 歴史 ン 直結 い 各時代 明記 ン さ い 人物 , 次 要 人物 あ . 情報 , 日 史人物問題用 person level

日 歴史 あ 記 2 ,各時代 あ 記 1 , 以外 0 格納さ .

4.2

被参照

ンク数

Wikipedia 階層構造 得 要度 level ,

検索 要 指標 あ 被参照 ン 数 ン 付 行 . ,着目 い 人物 記 へ ン

,他 人物 記 内容 参照さ い 算出 .被参照数 計算方法 以 種類 考え .

. 被参照 ン ン数(referred_token)

. 被参照 ン 種類数(referred_kind)

ほう 教育的 要 記 位 ン 付 明瞭 , 研究 記 複 ン ン 参照数(1) person referred_token , 複

1 ン 参照数(2) referred_kind 格納 い .記

要度 関 評価 5.2節 行う.

5.

評価実験

5.1

人物問題文

評価

生 さ 人物問題文 妥当性 評価 評価実験 行 .評価用 問題文 , 100個 人物記 無作 抽出 ,人物問題生 ア ム 適用

. ,生 さ 問題文 更 100文 無作 抽 出 . 実験 ,(i)文法的 正 い問題 あ ,(ii)学習 問題 適 い , いう 2 評価基準 設 ,3 評価者 い,約100問 評価さ .

評価結果 表2 示 .評価(i) い 85% 超え 評 価 得 . 適 断さ 問題文 ほ ,

等 文 副助詞 対 足 代表さ 文 変換関係 生 ,改良 余地 あ 示

い . 一方,評価(ii) ,半数以 問題 教育的 観 適 断さ い . 豊臣政権 五大老 一人

あ 誰 ? う 解答 複数存在 問題や, 幼 竹千代 あ 誰 ? う 教育的 特 意味 無い問題 生 さ ,問題文 定 評価

機構 無い , 出題 適 問題 定さ 問題 増や 主 要因 あ . 以

,概要部 対 問題文生 手法 ,文法的 正 い質問 生 ,教育的観 正 い問題文 生

,問題内容 析 , ム 歴 史 問題 適 う 断 ば い 示さ .

表2.人物問題の評価結果 評価内容 結果

(i) 文法的な正しさ 86.5%(256/296)

(ii) 教育的な正しさ 48.0%(142/296)

5.2

記事重要度

検証

4.1 節 用意 構造 利用 記 要度 level

,4.2 節 用 意 被 参 照 ン 数 referred_kind,

referred_token 用い 要度 定 行う .被参照 ン 数

多い 位 ン 付 ,level ン 付 行い,

level 高い 位 後 level内 被参照数

考慮 2手法 被参照 ン 数 計算 行い計4 結果 評価 . 検証方法 歴史教科書[山 川 日 史教

科書 2009] 収録さ い 日 史 B 対象 教科書 11

冊 う , 語 何冊 収録さ い 表 頻度数 1 ~11 用い .掲載さ い い 語 0 .頻度数 5 以 あ 人物 歴史教育 要 人物 あ 定義 , 前述 要度検証方法 4 抽出さ 位 100 個 う 何個 頻度数 5以 記 あ ン 割 評価 .

結果 表3 示 .階層構造 用い 被参照数 要 度 測定 (Ⅰ)(Ⅲ) ,約 65%以 精度 教育的

要 人物 抽出 .Wikipedia 階層構造 考慮

,非参照数 評価 約 10~15%程度抽出 人物 割 向 .

表3.記事重要度検証の評価結果 重要度測定手法 結果

( ) referred_kind 67%(67/100)

( ) referred_kind + level 84%(84/100)

( ) referred_token 74%(74/100)

( ) referred_token + level 85%(85/100)

6.

まとめ

研究 ,Wikipedia 用い 歴史問題生 用

構築 ,Wikipedia記 ア 記 イ

解答 一問一答形式 人物問題 自動生 手法 提案 .評価実験 結果,約 5 割 精度 歴史学習 出題

問題 自動生 .特 ,生 さ 問題 文 8割以 文法 正 い問題 い 確 .

,Wikipedia 2 ン 構造 あ ,

ン 構造 関連記 被参照数 記 要度 ン 付 , ンキン 位 100 抽出 教科書 頻出 語 い含 い 析 教育的 要 記 抽出 う 評価 . 結果 ,被参照数

(4)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 4 -

い ,階層構造 考慮 ,10%~15%程度 要 記 含 い 割 増 さ . 今後 課題 ,教育的 意義 あ 問題文 選 手 法 考案,並び 記 要度 更 妥当性 検討 行 い 予定 あ .

参考文献

[中 山 2008] 中山浩太郎:自然言語処理 ン 構造解析 利

用 Wikipedia Web ン 自動構築 関

一手法, DEWS2008, A3-2 (2008).

[山 川 日 史教科書 2009] 全国歴史教育研究協議会(編):日

史B 用語 改訂版, 山川出版社 (2009).

[舟生 2010] 舟生日出男, 穐山 史, 嶋宗:問題解決

利用 選択問題 誤選択肢及び解 自動生 , 電 子情報通信学会論文 D, J93-D(3), pp.292-302 (2010).

[菅 2005] 菅 明:学生 理解度 問題 難易度 動的 評

価 練習問題自動生 ム, 情報処理学会論文 ,

Vol.46, No.7, pp.1810-1818 (2005).

参照

関連したドキュメント

Here is the “surprise”: the validity of assumption (2.14) on Claim 2.3 for some hyperbolic/Petrowski-type systems is verified (see Section 4) by precisely the same hard analysis

Here is the “surprise”: the validity of assumption (2.14) on Claim 2.3 for some hyperbolic/Petrowski-type systems is verified (see Section 4) by precisely the same hard analysis

Here is the “surprise”: the validity of assumption (2.14) on Claim 2.3 for some hyperbolic/Petrowski-type systems is verified (see Section 4) by precisely the same hard analysis

Standard domino tableaux have already been considered by many authors [33], [6], [34], [8], [1], but, to the best of our knowledge, the expression of the

Rev. Localization in bundles of uniform spaces. Colom- biana Mat. Representation of rings by sections. Representation of algebras by continuous sections.. Categories for the

Notice that for the adjoint pairs in corollary 1.6.11 conditions (a) and (b) hold for all colimit cylinders as in (1.93), since (F ? , F ∗ ) is an equipment homomorphism in each

This implies that a real function is realized by a stable map if and only if it is continuous, thus further leads to an admissible representation of the space of continuous

The objectives of this paper are organized primarily as follows: (1) a literature review of the relevant learning curves is discussed because they have been used extensively in the