• 検索結果がありません。

Wikipediaカテゴリグラフにおける分散度を用いた見出し語の専門度算出

N/A
N/A
Protected

Academic year: 2021

シェア "Wikipediaカテゴリグラフにおける分散度を用いた見出し語の専門度算出"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2016 E6-5

Wikipedia カテゴリグラフにおける分散度を用いた

見出し語の専門度算出

伊川

洋平

鈴木 祥子

†日本アイ・ビー・エム株式会社

〒103-8510 東京都中央区日本橋箱崎町 19-21

E-mail: †{yikawa, e30126}@jp.ibm.com

あ ら ま し 情報検索技術の発展により,ウェブ上のコンテンツを新たな知識獲得のための学習コンテンツとして 利用することが可能になった.コンテンツの専門度を算出することで,膨大な数のコンテンツから学習者のレベル に合った学習コンテンツを提示する助けとなる.本稿では,Wikipedia のカテゴリグラフにおける分散度を用いて見 出し語の専門度を算出するための手法を提案する.それと併せて,見出し語の専門度に基づき,コンテンツの専門 度を算出するための手法を示す.Wikipedia には世の中の様々なコンセプトが登録されており,Wikipedia の見出し 語の専門度を基に,多様な分野のコンテンツに対して専門度を算出できることが期待される.評価実験では,既存 手法では同程度の専門度となるような見出し語についても,実際には専門度に大きな差があり,提案手法によって それらを弁別できることを示した.また,学年ラベルが付与された学習コンテンツを用いて評価を行い,ベースラ インと比較して提案手法がより適切にコンテンツの専門度を算出できることを確認した. キ ー ワ ー ド Wikipedia,情報検索,コンテンツ分析

1. は じ め に

情 報 検 索 技 術 の 発 展 に よ り , 蓄 積 さ れ た 膨 大 な コ ン テ ン ツ の 中 か ら ,特 定 の 条 件 に 合 致 す る も の を 検 索 し , 素 早 く ア ク セ ス で き る よ う に な っ た . こ れ に よ り , 新 し い 知 識 を 獲 得 す る “ 学 習 ” を 目 的 と し て , ウ ェ ブ 上 の 教 科 書 や 解 説 記 事 , 技 術 文 書 , 学 術 論 文 か ら , 学 習 対 象 の コ ン セ プ ト に つ い て 説 明 し て い る も の を 発 見 す る た め の 情 報 検 索 が 広 く 行 わ れ て い る . 膨 大 な 数 の コ ン テ ン ツ か ら 学 習 者 の レ ベ ル に 合 っ た 学 習 コ ン テ ン ツ を 提 示 す る た め に , コ ン テ ン ツ の 理 解 容 易 度 を 算 出 す る 手 法 が 重 要 視 さ れ て い る . 同 じ コ ン セ プ ト に つ い て 説 明 し た 学 習 コ ン テ ン ツ で あ っ て も , 対 象 と し て い る 読 者 が 初 学 者 か , あ る い は 専 門 家 か に よ っ て 使 用 さ れ る 語 彙 は 大 き く 異 な る . 検 索 エ ン ジ ン は 検 索 ク エ リ と 関 連 性 の 高 い コ ン テ ン ツ を 検 索 結 果 と し て 返 す が , 一 般 に 理 解 容 易 度 に つ い て は 考 慮 さ れ て い な い . 本 研 究 で は , コ ン テ ン ツ の 理 解 容 易 度 の う ち “ 専 門 度 ”を 対 象 と す る .Gray ら [7]は コ ン テ ン ツ の 理 解 容 易 度 に 影 響 を 与 え る 要 素 と し て , 内 容 (Content), 文 体 (Style),外 観( Format),構 成( Organization)の 4 つ を 挙 げ て い る . こ の う ち , 本 研 究 が 対 象 と す る “ 専 門 度 ” は , 内 容 に 基 づ く 理 解 容 易 度 で あ る . 本 研 究 で は ,限 ら れ た 分 野 に お い て 使 用 さ れ る 語 を , 専 門 度 の 高 い 語 と 定 義 す る . 使 用 さ れ る 分 野 が 限 定 さ れ れ ば さ れ る ほ ど , そ の 語 の 専 門 度 は 高 く な る . そ し て ,専 門 度 の 高 い 語 が よ り 多 く 含 ま れ る コ ン テ ン ツ を , 専 門 度 の 高 い コ ン テ ン ツ と す る . 専 門 度 の 高 い コ ン テ ン ツ を 理 解 す る た め に は , 特 定 の 分 野 に お い て 限 定 的 に 用 い ら れ る 語 を 理 解 し て い る 必 要 が あ り , そ の 分 野 の 専 門 知 識 が 必 要 と さ れ る . 逆 に , 専 門 度 の 低 い コ ン テ ン ツ に は , 一 般 に 広 く 用 い ら れ て い る 語 が 使 用 さ れ る た め , 理 解 の た め に 分 野 特 有 の 専 門 知 識 は 不 要 で あ る . こ こ で 定 義 し た 専 門 度 は , コ ン テ ン ツ を 理 解 す る の に 必 要 な 専 門 知 識 の 量 と 関 連 し て お り , 内 容 に 基 づ く 理 解 容 易 度 の 一 つ の 側 面 で あ る と 言 え る . 本 稿 で は ,Wikipedia に 登 録 さ れ て い る 見 出 し 語 に 対 し て 専 門 度 を 算 出 し , そ れ に 基 づ い て コ ン テ ン ツ の 専 門 度 を 算 出 す る 手 法 を 提 案 す る .Wikipedia に は 世 の 中 の 様 々 な コ ン セ プ ト が 登 録 さ れ , 世 界 各 国 の 言 語 で 説 明 が 記 述 さ れ て い る .Wikipedia を 外 部 知 識 と し て 用 い る ア プ ロ ー チ は ,適 用 分 野 や 言 語 を 限 定 す る こ と な く , 多 様 な コ ン テ ン ツ に 対 し て 専 門 度 の 算 出 が 可 能 で あ る . ま た , 特 定 の コ ー パ ス を 新 た に 準 備 す る 必 要 が な く , 手 法 の 精 度 が コ ー パ ス の 量 や 品 質 に 左 右 さ れ る こ と が な い . 提 案 手 法 は ,Wikipedia の カ テ ゴ リ グ ラ フ に お け る 分 散 度 を 用 い て 見 出 し 語 の 専 門 度 を 算 出 す る .は じ め に , 対 象 の 見 出 し 語 を 引 用 し て い る Wikipedia の 記 事 集 合 を 特 定 す る . そ し て , そ れ ら の 属 す る カ テ ゴ リ が , カ テ ゴ リ グ ラ フ に お い て ど れ だ け 分 散 し て い る か を 評 価 す る こ と に よ り , 見 出 し 語 の 専 門 度 を 判 定 す る . 分 散 度 が 高 け れ ば , そ の 見 出 し 語 は 幅 広 い 分 野 で 使 わ れ て い る 語 で あ り , 専 門 度 は 低 い と 判 定 さ れ る . 逆 に 分 散 度 が 低 け れ ば , そ の 見 出 し 語 は 特 定 の 分 野 に 限 定 し て 使 わ れ て い る 語 で あ り , 専 門 度 は 高 い と 判 定 さ れ る . 提 案 手 法 の 特 徴 と し て , 既 存 研 究 に お い て 広 く 行 わ れ て き た コ ー パ ス 中 の 語 の 出 現 頻 度 に 基 づ く 手 法 と は

(2)

異 な る 観 点 で 語 の 重 み 付 け を 行 う 点 が 挙 げ ら れ る . Wikipedia は 百 科 事 典 と い う メ デ ィ ア の 性 質 上 ,世 の 中 の あ ら ゆ る コ ン セ プ ト を 網 羅 す る こ と を 目 的 と し て お り ,専 門 的 な 記 事 が 多 い と い う 特 徴 が あ る .そ の 結 果 , 限 定 さ れ た 分 野 で し か 使 用 さ れ な い よ う な 語 で あ っ て も , 出 現 頻 度 が 高 く な る 傾 向 が 見 ら れ る . そ の よ う な ケ ー ス に お い て , 提 案 手 法 に よ り カ テ ゴ リ の 分 散 度 を 評 価 す る こ と で , よ り 適 切 に 専 門 度 を 算 出 で き る 可 能 性 が あ る .

例 と し て ,“Dice( サ イ コ ロ )”と“ Binomial distribution ( 二 項 分 布 )” と い う 2 つ の 語 に 対 し て , Wikipedia を コ ー パ ス と し て 語 の 出 現 頻 度 に 基 づ く 語 の 重 み 付 け を 行 う こ と を 考 え る .こ こ で は ,Wikipedia に お け る ハ イ パ ー リ ン ク に よ る 見 出 し 語 の 引 用 回 数 を , そ の 見 出 し 語 の 出 現 頻 度 と す る . す る と ,“Dice” の 引 用 回 数 は 65,“ Binomial distribution” の 引 用 回 数 は 181 で あ り , “Dice” よ り も “ Binomial distribution” の 方 が 3 倍 近 く も 使 用 さ れ や す い 語 で あ る と い う こ と に な る が , こ の 結 果 は 直 感 に 反 す る .

一 方 で , こ れ ら の 語 に 対 し て 提 案 手 法 を 適 用 し た 結 果 を 図1 に 示 す .左 は“ Dice”,右 は“ Binomial distribution” を 引 用 し て い る 記 事 が 属 す る カ テ ゴ リ を カ テ ゴ リ グ ラ フ 上 に マ ッ ピ ン グ し た 例 で あ る .“Dice”は 一 般 に 広 く 用 い ら れ る 語 で あ り , 数 学 に お け る 確 率 の 基 礎 的 な 説 明 で 用 い ら れ る 他 , ゲ ー ム , 映 画 , 音 楽 等 の 幅 広 い 分 野 の 記 事 か ら 引 用 さ れ て お り , カ テ ゴ リ グ ラ フ に お け る 分 散 度 は 高 く な る .一 方 ,“Binomial distribution”は 一 般 に 広 く 用 い ら れ て い る 語 と は 言 え ず , 確 率 論 や 統 計 学 な ど の 限 定 さ れ た 分 野 の 記 事 か ら の 引 用 が 多 い た め ,分 散 度 は 低 く な る .結 果 と し て ,“Dice”は 専 門 度 の 低 い 語 ,“Binomial distribution”は 専 門 度 の 高 い 語 と 判 定 さ れ る . こ の よ う に , 提 案 手 法 は 従 来 の 語 の 出 現 頻 度 に 基 づ く 手 法 と は 異 な る 観 点 で 専 門 度 を 算 出 す る こ と が で き る . ま た 本 稿 で は ,提 案 手 法 に よ り 算 出 さ れ たWikipedia 見 出 し 語 の 専 門 度 を 用 い て , コ ン テ ン ツ の 専 門 度 を 算 出 す る 手 法 を 示 す . コ ン テ ン ツ 中 に 出 現 す る 見 出 し 語 に 対 し て , 専 門 度 と Wikipedia に お け る 引 用 回 数 に 基 づ く フ ィ ル タ リ ン グ を 行 い , よ り 適 切 に コ ン テ ン ツ の 専 門 度 が 算 出 さ れ る よ う に す る . 評 価 実 験 で は , 提 案 手 法 に よ っ て 算 出 さ れ た Wikipedia 見 出 し 語 の 専 門 度 と ,コ ン テ ン ツ の 専 門 度 の 評 価 を 行 っ た . 見 出 し 語 の 専 門 度 の 評 価 で は , 従 来 用 い ら れ て き た 専 門 度 指 標 で は 同 程 度 の 専 門 度 と な る よ う な 見 出 し 語 に つ い て も , 実 際 に は 専 門 度 に 大 き な 差 が あ り , 提 案 手 法 に よ っ て そ れ ら を 弁 別 で き る こ と を 示 し た . ま た , コ ン テ ン ツ の 専 門 度 の 評 価 で は , 学 年 ラ ベ ル が 付 与 さ れ た テ キ ス ト を 用 い て 評 価 を 行 っ た . ベ ー ス ラ イ ン と 比 較 し て , 提 案 手 法 に よ り 算 出 さ れ た 専 門 度 は , コ ン テ ン ツ の 学 年 ラ ベ ル と よ り 強 い 相 関 を 示 し , 提 案 手 法 が 良 好 な 結 果 を 示 す こ と を 確 認 し た . 図 1. カ テ ゴ リ グ ラ フ に お け る 分 散 度

2. 関 連 研 究

コ ン テ ン ツ の 理 解 容 易 度 に 関 す る 研 究 は ,1920 年 代 に 文 の 長 さ や 語 の 出 現 頻 度 を 用 い た 方 法 が 発 見 さ れ て 以 来 , こ れ ま で 非 常 に 多 く の 研 究 が 行 わ れ て き た[5]. 伝 統 的 な 指 標 は , 文 の 長 さ や 音 節 数 の よ う な 表 層 的 な 特 徴 を 用 い る も の と , 語 の 出 現 頻 度 に 基 づ く も の が あ る . 代 表 的 な 指 標 で あ る ,Flesch Reading Ease[6] , Flesch-Kincaid Grade Level[8]は , 一 文 あ た り の 平 均 語 数 と , 一 語 あ た り の 平 均 音 節 数 に 基 づ く 指 標 を 提 案 し て い る .SMOG Index[10]も 表 層 的 な 情 報 を 用 い る 手 法 で ,3 音 節 以 上 の 語 数 に 基 づ く 指 標 で あ る . 語 の 出 現 頻 度 に 基 づ く 伝 統 的 な 指 標 と し て ,[4]は 3,000 語 の 簡 単 な 語 の リ ス ト を 事 前 に 定 義 し て お き , こ の リ ス ト に 載 っ て い な い 語 の 割 合 を 用 い た 指 標 を 提 案 し て い る . 近 年 で は , 機 械 学 習 の ア プ ロ ー チ を 適 用 し て 理 解 容 易 度 を 算 出 す る 研 究 が 広 く 行 わ れ て い る .[3]は ナ イ ー ブ ベ イ ズ 分 類 器 ,[14]は SVM を 用 い て コ ン テ ン ツ の 理 解 容 易 度 を 算 出 し て い る . こ れ ら は い ず れ も 表 層 的 な 特 徴 を 用 い て い る が ,[9]で は 構 文 木 を 用 い て 文 法 の 複 雑 さ を 考 慮 し た 手 法 を 提 案 し て い る . ま た ,[13]は 日 本 語 の コ ン テ ン ツ を 対 象 と し た 手 法 を 提 案 し て い る . ま た , コ ン テ ン ツ の 理 解 容 易 性 の 指 標 と し て , 内 容 の 一 貫 性 (cohesion) を 評 価 す る 研 究 も 広 く 行 わ れ て い る[2][12][15].[15]は コ ン テ ン ツ 中 に 出 現 す る コ ン セ プ ト を MeSH シ ソ ー ラ ス に マ ッ ピ ン グ し て 分 散 度 を 算 出 す る こ と で 内 容 の 一 貫 性 を 評 価 し て い る . 分 散 度 の 算 出 方 法 に つ い て は 本 研 究 と 同 じ 考 え 方 に 基 づ い て い る が , 本 研 究 で は コ ン セ プ ト の 専 門 度 を 評 価 す る 目 的 で 分 散 度 を 用 い て い る 点 が 異 な る .[1]は 章 構 成 を 持 っ た コ ン テ ン ツ に 対 し て , コ ン セ プ ト が 順 序 立 て て 説 明 さ れ て い る か を 評 価 す る 指 標 を 提 案 し て い る .こ れ は , 教 科 書 の よ う な 一 定 の 長 さ を 持 っ た コ ン テ ン ツ を 対 象 と し て お り , 読 者 が 理 解 し や す い よ う な 章 構 成 に な っ

(3)

て い る か ど う か を 評 価 す る も の で あ る . 外 部 知 識 を 用 い て 語 の 重 み 付 け を 行 う 手 法 と し て は[11][15]が あ る .[15]は MeSH シ ソ ー ラ ス に お け る 階 層 の 深 い 語 は 専 門 度 が 高 い と し て 語 に 重 み 付 け を 行 っ て い る .[11]は Wikipedia を 用 い た 手 法 で ,情 報 検 索 に お け る 利 用 を 想 定 し て い る . 検 索 ク エ リ に 対 し て Wikipedia の カ テ ゴ リ 構 造 を 用 い て 専 門 分 野 を 特 定 し , そ の 専 門 分 野 の 記 事 か ら の 引 用 回 数 を 用 い て 語 の 重 み 付 け を 行 っ て い る . い ず れ も , 外 部 知 識 を 用 い て 語 の 重 み 付 け を 行 い , そ れ に 基 づ い て コ ン テ ン ツ の 理 解 容 易 度 を 算 出 し て い る 点 で 本 研 究 と 類 似 し た ア プ ロ ー チ だ が , 本 研 究 で は 語 の 重 み 付 け に Wikipedia の カ テ ゴ リ グ ラ フ に お け る 分 散 度 を 用 い る 点 で 異 な っ て い る .

3. 提 案 手 法

本 章 で は ,Wikipedia 見 出 し 語 の 専 門 度 を 算 出 し ,そ れ を 基 に コ ン テ ン ツ の 専 門 度 を 算 出 す る 手 法 に つ い て 述 べ る .

3.1. Wikipedia 見 出 し 語 の 専 門 度 算 出

Wikipedia の 記 事 は ,見 出 し 語 と そ れ に 対 す る 説 明 文 に よ り 構 成 さ れ て い る . 説 明 文 に お い て 他 の 見 出 し 語 が 使 わ れ る 場 合 は , そ の 見 出 し 語 の 記 事 に ハ イ パ ー リ ン ク を 設 定 す る 形 で 引 用 さ れ る .ま た ,Wikipedia の 記 事 に は1 つ 以 上 の カ テ ゴ リ が 割 り 当 て ら れ て い る .カ テ ゴ リ 間 に は 親 子 関 係 が 規 定 さ れ て お り , カ テ ゴ リ グ ラ フ が 形 成 さ れ て い る . 提 案 手 法 は ,Wikipedia 見 出 し 語 の 専 門 度 を 算 出 す る た め に ,Wikipedia カ テ ゴ リ グ ラ フ に お け る ノ ー ド 集 合 の 分 散 度 を 用 い る . こ の 分 散 度 が 高 い ほ ど 多 様 な 分 野 と 関 連 し た 語 で あ り , 専 門 度 は 高 い と 判 定 さ れ る . 逆 に , 分 散 度 が 低 い ほ ど 特 定 の 分 野 に 偏 り の あ る 語 で あ り , 専 門 度 は 低 い と 判 定 さ れ る こ と に な る . 最 初 に , 対 象 の 見 出 し 語 の 関 連 カ テ ゴ リ 集 合 を 特 定 す る (3.1.1 節 ). 関 連 カ テ ゴ リ 集 合 は , 対 象 の 見 出 し 語 を 引 用 し て い る 記 事 が 属 し て い る カ テ ゴ リ の 集 合 と し て 規 定 さ れ る . 続 い て , カ テ ゴ リ グ ラ フ に お け る 関 連 カ テ ゴ リ 集 合 の 分 散 度 を 算 出 し , こ れ を 専 門 度 と す る (3.2.2 節 ).

3.1.1. 関 連 カ テ ゴ リ の 特 定

専 門 度 を 算 出 す る 対 象 の 見 出 し 語 を𝑡と す る .最 初 に , 見 出 し 語𝑡を 引 用 し て い る Wikipedia の 記 事 の 集 合 𝐴(𝑡) を 特 定 す る .Wikipedia の 記 事 が 見 出 し 語𝑡を 引 用 し て い る か ど う か は , 記 事 中 に 含 ま れ る ハ イ パ ー リ ン ク の リ ン ク 先 と し て 見 出 し 語𝑡が 含 ま れ て い る か ど う か を 確 認 す る こ と で 容 易 に 特 定 可 能 で あ る . 記 事 中 に 見 出 し 語 が 含 ま れ て い る に も 関 わ ら ず , ハ イ パ ー リ ン ク が 設 定 さ れ て い な い 場 合 も あ る が , 一 般 的 に 語 に は 表 記 が 同 じ で あ っ て も 意 味 が 異 な る 語 義 曖 昧 性 の 問 題 が あ り , こ れ を 解 決 す る こ と は 容 易 で は な い . ハ イ パ ー リ ン ク で あ れ ば ,見 出 し 語𝑡に 曖 昧 性 が あ る 場 合 で あ っ て も ,リ ン ク 先 が 見 出 し 語𝑡か ど う か を 確 認 す る だ け で よ い . 従 っ て , こ こ で は 記 事 中 の ハ イ パ ー リ ン ク の み を 対 象 と し て ,Wikipedia の 記 事 が 見 出 し 語𝑡を 引 用 し て い る か ど う か を 判 定 す る こ と と す る . 続 い て ,見 出 し 語𝑡を 引 用 し て い る Wikipedia の 記 事 𝑎 ∈ 𝐴(𝑡)に 対 し て , 対 応 付 け ら れ て い る カ テ ゴ リ 集 合 𝐶(𝑎)を 特 定 し , 関 連 カ テ ゴ リ 集 合 ℭ(𝑡) = {𝐶(𝑎)|𝑎 ∈ 𝐴(𝑡)} を 得 る .Wikipedia の 記 事 に は ,対 応 す る カ テ ゴ リ が 特 定 の フ ォ ー マ ッ ト で 記 載 さ れ て お り ,𝐶(𝑎)は 記 事 の 内 容 か ら 容 易 に 特 定 可 能 で あ る .一 般 に ,Wikipedia の 記 事 に は 複 数 の カ テ ゴ リ が 付 与 さ れ て お り , そ れ ら は 関 連 性 が 高 い 順 に 順 序 付 け が な さ れ て い る よ う に 見 え る . し か し , そ こ に は 編 集 者 の 主 観 が 含 ま れ 得 る た め , こ こ で は 全 て の カ テ ゴ リ を 同 等 な も の と し て 取 扱 う こ と と す る .

図 2 に , Wikipedia 見 出 し 語 “ Hooke’s law” に 対 す る 関 連 カ テ ゴ リ 集 合 の 特 定 例 を 示 す .Hooke’s law は Spring, Material mechanics, Potential energy な ど の 記 事 か ら 引 用 さ れ て い る .そ し て こ れ ら の 記 事 は ,spring, applied mechanics,potential energy の カ テ ゴ リ に 属 し て お り , こ れ が 関 連 カ テ ゴ リ 集 合 と な る .

(4)

3.1.2. 関 連 カ テ ゴ リ の 分 散 度 の 算 出

関 連 カ テ ゴ リ 集 合 の 分 散 度 を 算 出 す る 準 備 と し て , Wikipedia カ テ ゴ リ グ ラ フ𝐺 = (𝐶, 𝐸)を 定 義 す る .こ こ で , 𝐶は カ テ ゴ リ の ノ ー ド 集 合 ,𝐸は カ テ ゴ リ の 親 子 関 係 を 表 す 有 向 辺 の 集 合 で あ る .Wikipedia に お い て ,親 カ テ ゴ リ は 子 カ テ ゴ リ を 包 含 す る よ り 抽 象 度 の 高 い カ テ ゴ リ と な る よ う に 親 子 関 係 が 定 め ら て お り , 原 則 と し て 閉 路 は 存 在 し な い .( 実 際 に は ご く わ ず か で は あ る が 閉 路 が 存 在 す る . し か し , そ れ ら は 編 集 者 の ミ ス に よ る も の で あ り ,本 来 は 存 在 す べ き で な い も の で あ る .)ま た , 各 カ テ ゴ リ は 複 数 の 親 カ テ ゴ リ を 持 つ こ と が で き る た め ,𝐺は DAG( Directed Acyclic Graph, 有 向 非 巡 回 グ ラ フ ) と み な す こ と が で き る .

𝐺 に お け る カ テ ゴ リ の 組 𝑐!, 𝑐!∈ 𝐶 に 対 す る 距 離

𝑑𝑖𝑠𝑡(𝑐!, 𝑐!)は 次 式 で 定 義 さ れ る .

𝑑𝑖𝑠𝑡(𝑐!, 𝑐!) = 𝑑𝑖𝑠𝑡(𝑐!, 𝑙𝑐𝑎(𝑐!, 𝑐!)) + 𝑑𝑖𝑠𝑡(𝑐!, 𝑙𝑐𝑎(𝑐!, 𝑐!))

こ こ で ,𝑙𝑐𝑎(𝑐!, 𝑐!)は 𝐺に お け る 𝑐!, 𝑐!の LCA( Last Common

Ancestor,最 近 共 通 祖 先 )で あ る .こ れ を 用 い て ,𝐺に お け る カ テ ゴ リ 集 合 の 組𝐶!, 𝐶!⊆ 𝐶 に 対 す る 距 離 𝑑𝑖𝑠𝑡(𝐶!, 𝐶!)は 次 式 で 定 義 さ れ る . 𝑑𝑖𝑠𝑡(𝐶!, 𝐶!) =! min !∈!!,!!∈!!𝑑𝑖𝑠𝑡(𝑐!, 𝑐!) カ テ ゴ リ グ ラ フ𝐺に お い て ,関 連 カ テ ゴ リ 集 合 ℭ(𝑡)の 分 散 度𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)は 以 下 の よ う に 算 出 さ れ る . 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) = !"# !"" !"#$% !" (!!,!!) !" ℭ(!)𝑑𝑖𝑠𝑡(𝐶!, 𝐶!) 𝑁𝑢𝑚𝑏𝑒𝑟𝑂𝑓𝑃𝑎𝑖𝑟𝑠(ℭ(𝑡)) こ こ で , 𝑁𝑢𝑚𝑏𝑒𝑟𝑂𝑓𝑃𝑎𝑖𝑟𝑠(ℭ(𝑡)) =|ℭ(𝑡)|(|ℭ(𝑡)| − 1) 2 で あ る .𝑁𝑢𝑚𝑏𝑒𝑟𝑂𝑓𝑃𝑎𝑖𝑟𝑠(ℭ(𝑡))は ,見 出 し 語 𝑡を 引 用 し て い る 記 事 数 の 組 合 せ 数 で あ る た め , 場 合 に よ っ て は 膨 大 な 計 算 時 間 が 必 要 に な る が , あ る 程 度 正 確 な 値 が 算 出 さ れ て い れ ば 十 分 で あ り , 厳 密 な 値 を 求 め る こ と に そ れ ほ ど の 重 要 性 は な い .そ こ で ,見 出 し 語𝑡を 引 用 し て い る 記 事 数 が あ る 閾 値𝜃を 超 え た 場 合 は , ラ ン ダ ム サ ン プ リ ン グ さ れ たℭ(𝑡)の 部 分 集 合 を 用 い て 計 算 時 間 を 削 減 す る こ と も 考 え ら れ る .

3.2. コ ン テ ン ツ の 専 門 度 算 出

Wikipedia 見 出 し 語 の 専 門 度 を 元 に ,コ ン テ ン ツ の 専 門 度 を 算 出 す る . 最 初 に , コ ン テ ン ツ に 出 現 す る 見 出 し 語 を 全 て 抽 出 す る . こ れ を コ ン セ プ ト 集 合 と 呼 ぶ こ と に す る . 続 い て , コ ン テ ン ツ の 専 門 度 が よ り 適 切 に 算 出 さ れ る よ う に , コ ン セ プ ト 集 合 に 対 し て フ ィ ル タ リ ン グ を 行 う (3.2.1 節 ). そ し て , こ の フ ィ ル タ リ ン グ さ れ た コ ン セ プ ト 集 合 を 元 に コ ン テ ン ツ の 専 門 度 を 算 出 す る (3.2.2 節 ).

3.2.1. コ ン セ プ ト 集 合 の フ ィ ル タ リ ン グ

専 門 度 を 算 出 す る コ ン テ ン ツ𝑑に 出 現 す る 全 て の 見 出 し 語 の 集 合 を コ ン セ プ ト 集 合𝑇!(𝑑)と す る .コ ン テ ン ツ の 専 門 度 が よ り 適 切 に 算 出 さ れ る よ う に , 以 下 の 2 つ の 指 標 に よ る フ ィ ル タ リ ン グ を 行 う . • 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) 専 門 度 の 高 い コ ン テ ン ツ で あ っ て も , 一 定 の 割 合 で 専 門 度 の 低 い コ ン セ プ ト , す な わ ち 一 般 語 が 含 ま れ て い る . コ ン テ ン ツ の 専 門 度 を 算 出 す る 際 に は , そ の コ ン テ ン ツ 中 に 含 ま れ る コ ン セ プ ト か ら 一 般 語 を フ ィ ル タ リ ン グ し て , 専 門 度 の 高 い コ ン セ プ ト を 重 要 視 す る こ と に よ り , コ ン テ ン ツ の 専 門 度 の 差 を よ り 際 立 た せ る 効 果 が 期 待 で き る . • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 見 出 し 語𝑡を 引 用 し て い る Wikipedia の 記 事 数 |𝐴(𝑡)| を 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) と す る . 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) の 低 い 語 は , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 計 算 に お い て ,少 数 の カ テ ゴ リ ノ ー ド の み を 用 い て カ テ ゴ リ グ ラ フ の 分 散 度 を 算 出 し て い る . こ の よ う な ケ ー ス で は , 引 用 し た 記 事 が た ま た ま カ テ ゴ リ グ ラ フ 上 で 離 れ た カ テ ゴ リ に 属 し て い る , ま た は そ の 逆 の ケ ー ス が あ り う る た め , 算 出 さ れ た 専 門 度 の 信 頼 性 が 低 い と 考 え ら れ る . こ の よ う な コ ン セ プ ト を フ ィ ル タ フ ィ ン グ す る こ と に よ り , よ り 信 頼 性 の 高 い コ ン テ ン ツ の 専 門 度 が 得 ら れ る 効 果 が 期 待 さ れ る . こ れ ら の 指 標 を 用 い て , コ ン テ ン ツ 中 に 出 現 す る コ ン セ プ ト の フ ィ ル タ リ ン グ を 行 う . フ ィ ル タ リ ン グ の 際 に は , 各 コ ン テ ン ツ に お け る コ ン セ プ ト の 指 標 の パ ー セ ン タ イ ル に 対 し て 閾 値 を 設 定 す る . 指 標 の 値 に 対 し て 閾 値 を 設 定 し な い 理 由 は ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)に よ る フ ィ ル タ リ ン グ の 際 に , そ の よ う に す る こ と で 専 門 度 の 低 い コ ン テ ン ツ に お い て 多 く の 語 が 除 外 さ れ て し ま う 恐 れ が あ る た め で あ る .𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡),𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の パ ー セ ン タ イ ル に 対 し て そ れ ぞ れ 閾 値𝛼,𝛽を 設 定 し ,フ ィ ル タ リ ン グ さ れ た コ ン セ プ ト 集 合𝑇!(𝑑, 𝛼, 𝛽) ⊆ 𝑇!(𝑑)を 得 る . 𝑇!(𝑑, 𝛼, 𝛽) = {𝑡|𝑡 ∈ 𝑇!(𝑑) ∧ 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡), 𝑇!(𝑑)) < 𝛼 ∧ 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡), 𝑇!(𝑑)) > 𝛽} 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝑓(𝑥), 𝑋)は , 集 合 𝑋に お け る 要 素 𝑥 ∈ 𝑋が 値 𝑓(𝑥) を 取 る 時 の𝑥の パ ー セ ン タ イ ル で あ り ,次 式 で 定 義 さ れ る . 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙𝑒(𝑓(𝑥), 𝑋) =𝑅𝑎𝑛𝑘(𝑓(𝑥)) |𝑋| ×100 𝑅𝑎𝑛𝑘(𝑓(𝑥))は 集 合 𝑋に お い て 𝑓(𝑥)の 値 を 昇 順 に ソ ー ト し た 時 の𝑥の 順 位 で あ る .

3.2.2. コ ン テ ン ツ の 専 門 度 算 出

フ ィ ル タ リ ン グ さ れ た コ ン セ プ ト 集 合𝑇!(𝑑, 𝛼, 𝛽)を 用 い て , コ ン テ ン ツ の 専 門 度 を 算 出 す る . 提 案 手 法 で あ

(5)

る𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) に 基 づ く コ ン テ ン ツ の 専 門 度 を , Category Dispersion Average (𝐶𝐷𝐴)と 呼 ぶ .𝐶𝐷𝐴は コ ン セ プ ト 集 合 の 平 均 と し て 定 義 さ れ , 次 式 に よ り 算 出 さ れ る . 𝐶𝐷𝐴(𝑇!(𝑑, 𝛼, 𝛽)) = 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) !∈!!(!,!,!) |𝑇!(𝑑, 𝛼, 𝛽)|

4. 評 価 実 験

提 案 手 法 の 評 価 を 行 う た め に , 次 の 2 つ の 項 目 に つ い て 評 価 実 験 を 行 っ た . (1) Wikipedia 見 出 し 語 の 専 門 度 の 評 価 ( 4.1 節 ) 3.1 節 で 述 べ た 方 法 で 算 出 さ れ た Wikipedia 見 出 し 語 の 専 門 度𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)に つ い て , そ の 特 徴 を 評 価 す る . (2) コ ン テ ン ツ の 専 門 度 の 評 価 ( 4.2 節 ) 3.2 節 で 述 べ た 方 法 で 算 出 さ れ た コ ン テ ン ツ の 専 門 度 に つ い て , 学 年 ラ ベ ル が 付 与 さ れ た 教 育 コ ン テ ン ツ を 用 い て 評 価 を 行 う . 本 実 験 で は ,2015 年 5 月 15 日 の 時 点 で 最 新 の 英 語 版 Wikipedia の デ ー タ ベ ー ス ダ ン プ を 用 い た . ま た , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 計 算 に お い て ,引 用 し て い る 記 事 数 が 多 い 場 合 に ラ ン ダ ム サ ン プ リ ン グ を 行 う 閾 値 は𝜃 = 20と し た .

4.1. Wikipedia 見 出 し 語 の 専 門 度 の 評 価

4.1.1. 実 験 の 概 要

提 案 手 法 に よ り 算 出 さ れ た 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)に つ い て , そ の 特 徴 を 評 価 す る . 比 較 対 象 と し て は ,Wikipedia に お け る 見 出 し 語𝑡の 引 用 回 数 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を 用 い た . 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)は , 見 出 し 語 の 出 現 頻 度 そ の も の で は な い も の の , 出 現 頻 度 と 密 接 に 関 連 し た 指 標 で あ り , 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 大 き く な る ほ ど 見 出 し 語 の 専 門 度 は 低 く な る こ と が 期 待 さ れ る .Wikipedia に お け る 引 用 回 数 を ベ ー ス に し た ア プ ロ ー チ は , 既 存 研 究[11]に お い て も 採 用 さ れ て お り , 見 出 し 語 の 専 門 度 を 測 る た め の 一 般 的 な 指 標 で あ る と 考 え ら れ る . は じ め に , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) と , 比 較 対 象 で あ る 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の 2 つ の 指 標 の 間 の 関 係 性 に つ い て 調 査 す る (4.1.2 節 ). そ し て , そ れ ぞ れ の 指 標 に お い て 専 門 度 が 高 い , あ る い は 低 い と 判 断 さ れ た 語 を 確 認 す る こ と で ,提 案 手 法 で あ る𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)を 専 門 度 の 指 標 と し て の 妥 当 性 を 評 価 す る (4.1.3 節 ).

4.1.2.

𝑫𝒊𝒔𝒑𝒆𝒓𝒔𝒊𝒐𝒏(𝒕)と 𝑰𝒏𝒅𝒆𝒈𝒓𝒆𝒆(𝒕)の 関 係 性

物 理 学 に 関 す る 774 の Wikipedia 見 出 し 語 を 対 象 と し て ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の 関 係 性 を 調 査 し た . 見 出 し 語 の 選 定 に つ い て は , 物 理 学 カ テ ゴ リ を 起 点 と し て サ ブ カ テ ゴ リ を 探 索 し , 物 理 学 に 関 連 す る カ テ ゴ リ を 特 定 し た . そ し て , そ れ ら の カ テ ゴ リ に 属 す る 見 出 し 語 の う ち ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が 算 出 可 能 な 引 用 回 数 が 2 以 上 の も の を 対 象 と し た . 図 3 に ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)の 関 係 を 示 す .こ の 図 か ら , こ れ ら の 指 標 の 間 に は 正 の 相 関 が 認 め ら れ る も の の ,相 関 係 数 は𝑅!= 0.01178で あ り ,ほ ぼ 独 立 し た 値 を 取 る 指 標 で あ る こ と が 分 か る . ま た , こ の 図 か ら𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) が 小 さ い 時 に は 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の ば ら つ き が 大 き い こ と が 分 か る .こ れ は , 少 数 の カ テ ゴ リ ノ ー ド の み を 用 い て𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) を 算 出 し て い る た め , 安 定 し た 結 果 が 得 ら れ て い な い こ と が 原 因 で あ る と 考 え ら れ る . よ っ て , コ ン テ ン ツ の 専 門 度 を 算 出 す る 際 に は , こ の よ う な 語 を 除 外 す る た め に ,3.2.1 節 で 述 べ た よ う な フ ィ ル タ リ ン グ が 重 要 で あ る こ と が 確 認 で き る . 図 3. Wikipedia に お け る 引 用 回 数𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)と 提 案 手 法𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 関 係

4.1.3.

𝑫𝒊𝒔𝒑𝒆𝒓𝒔𝒊𝒐𝒏(𝒕)の 妥 当 性 評 価

そ れ ぞ れ の 指 標 に お い て ど の よ う な 見 出 し 語 が 専 門 度 の 高 い , あ る い は 低 い 語 と し て 特 定 さ れ た か を 具 体 的 に 示 す こ と で ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 専 門 度 を 表 す 指 標 と し て の 妥 当 性 を 評 価 す る .こ こ で は ,4.1.2 節 で 議 論 し た よ う に , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) の 値 が 安 定 し て い る , 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 50 よ り 大 き い 見 出 し 語 を 対 象 と し て い る . • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 高 い 見 出 し 語 表 1 に ,𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 高 い , す な わ ち 既 存 の 指 標 に お い て 専 門 度 が 低 い と 判 断 さ れ た 見 出 し 語 の 上 位 10 語 を 示 す . い ず れ も 物 理 学 の 高 度 な 専 門 書 で な く て も 目 に す る よ う な 語 で あ る . こ こ で𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が 低 い “string theory( 弦 理 論 )” に 着 目 す る .“ string theory” は 物 理 学 に お け る 分 野 の 名 称 だ が , 種 々 の 分 野 の 総 称 で あ る “mechanics( 力 学 )” よ り も 近 年 に 研 究 が 発 達 し た 専 門 性 の 高 い 分 野 で あ る . 引 用 回 数 と し て は “string theory”と“ mechanics”は 同 程 度 だ が ,引 用 さ れ る 記 事 の カ テ ゴ リ の 分 散 度 が 大 き く 異 な っ て い る こ と を 示 し て い る .こ れ ら の𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が 低 い 語 は ,限 ら れ た 分 野 の 記 事 に お い て 言 及 さ れ て お り , 他 の 語 と

(6)

比 較 し て 専 門 度 は 相 対 的 に 高 い と 言 え る .提 案 手 法 は , こ の よ う に 引 用 回 数 の み か ら は 分 か ら な い , 特 定 の カ テ ゴ リ の 記 事 か ら 偏 っ て 引 用 さ れ て い る よ う な 見 出 し 語 を 特 定 す る こ と が で き る . • 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が 高 い 見 出 し 語 表2 に ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が 高 い ,す な わ ち 提 案 手 法 に よ り 専 門 度 が 低 い と 判 定 さ れ た 見 出 し 語 の 上 位 10 語 を 示 す . 表 1 と 比 較 す る と , 物 理 現 象 に 関 す る も の が 多 い の が 特 徴 的 で あ る . こ れ ら の 語 は , あ ら ゆ る 分 野 の 記 事 に お い て 一 般 的 な 物 理 現 象 を 説 明 す る 際 に 使 わ れ る た め ,カ テ ゴ リ の 分 散 度 が 高 く な っ た と 考 え ら れ る . こ れ ら の 語 は , 引 用 回 数 こ そ 多 く は な い が , 一 般 に 広 く 用 い ら れ て い る 語 で あ る . 提 案 手 法 は , こ の よ う に 引 用 回 数 は 決 し て 多 く は な い が , 幅 広 い 分 野 の 記 事 か ら 引 用 さ れ る よ う な 語 を , 専 門 度 の 低 い 語 と し て 特 定 す る こ と が で き る . 続 い て ,𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)が 50 か ら 100 の 間 に あ る 見 出 し 語 に 対 し て ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 値 が 高 い ,あ る い は 低 い も の を 確 認 す る . こ れ ら の 見 出 し 語 は ,𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を 専 門 度 の 指 標 と し た 場 合 , い ず れ も 専 門 度 が 高 い と 判 定 さ れ る よ う な 語 で あ る . こ れ ら の 語 に お い て も , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)に よ れ ば 専 門 度 に は 大 き な 差 が 存 在 す る . • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)と 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)の 両 方 が 高 い 見 出 し 語 表3 に , 引 用 回 数 が 少 な く , 提 案 手 法 に よ る 専 門 度 が 高 い 見 出 し 語 の 上 位 10 語 を 示 す . 全 体 的 に , 素 粒 子 物 理 学 な ど の 基 礎 研 究 に 関 連 す る 語 が 中 心 で , 高 度 な 専 門 書 で な け れ ば 言 及 さ れ な い よ う な 語 で 占 め ら れ て い る . 一 般 の 読 者 を 対 象 に し た 新 聞 や 雑 誌 で こ れ ら の 語 を 見 か け る こ と は 極 め て 稀 で あ り , 専 門 度 が 高 い 語 で あ る と 言 え る . • 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)は 低 い が 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)が 高 い 見 出 し 語 表4 に , 引 用 回 数 は 少 な い が , 提 案 手 法 に よ る 専 門 度 が 低 い 見 出 し 語 の 上 位 10 語 を 示 す . 全 体 的 な 特 徴 と し て , 表 2 と 同 じ く 物 理 現 象 に 関 す る 見 出 し 語 が 多 く 見 ら れ る . 表1 や 表 2 と 比 較 す る と , 一 般 に 広 く 用 い ら れ て い る と は 言 い 難 い 語 も 含 ま れ る が , 物 理 学 の 高 度 な 専 門 書 で な く て も , 身 の 回 り の 物 理 現 象 を 説 明 す る た め に 使 用 さ れ 得 る 語 で あ る . 物 理 学 に 精 通 し て い な く て も , 意 味 を 表 面 的 に 理 解 す る こ と は 可 能 で あ り , 少 な く と も , 表3 の よ う な 語 と 比 較 し た 時 に , 相 対 的 に 専 門 度 は 低 い と 言 え る . こ の よ う に , 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を 専 門 度 の 指 標 と し た 場 合 に , い ず れ も 専 門 度 が 同 程 度 に 高 い と 判 定 さ れ る よ う な 語 に お い て も ,実 際 に は 専 門 度 に 差 が 存 在 し て い る . 提 案 手 法 に よ っ て , こ れ ら の 専 門 度 を よ り 適 切 に 算 出 で き る こ と が 期 待 さ れ る . 表 1. Wikipedia に お け る 引 用 回 数 の 多 い 見 出 し 語 上 位 10 語 見 出 し 語 日 本 語 訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) physics 物 理 学 8610 6.53 particle physics 素 粒 子 物 理 学 1361 6.14 plasma プ ラ ズ マ 1270 7.04 electronvolt 電 子 ボ ル ト 878 6.18 electric charge 電 荷 877 4.64 cosmic ray 宇 宙 線 866 5.99 mechanics 力 学 756 7.18 aurora オ ー ロ ラ 750 6.42 turbulence 乱 流 682 7.72 string theory 弦 理 論 649 4.06 表 2. 提 案 手 法 に よ り 専 門 度 が 低 い と 判 定 さ れ た 見 出 し 語 上 位 10 語 見 出 し 語 日 本 語 訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) ablation 切 除 253 7.74 turbulence 乱 流 682 7.72 mechanics 力 学 756 7.18 plasma プ ラ ズ マ 1270 7.04 molecular physics 分 子 物 理 学 99 6.75 corona コ ロ ナ 55 6.72 physics 物 理 学 8610 6.53 laser ablation レ ー ザ ー 切 除 77 6.53 scattering 散 乱 369 6.47 solar flare 太 陽 フ レ ア 335 6.46 表 3. Wikipedia に お け る 引 用 回 数 が 50 か ら 100 の 間 で ,提 案 手 法 に よ り 専 門 度 が 高 い と 判 定 さ れ た 見 出 し 語 上 位 10 語 見 出 し 語 日 本 語 訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) position and momentum space 位 置 空 間 と 運 動 量 空 間 62 2.81 strangeness ス ト レ ン ジ ネ ス 68 3.18 barn (unit) バ ー ン( 単 位 ) 83 3.33 kaluza-klein theory カ ル ツ ァ = ク ラ イ ン 理 論 80 3.61 isospin ア イ ソ ス ピ ン 94 3.65 qcd matter QCD 物 質 56 3.65 chirality (physics) カ イ ラ リ テ ィ 73 3.88 debye length デ バ イ の 長 さ 61 4.10 baryon number バ リ オ ン 数 74 4.14 gauge boson ゲ ー ジ 粒 子 81 4.19

(7)

表 4. Wikipedia に お け る 引 用 回 数 が 50 か ら 100 の 間 で ,提 案 手 法 に よ り 専 門 度 が 低 い と 判 定 さ れ た 見 出 し 語 上 位 10 語 見 出 し 語 日 本 語 訳 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡) molecular physics 分 子 物 理 学 99 6.75 corona コ ロ ナ 55 6.72 laser ablation レ ー ザ ー 切 除 77 6.53 ultra-high-ene

rgy cosmic ray 超 高 エ ネ ルギ ー 宇 宙 線 51 6.41

wake turbulence 後 方 乱 気 流 72 6.39 clear-air turbulence 晴 天 乱 気 流 54 6.38 astrophysical jet 宇 宙 ジ ェ ッ ト 90 6.34 synchrotron light source 放 射 光 62 6.20 power density 電 力 密 度 86 6.18 electric discharge 放 電 71 5.88

4.2. コ ン テ ン ツ の 専 門 度 の 評 価

4.2.1. 実 験 の 概 要

提 案 手 法 に よ り , コ ン テ ン ツ の 専 門 度 が 他 の 指 標 と 比 較 し て よ り 適 切 に 算 出 さ れ る か を 評 価 す る . 本 研 究 で は , よ り 客 観 的 な 評 価 を 行 う た め に , 中 学 校 と 高 等 学 校 の 数 学 の 学 習 コ ン テ ン ツ を 用 い た . コ ン テ ン ツ に は 学 年 ラ ベ ル が 付 与 さ れ て お り , こ れ を 専 門 度 の 目 安 と し て 評 価 を 行 う . こ こ で , 学 年 ラ ベ ル は コ ン テ ン ツ の 専 門 度 を あ る 程 度 表 し て い る と は い え , あ く ま で 目 安 で あ る こ と に 注 意 す る . そ の 理 由 は , 同 じ 学 年 の コ ン テ ン ツ で あ っ て も , 基 礎 か ら 応 用 的 な 内 容 が 混 在 し て お り , 必 ず し も 学 年 ラ ベ ル が 専 門 度 を 正 確 に 表 し て い る と は 限 ら な い た め で あ る . ま た , 科 目 が 数 学 に 限 定 さ れ て い る と は い え , そ の 中 に も 解 析 学 , 代 数 学 , 幾 何 学 な ど 複 数 の 分 野 が 存 在 し て お り , 異 な る 分 野 間 で は 専 門 度 を 一 元 的 に 比 較 す る こ と は 難 し い . 例 え ば , 人 手 に よ り 三 平 方 の 定 理 と 正 弦 定 理 に つ い て の 学 習 コ ン テ ン ツ の 専 門 度 を 比 較 す る 場 合 に , 多 く の 人 が 正 弦 定 理 の 専 門 度 の 方 が 高 い と 判 断 す る 一 方 で , 三 平 方 の 定 理 と 順 列 組 合 せ の 比 較 に つ い て は , 判 断 が 分 か れ る こ と が 予 想 さ れ る . 以 上 の 理 由 に よ り , コ ン テ ン ツ の 学 年 ラ ベ ル を 用 い た 評 価 は , 複 数 の 指 標 間 の 相 対 評 価 を 目 的 と し て 実 施 す る も の で あ り , 学 年 ラ ベ ル 当 て の 精 度 を 評 価 す る た め で は な い . 評 価 用 の 学 習 コ ン テ ン ツ は , 米 国 に お い て 作 成 さ れ た 数 学 の テ キ ス ト で ,学 年 ラ ベ ル は6 か ら 12 の 7 段 階 が 付 与 さ れ て お り , こ れ ら は お お よ そ 日 本 に お け る 中 学 校 と 高 等 学 校 に 相 当 す る . 評 価 に 使 用 し た コ ン テ ン ツ 数 は104で あ る . 提 案 手 法 に つ い て は , コ ン セ プ ト 集 合 の フ ィ ル タ リ ン グ を 行 わ な い𝐶𝐷𝐴(𝑇!(𝑑))と , フ ィ ル タ リ ン グ を 行 っ た𝐶𝐷𝐴(𝑇!(𝑑, 𝛼, 𝛽))に つ い て 評 価 を 行 っ た .ま た ,フ ィ ル タ リ ン グ の た め の パ ラ メ ー タ は , 予 備 実 験 に よ り , 𝛼 = 40,𝛽 = 10と し て い る .比 較 対 象 の ベ ー ス ラ イ ン の 指 標 と し て は ,Concept Density (𝐶𝐷),Concept In-degree Average (𝐶𝐼𝐴)を 用 い た . 𝐶𝐷(𝑑) = |𝑇(𝑑)| 𝑊𝑜𝑟𝑑𝐶𝑜𝑢𝑛𝑡(𝑑) 𝐶𝐼𝐴(𝑇!(𝑑)) = 𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡) !∈!!(!) |𝑇!(𝑑)| 𝐶𝐷は 語 の 専 門 度 を 考 慮 し な か っ た 場 合 , 𝐶𝐼𝐴は 語 の 専 門 度 に𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を 用 い た 場 合 に 相 当 す る . コ ン テ ン ツ に 対 し て こ れ ら の 指 標 を 算 出 し , 学 年 ラ ベ ル と 各 指 標 の 間 の ス ピ ア マ ン の 順 位 相 関 係 数 に よ る 評 価 を 行 う .

4.2.2. 結 果

表 5 に 各 指 標 に よ る コ ン テ ン ツ の 専 門 度 と 学 年 ラ ベ ル と の 相 関 を 表 す ス ピ ア マ ン の 順 位 相 関 係 数 を 示 す . 提 案 手 法 の 相 関 係 数 は 負 の 値 を 取 っ て い る の は , 𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と 専 門 度 が 負 の 相 関 関 係 に あ る た め で あ り , 意 図 し た 通 り の 結 果 で あ る . 一 方 ,𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)を ベ ー ス に し た 指 標𝐶𝐼𝐴(𝑇!(𝑑))に つ い て も ,専 門 度 と 負 の 相 関 に な る と 期 待 し て い た が , 実 際 に は 相 関 係 数 は 正 の 値 と な っ た . ま た , 提 案 手 法 に お い て は , コ ン セ プ ト の フ ィ ル タ フ ィ ン グ を 行 う こ と で 相 関 度 合 い が 向 上 し , フ ィ ル タ リ ン グ の 有 効 性 が 確 認 さ れ た . 表 5. コ ン テ ン ツ の 専 門 度 指 標 と 学 年 ラ ベ ル の 相 関 コ ン テ ン ツ の 専 門 度 指 標 ス ピ ア マ ン の 順 位 相 関 係 数 𝐶𝐷(𝑑) 0.146 𝐶𝐼𝐴(𝑇!(𝑑)) 0.319 𝐶𝐷𝐴(𝑇!(𝑑))( 提 案 手 法 ) −0.531 𝐶𝐷𝐴(𝑇!(𝑑, 𝛼, 𝛽))( 提 案 手 法 ) −0.584

5. お わ り に

本 稿 で は ,Wikipedia カ テ ゴ リ グ ラ フ に お け る 分 散 度 を 用 い た 見 出 し 語 の 専 門 度 算 出 手 法 を 提 案 し た . そ れ と 併 せ て , 見 出 し 語 の 専 門 度 に 基 づ き コ ン テ ン ツ の 専 門 度 を 算 出 す る 手 法 を 示 し た . 評 価 実 験 で は , 提 案 手 法 に よ っ て 算 出 さ れ たWikipedia 見 出 し 語 の 専 門 度 と , コ ン テ ン ツ の 専 門 度 の 評 価 を 行 っ た . 見 出 し 語 の 専 門 度 の 評 価 で は , 従 来 用 い ら れ て き た 専 門 度 指 標 で は 同 程 度 の 専 門 度 と な る よ う な 見 出 し 語 に つ い て も , 実 際 に は 専 門 度 に 大 き な 差 が あ り , 提 案 手 法 に よ っ て そ れ ら を 弁 別 で き る こ と を 示 し た . コ ン テ ン ツ の 専 門 度 の 評 価 で は , 学 年 ラ ベ ル が 付 与 さ れ た 数 学 の テ キ ス ト を 用 い た 評 価 を 行 い , 提 案 手 法 に よ り 算 出 さ れ た 専 門 度

(8)

は , ベ ー ス ラ イ ン と 比 較 し て コ ン テ ン ツ の 学 年 ラ ベ ル と よ り 強 い 相 関 を 示 す こ と を 確 認 し た . 今 後 の 課 題 と し て は ,𝐷𝑖𝑠𝑝𝑒𝑟𝑠𝑖𝑜𝑛(𝑡)と 他 の 指 標 を 組 み 合 わ せ る こ と で , よ り 適 切 に 専 門 度 が 算 出 で き る よ う に す る こ と が 挙 げ ら れ る . 本 稿 に お い て 比 較 対 象 と し た𝐼𝑛𝑑𝑒𝑔𝑟𝑒𝑒(𝑡)は , 提 案 手 法 と は 異 な る 観 点 で の 語 に 対 す る 重 み 付 け で あ り ,組 み 合 わ せ の 有 力 な 候 補 で あ る . ま た , 評 価 実 験 に つ い て , ユ ー ザ ー に よ る 主 観 評 価 も 併 せ て 検 討 し て い く 必 要 が あ る と 考 え る .

参 考 文 献

[1] R. Agrawal, S. C h a k r a b o r t y , S . G o l l a p u d i , A . K a n n a n , a n d K . K e n t h a p a d i . "Empowering authors to diagnose comprehension burden in textbooks." Proceedings of SIGKDD, 2012.

[2] R. Barzilay and M. Lapata. “Modeling local coherence: An entity-based approach.” Computational Linguistics, 34(1):1–34, 2008. [3] K. Collins‐Thompson, and J. Callan. " A L a n g u a g e

M o d e l i n g A p p r o a c h t o P r e d i c t i n g R e a d i n g D i f f i c u l t y . " Proceedings o f N A A C L - H L T , 2 0 0 4 . [4] E. Dale, and J.S. Chall. "A formula for predicting

readability." Educational research bulletin, 1948. [5] W.H. DuBay. "The Principles of Readability." Impact

Information, 2004.

[ 6 ] R . F l e s c h . " A n e w r e a d a b i l i t y y a r d s t i c k . " J o u r n a l o f A p p l i e d P s y c h o l o g y 3 2 , 1 9 4 8 .

[7] W.S. Gray, and B.E. Leary. "What makes a book readable." Chicago University Press, 1935.

[8] J.P. Kincaid, R.P. F i s h b u r n e , R . L . R o g e r s , a n d B . S . C h i s s o m . “Derivation of new readability formulas.” Technical Report, Naval Technical Training, 1975.

[9] M.J. Heilman, K. Collins‐Thompson, J. Callan, and M. Eskenazi. "Combining lexical and grammatical features to improve readability measures for first and second language texts." Proceedings of NAACL-HLT, 2007.

[10] G.H. McLaughlin. "SMOG grading: A new readability formula." Journal of reading 12.8, 1969. [11] M. Nakatani, A. Jatowt, and K. Tanaka. "Easiest-first

search: towards comprehension-based web search." Proceedings of CIKM, 2009.

[12] E. Pitler, and A. Nenkova. "Revisiting readability: A unified framework for predicting text quality." Proceedings of EMNLP, 2008.

[13] S. Sato, S. Matsuyoshi, and Y. Kondoh. "Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus." Proceedings of LREC, 2008. [14] S.E. Schwarm, and M. Ostendorf. "Reading level

assessment using support vector machines and statistical language models." Proceedings of ACL, 2005.

[15] X. Yan, D. Song, and X. Li. "Concept-based document readability in domain specific information retrieval." Proceedings of CIKM, 2006.

図 2. Wikipedia 見 出 し 語 “ Hooke’s law ” に 対 す る 関 連 カ テ ゴ リ 集 合 の 特 定 例
表 4.  Wikipedia に お け る 引 用 回 数 が 50 か ら 100 の 間 で ,提 案 手 法 に よ り 専 門 度 が 低 い と 判 定 さ れ た 見 出 し 語 上 位 10 語 見 出 し 語 日 本 語 訳

参照

関連したドキュメント

また、2020 年度第 3 次補正予算に係るものの一部が 2022 年度に出来高として実現すると想定したほ

&#34;A matroid generalization of the stable matching polytope.&#34; International Conference on Integer Programming and Combinatorial Optimization (IPCO 2001). &#34;An extension of

OPTIMAL PROBLEMS WITH DISCONTINUOUS INITIAL CONDITION.. systems governed by quasi-linear neutral differential equations with dis- continuous initial condition is considered.

The derivation of these estimates is essentially based on our previously obtained stochastic a priori estimates for Snell en- velopes and on the connection between the optimal

[r]

Rumsey, Jr, &#34;Alternating sign matrices and descending plane partitions,&#34; J. Rumsey, Jr, &#34;Self-complementary totally symmetric plane

日本語で書かれた解説がほとんどないので , 専門用 語の訳出を独自に試みた ( たとえば variety を「多様クラス」と訳したり , subdirect

Guasti, Maria Teresa, and Luigi Rizzi (1996) &#34;Null aux and the acquisition of residual V2,&#34; In Proceedings of the 20th annual Boston University Conference on Language