DEIM Forum 2016 P2-5
音楽記事中のアーティスト名を対象としたエンティティリンキング
浦田 智昭 前田 亮
立命館大学情報理工学部 〒525-8577 滋賀県草津市野路東 1-1-1
E-mail: [email protected], [email protected]
あらまし 音楽情報を取得するために,Web 上で音楽記事やブログを読む機会が増えてきている.しかし,文書中に出現し たアーティストに読者が興味を持ち,詳しい情報を知りたいと思っても,アーティストに関する情報へのリンクが 存在しない場合が多く,Google などの検索エンジンで逐一調べるのは面倒である.そこで本研究では,読者が文書 中に出現するアーティストの情報を検索する負担を軽減させるために,文書中に出現するアーティスト名などのエ ンティティを抽出し,そのアーティスト情報を得ることができる Web サイトと自動リンクするエンティティリン キングの手法を提案する.本手法は2 つの手順に分けられる.1 つ目は,アーティスト名の抽出である.アーティ スト名は固有名詞であり,ほかの固有名詞と差別化しアーティスト名の抽出を行う必要があるので,あらかじめ音 楽記事から学習データを用意し,Support Vector Machine による機械学習を用いてアーティスト名の抽出を行う. 2 つ目は,アーティストに関連する Web サイトの選択である.また,アーティストの関連リンクは,Wikipedia 記 事へのリンクを使用する.提案手法の有効性を検証するため,日本語の音楽記事 35 件に対して手動でアーティス ト名を抽出したものを正解データとして,交差検定による評価実験を行った.再現率が0.2788,適合率が 0.7530, F 値が 0.4070 となった.また,音楽記事 10 件に対し Wikipedia の記事タイトルとの編集距離を求め正解記事をリ ンクする実験を行い,正解率は0.8740 となった. キーワード 固有表現抽出,機械学習
1. はじめに
昨 今 , 音 楽 情 報 を 取 得 す る た め に 音 楽 記 事 や 音 楽 ブ ロ グ を 読 む 機 会 が 増 え て き て い る . し か し , 文 書 中 に 読 者 が 興 味 の あ る ア ー テ ィ ス ト 名 が 出 現 し て も ア ー テ ィ ス ト 名 の リ ン ク が 存 在 し な い こ と が 多 く , 逐 一 Google な ど の 検 索 エ ン ジ ン を 利 用 す る こ と に よ っ て ア ー テ ィ ス ト の 情 報 を 調 べ な け れ ば な ら ず , 非 常 に 面 倒 で あ る . そ こ で , 本 研 究 で は 読 者 が 音 楽 に 関 す る 情 報 を 検 索 す る 負 担 を 軽 減 さ せ る た め に , 文 書 中 に 出 現 す る ア ー テ ィ ス ト 名 な ど の 固 有 情 報 を Support Vector Machine( SVM)に よ る 機 械 学 習 を 用 い て 抽 出 し ,ア ー テ ィ ス ト 名 を Wikipedia の 記 事 等 に 自 動 リ ン ク す る こ と に よ っ て , 読 者 が ア ー テ ィ ス ト 情 報 を 収 集 す る 際 に よ り 利 便 性 を 向 上 さ せ , 負 担 を 軽 減 す る 手 法 を 提 案 す る . 提 案 手 法 の イ メ ー ジ を 図1 に 示 す . 音 楽 記 事 中 で は 「 も も い ろ ク ロ ー バ ーZ」 と 「 も も ク ロ 」 が ア ー テ ィ ス ト 名 と し て 出 現 す る が ,こ の ア ー テ ィ ス ト 名 に Wikipedia の「 も も い ろ ク ロ ー バ ーZ」 の Web ペ ー ジ の リ ン ク を 付 与 す る . し か し こ の イ メ ー ジ 図 は 最 終 目 標 で あ り 本 提 案 手 法 で は こ の よ う な 略 称 の 例 を 抽 出 す る こ と は で き な い . エ ン テ ィ テ ィ リ ン キ ン グ と は , テ キ ス ト 中 で 何 ら か の 「 実 体 ( エ ン テ ィ テ ィ ) 」 を 指 示 す る 記 述 を 抽 図 1 : 提 案 手 法 の イ メ ー ジ 図 出 し て , 外 部 の デ ー タ ベ ー ス や 知 識 ベ ー ス の 項 目 と 対 応 づ け る 操 作 の こ と で あ る . エ ン テ ィ テ ィ リ ン キ ン グ に 関 す る 研 究 は , 情 報 検 索 や 自 然 言 語 処 理 の 分 野 で 活 発 に 行 わ れ て お り , 研 究 対 象 は 主 に 新 聞 記 事 やWeb 文 書 が 対 象 と さ れ て い る .こ れ ら の テ キ ス ト で は , 人 名 や 組 織 名 な ど の 固 有 表 現 が エ ン テ ィ テ ィ と し て 重 要 な 役 割 を 持 つ こ と か ら , エ ン テ ィ テ ィ リ ン キ ン グ で は 固 有 表 現 が 重 視 さ れ る 場 合 が 多 い . 従 来 の 研 究 は 対 象 テ キ ス ト か ら エ ン テ ィ テ ィ を 抽 出 す る 際 , 辞 書 を 用 い て エ ン テ ィ テ ィ を 抽 出 す る 手 法 と 機 械 学 習 を 用 い て エ ン テ ィ テ ィ の 抽 出 を 行 う 手 法 が あ る が , 本 研 究 で は 機 械 学 習 を 用 い た 手 法 を 用 い て エ ン テ ィ テ ィ を 抽 出 す る .固 有 表 現 抽 出 を 行 う 研 究 に お い て , 人 手 で 作 成 し た 規 則 に 基 づ く 手 法 や , 統 計 的 機 械 学 習 を 用 い た 手 法 が 提 案 さ れ て い る が , 人 手 で 作 成 し た ル ー ル に 基 づ く 手 法[2]よ り も ,機 械 学 習 を 用 い た 手 法 [3]の ほ う が 精 度 が 良 い こ と が 示 さ れ て い る . 本 研 究 で は , SVM を 用 い て 単 語 単 位 で ア ー テ ィ ス ト 名 の 抽 出 規 則 を 自 動 的 に 学 習 す る 手 法 を 用 い て ア ー テ ィ ス ト 名 の 抽 出 を 行 う .Wikipedia は オ ー プ ン コ ン テ ン ト 百 科 事 典 で あ り , だ れ で も 自 由 に 無 料 で 編 集 す る こ と が で き , 世 界 各 国 の 様 々 な 言 語 で 公 開 さ れ て い る . 2016 年 1 月 時 点 で 290 以 上 の 言 語 で 執 筆 さ れ て お り , 総 記 事 数 は 3,400 万 以 上 の 大 規 模 な 百 科 事 典 で あ る .Wikipedia の 記 事 数 は 膨 大 で あ る だ け で な く , 記 事 の 質 も 高 い と さ れ て い る た め , 読 者 が 興 味 の あ る ア ー テ ィ ス ト の 情 報 を 調 べ る の に 有 用 な 手 段 の 一 つ と し て 考 え ら れ る .
2. 関連研究
2.1. エンティティリンキング
エ ン テ ィ テ ィ リ ン キ ン グ と は , テ キ ス ト 中 で 何 ら か の 「 実 体 ( エ ン テ ィ テ ィ ) 」 を 指 示 す る 記 述 を 抽 出 し て , 外 部 の デ ー タ ベ ー ス や 知 識 ベ ー ス の 項 目 と 対 応 づ け る 操 作 の こ と で あ り ,Wikipedia が 知 識 ベ ー ス の 一 つ と し て よ く 用 い ら れ る . エ ン テ ィ テ ィ の 対 象 物 は 主 に , 人 名 , 組 織 名 , 団 体 名 , 地 名 な ど が あ る が , 本 研 究 で は , ア ー テ ィ ス ト 名 を エ ン テ ィ テ ィ と し て 取 得 す る . 古 川[1]ら は 日 本 語 の 技 術 的 な 文 書 中 の 専 門 的 な 用 語 か ら ,英 語 Wikipedia 項 目 へ リ ン ク し ,そ の た め に 必 要 な 語 義 曖 昧 性 解 消 手 法 を 提 案 し て い る . 用 語 抽 出 に は , 与 え ら れ た 日 本 語 の 学 術 文 献 の 記 事 か ら 辞 書 を 用 い て 専 門 用 語 を 抽 出 し て い る . 知 識 ベ ー ス は 英 語 版Wikipedia 記 事 の 記 事 お よ び セ ク シ ョ ン か ら 主 題 , 副 題 ,URL, 文 書 , 内 部 リ ン ク を 抽 出 し て 構 築 し て い る . 用 語 抽 出 の 際 に 辞 書 を 用 い る と , 用 語 に 表 記 ゆ れ や 辞 書 に 存 在 し な い 略 称 が 存 在 し た 場 合 , 抽 出 が 正 し く さ れ な い 場 合 が あ る . そ こ で , 本 研 究 で は ア ー テ ィ ス ト 名 抽 出 を 行 う 際 に 辞 書 を 用 い る の で は な く , 機 械 学 習 に よ る 手 法 を 用 い る こ と で ア ー テ ィ ス ト 名 抽 出 を 行 う こ と に よ っ て , 用 語 抽 出 の 際 に 表 記 ゆ れ が あ っ て も 抽 出 す る 手 法 を 提 案 す る .2.2. 固有表現抽出
固 有 表 現 抽 出 は , 地 名 ・ 人 名 ・ 組 織 名 な ど の 固 有 名 詞 や 日 時 ・ 時 間 ・ 通 貨 な ど の 数 値 表 現 を 抽 出 す る 技 術 で あ る .IREX ( Information Retrieval and Extraction) と い う ワ ー ク シ ョ ッ プ の 日 本 語 固 有 表 現 タ ス ク で は , 組 織 名 , 人 名 , 地 名 , 固 有 物 名 , 日 付 表 現 , 時 間 表 現 , 金 額 表 現 , 割 合 表 現 の 8 種 類 の 固 有 表 現 を 定 義 し て い る . 固 有 表 現 を 抽 出 す る 手 法 は , 主 に 二 つ に 分 か れ る . 一 つ 目 は 人 手 で 作 成 し た 法 則 に 基 づ く 手 法[2]で あ り ,二 つ 目 は 機 械 学 習 に よ る 手 法 で あ る . 機 械 学 習 の 手 法 と し て ,SVM (Support Vector Machine),最 大 エ ン ト ロ ピ ー 法 , 条 件 付 き 確 率 場 に 基 づ く 手 法 な ど が 提 案 さ れ て い る . 機 械 学 習 を 用 い た 固 有 表 現 抽 出 で は , 入 力 文 を 解 析 単 位 ( ト ー ク ン ) に 適 当 に 分 割 し , 固 有 表 現 を 構 成 す る 一 つ も し く は 複 数 の ト ー ク ン を ま と め る 手 法 が 一 般 的 で あ る . 山 田 ら[3]は SVM を 用 い た 固 有 表 現 抽 出 を 行 っ て い る . 単 語 を 解 析 の 単 位 と し て , 単 語 自 身 , 品 詞 分 類 , 文 字 種 な ど を 素 性 と し て 利 用 し て い る . 実 験 に はCRL( 郵 政 省 通 信 総 合 研 究 所 )固 有 表 現 デ ー タ を 使 用 し て い る .CRL 固 有 表 現 デ ー タ は , 毎 日 新 聞 95 年 度 版 1,174 記 事 , 約 11,000 文 に 対 し て 固 有 表 現 が 付 与 さ れ て い る .提 案 手 法 に よ る 抽 出 実 験 で は , F 値 で 約 83% と い う 高 い 精 度 の 結 果 を 得 て い る .こ の こ と か ら , 固 有 表 現 抽 出 に お い て SVM が 有 用 で あ る こ と が 示 さ れ て い る . こ の 研 究 を 含 め て , 前 後 2 ト ー ク ン の 情 報 を 素 性 と し て 使 用 す る こ と が 一 般 的 で あ る . し か し , 固 有 表 現 の 構 成 要 素 数 が 多 い 場 合 は 十 分 な 素 性 が 与 え ら れ ず , 解 析 誤 り が 起 こ り や す く な る . こ こ で , 中 野 ら[4]は ,文 節 区 切 り を 行 い 文 節 内 外 の 情 報 を 素 性 と し て 使 用 す る 手 法 を 提 案 し て い る .CRL 固 有 表 現 デ ー タ を 用 い た 固 有 表 現 抽 出 の 実 験 結 果 は ,F 値 で 89% と い う 結 果 を 得 て い る . 本 研 究 で は 山 田 ら に よ るSVM を 用 い た 抽 出 手 法 , 中 野 ら の 文 節 内 外 の 素 性 を 利 用 し た 手 法 を 参 考 に , SVM を 用 い て 単 語 単 位 で 解 析 す る こ と で ア ー テ ィ ス ト 名 の 抽 出 を 行 う . ア ー テ ィ ス ト 名 は 人 名 に 属 す る 固 有 表 現 で あ る の で , 与 え る 素 性 の 記 号 を 従 来 の 手 法 よ り 細 分 化 し て 与 え て 学 習 さ せ る .3. 提案手法
本 研 究 の 提 案 手 法 で は , 音 楽 記 事 群 か ら ア ー テ ィ ス ト 名 を 抽 出 し , そ こ か ら ア ー テ ィ ス ト 名 の 学 習 モ デ ル を 作 成 し , ア ー テ ィ ス ト 名 の 抽 出 を 行 い , ア ー テ ィ ス ト の 関 連 リ ン ク を 取 得 す る . 本 手 法 は 二 つ の 手 順 に 分 か れ る . 一 つ 目 は , ア ー テ ィ ス ト 名 候 補 の 抽 出 で あ る . ア ー テ ィ ス ト 名 は 固 有 名 詞 で あ り ,本 手 法 で 抽 出 し た い 用 語 で あ る の で , ほ か の 固 有 名 詞 と 差 別 化 し 固 有 表 現 抽 出 を 行 う 必 要 が あ る . よ っ て , あ ら か じ め 音 楽 記 事 か ら 学 習 デ ー タ を 用 意 し ,Support Vector Machine(SVM)に よ る 機 械 学 習 を 用 い て ア ー テ ィ ス ト 名 の 抽 出 を 行 う . 二つ 目 は ,ア ー テ ィ ス ト に 関 連 す る Web ペ ー ジ へ の リ ン ク の 取 得 で あ る . そ こ で , ア ー テ ィ ス ト の 関 連 リ ン ク と し て ,Wikipedia の ア ー テ ィ ス ト の 記 事 を 用 い る こ と に よ っ て 情 報 を 得 る . 本 研 究 の 提 案 手 法 の 処 理 の 流 れ を 図 2 に 示 す . 図 2 の 説 明 は 3.1 節 よ り 行 う . 7 …… 音楽記事 入力 出力 …… リンクが付与された 音楽記事 1 アーティスト名の抽出 2 Wikipediaと抽出したアー ティストのリンク取得 学習 モデル 7 学習モデル作成 1 形態素解析し解析結果を出力 2 アーティストか手動で判断 3 機械学習用に学習データの 素性モデルを作成 …… 学習データ としての 音楽記事群 リンク取得 図2: 提 案 手 法 の 処 理 の 流 れ
3.1. 学習モデル作成
学 習 モ デ ル 作 成 は 三 つ の 手 順 を 踏 む . 一 つ 目 は 学 習 モ デ ル 作 成 の た め に 取 得 し て き た 音 楽 記 事 群 の デ ー タ を 形 態 素 解 析 す る こ と で あ る . 形 態 素 解 析 器 を 通 し て 得 た 音 楽 記 事 群 の 形 態 素 解 析 結 果 を 取 得 す る . 二 つ 目 は 音 楽 記 事 の 形 態 素 解 析 結 果 か ら , ア ー テ ィ ス ト 名 を 手 動 で タ グ 付 け を 行 う . 表 1 は 形 態 素 解 析 さ れ た 文 書 中 に 出 現 す る ア ー テ ィ ス ト 名 を 手 動 で 判 定 し た 結 果 の 一 部 で あ る . 表 は 形 態 素 ご と に 区 切 ら れ て い て , 「 タ グ 」 は1 か 0 か で ア ー テ ィ ス ト 名 か そ う で な い か の タ グ で あ り ,1 は ア ー テ ィ ス ト 名 の 一 部 ,0 は ア ー テ ィ ス ト 名 以 外 と い う 方 法 で タ グ 付 け を 行 っ て い る . 「 形 態 素 」 は 文 書 中 に 出 現 し た 単 語 ,「 品 詞 」は 形 態 素 解 析 に よ っ て 得 た 品 詞 ,「 未 知 語 」 は 形 態 素 解 析 器 の 辞 書 に そ の 単 語 が 含 ま れ て い る か ど う か を 形 態 素 解 析 器 が 出 力 し た 結 果 で あ る . 1 が 未 知 語 で 0 が 辞 書 に 登 録 さ れ て い る 単 語 で あ る こ と を 表 し て い る . 三 つ 目 は 機 械 学 習 に 用 い る 素 性 を 与 え る . 素 性 と は , 識 別 に 使 う 情 報 の こ と を い う . 本 研 究 で 与 え る 素 性 は , ア ー テ ィ ス ト 名 の タ グ , 品 詞 細 分 類 , 文 字 種 , 未 知 語 判 定 情 報 の 4 種 類 で あ る . 品 詞 に は , 品 詞 大 分 類 と 品 詞 細 分 類 の 2 種 類 存 在 し , 品 詞 大 分 類 と は , 名 詞 , 動 詞 , 助 詞 な ど の 分 類 で あ り , 品 詞 細 分 類 と は , 「 名 詞 , 固 有 名 詞 , 地 域 , 国 」 , 「 記 号 , 読 点 」 な ど の 品 詞 の 細 か い 分 類 で あ る . 素 性 に は , よ り 多 く の 情 報 を 含 む 品 詞 細 分 表1: ア ー テ ィ ス ト 名 の タ グ 付 け タ グ 形 態 素 品 詞 未 知 語 0 初 日 名 詞,一 般 ,*,* 0 0 が 助 詞,格 助 詞 ,一 般 ,* 0 0 米 国 名 詞,固 有 名 詞 ,地 域 , 国 0 0 の 助 詞,連 体 化 ,*,* 0 1 フ ー 名 詞,固 有 名 詞 ,一 般 ,* 0 1 ・ 記 号,一 般 ,*,* 0 1 フ ァ イ タ ー ズ 名 詞,固 有 名 詞 ,組 織 ,* 1 0 、 記 号,読 点 ,*,* 0 0 2 名 詞,数 ,*,* 0 0 日 名 詞,接 尾 ,助 数 詞 ,* 0 0 目 名 詞,接 尾 ,一 般 ,* 0 0 が 助 詞,格 助 詞 ,一 般 ,* 0 0 英 国 名 詞,固 有 名 詞 ,地 域 , 国 0 0 の 助 詞,連 体 化 ,*,* 0 1 ミ ュ ー ズ 名 詞,一 般 ,*,* 0 0 、 記 号,読 点 ,*,* 0 類 を 用 い る .文 字 種 は“ カ タ カ ナ ”,“ ひ ら が な ”, “ 漢 字 ” , “ 記 号 ” , “ 数 字 ” , お よ び “ ア ル フ ァ ベ ッ ト ” の6 種 類 の い ず れ か を 指 す . 表1 の 例 で は 「 フ ァ イ タ ー ズ 」 と い う 単 語 を 学 習 す る と き , 品 詞 細 分 類 は 「 名 詞 , 固 有 名 詞 , 組 織 , * 」 で , こ の と き 素 性 と し て 「 名 詞 , 固 有 名 詞 , 組 織 , * 」 と い う 文 字 列 をID に 変 換 し て 素 性 と し て い る . 文 字 種 は カ タ カ ナ , 未 知 語 判 定 情 報 で は 未 知 語 で あ る と い う 素 性 を 学 習 機 に 与 え る こ と に な る . ま た , ア ー テ ィ ス ト 名 は 複 数 の 形 態 素 に よ っ て 構 成 さ れ て い る 場 合 が 多 く , 素 性 の 単 語 自 身 を 学 習 さ せ る だ け で は 不 十 分 で あ る . そ こ で , 前 後 の 形 態 素 の 情 報 を 与 え る こ と が 必 要 で あ る . 一 般 的 に は 前 後 2 形 態 素 を 与 え る が , 最 適 な 前 後 の 形 態 素 数 の 検 証 の た め , 素 性 に 用 い る 前 後 の 形 態 素 数 を 変 化 さ せ る こ と に よ っ て 精 度 の 比 較 を 行 う . 以 上 の 三 つ の 手 順 を 踏 み , 学 習 モ デ ル を 作 成 す る .3.2. アーティスト名の抽出
タ グ が つ け ら れ て い な い 音 楽 記 事 を 入 力 し ,3.1 節 で 作 成 し た 学 習 モ デ ル を 使 用 し ,SVM に よ っ て 音 楽 記 事 中 の ア ー テ ィ ス ト 名 を 含 む 形 態 素 を 推 定 し た 結 果 を 出 力 す る . 出 力 結 果 の 例 を 表 2 に 示 す . 表 2 の 各 項 目 は 左 端 の カ ラ ム を 除 き 表 1 と 同 様 で あ る . 推 測 結 果 は 表2 の 推 定 結 果 の 項 目 に あ り , 入 力 し た テ ス ト デ ー タ の 音 楽 記 事 中 の 形 態 素 を ア ー テ ィ ス ト の 一 部 と 推 測 す れ ば タ グ は 1 , ア ー テ ィ ス ト の 一 部で は な い 形 態 素 と 推 測 し た 場 合 , タ グ は 0 と い う 結 果 が 出 力 さ れ る . 表2: ア ー テ ィ ス ト 名 を 含 む 形 態 素 の 推 測 結 果
3.3. リンク取得
学 習 モ デ ル を も と に 表 2 の よ う に ア ー テ ィ ス ト 名 と し て 抽 出 さ れ た 形 態 素 の タ グ の 推 測 結 果 が1 が 連 続 し て 一 つ の ア ー テ ィ ス ト 名 と し て 推 測 し て い る 場 合 が 存 在 す る . そ の と き 形 態 素 を 連 結 し 一 つ の ア ー テ ィ ス ト 名 と し て 文 字 列 を 作 成 す る . 例 え ば 表 2 の 推 測 結 果 で は 「 フ ー 」 と 「 ・ 」 と 「 フ ァ イ タ ー ズ 」 が ア ー テ ィ ス ト 名 の 形 態 素 と し て 推 測 さ れ て い る の で , こ れ ら の 形 態 素 を 連 結 し て 「 フ ー ・ フ ァ イ タ ー ズ 」 と ア ー テ ィ ス ト 名 の 一 つ の 文 字 列 と し て ま と め る . 形 態 素 を 連 結 し て 得 た ア ー テ ィ ス ト 名 と Wikipedia の 全 記 事 タ イ ト ル を マ ッ チ ン グ す る こ と に よ っ て ア ー テ ィ ス ト 名 の リ ン ク を 取 得 す る .ま た , 抽 出 さ れ た ア ー テ ィ ス ト 名 は 表 記 ゆ れ の 可 能 性 が 考 え ら れ る た め , 抽 出 さ れ た ア ー テ ィ ス ト 名 と Wikipedia の タ イ ト ル の 編 集 距 離 を 計 算 し , リ ン ク を 取 得 す る . 編 集 距 離 と は , 一 文 字 の 挿 入 ・ 削 除 ・ 置 換 に よ っ て , 一 方 の 文 字 列 を も う 一 方 の 文 字 列 に 変 形 す る の に 必 要 な 手 順 の 最 小 回 数 の こ と で あ る . 例 え ば , 記 事 中 に 「 ボ ン ・ ジ ョ ビ 」 と い う ア ー テ ィ ス ト が 出 現 し た と き , そ の ア ー テ ィ ス ト に 対 応 す る Wikipedia の タ イ ト ル は「 ボ ン・ジ ョ ヴ ィ 」で あ る . 「 ボ ン ・ ジ ョ ビ 」 を 「 ボ ン ・ ジ ョ ヴ ィ 」 に す る た め に は 「 ビ 」 を 「 ヴ 」 に 置 換 し , 「 ィ 」 を 挿 入 す る 二 つ の 編 集 を 行 う . よ っ て 編 集 距 離 を 用 い れ ば2 で ア ー テ ィ ス ト 名 の 正 し いWikipedia の 記 事 が 取 得 で き る .4. 評価実験・考察
本 章 で は , 提 案 手 法 の 有 効 性 を 検 証 す る た め の 評 価 実 験 と そ の 考 察 に つ い て 述 べ る . 評 価 実 験 に は , YAMAHA の ウ ェ ブ サ イ ト1か ら 収 集 し た 音 楽 記 事 35 記 事 を 用 い て ,交 差 検 定 す る こ と に よ っ て 提 案 手 法 の 有 効 性 を 検 証 し た . 音 楽 記 事 は 邦 楽 ・ 洋 楽 の 記 事 を 対 象 に し て お り , 記 事 の 文 字 数 は 最 長 で 8,966 文 字 ,最 短 は1,932 文 字 ,平 均 文 字 数 は 4,313 文 字 , 1 記 事 中 の ア ー テ ィ ス ト の 出 現 数 の 平 均 は 34 ア ー テ ィ ス ト で あ る .4.1. 使用ツール
4.1.1 Kuromoji
本 実 験 で は 形 態 素 解 析 器 は Kuromoji2を 使 用 し た . Kuromoji は Java で 記 述 さ れ て い る オ ー プ ン ソ ー ス の 日 本 語 形 態 素 解 析 エ ン ジ ン で あ る .Kuromoji は 基 本 的 に はMeCab-IPADIC 辞 書 を サ ポ ー ト し て お り , 形 態 素 解 析 結 果 は MeCab と 同 様 の 結 果 が 出 力 さ れ る .4.1.2 LIBLINEAR
本 実 験 で は ,SVM の 利 用 に LIBLINEAR[5]と い う 台 湾 国 立 大 学 の Chih-Jen Lin 教 授 の チ ー ム が 公 開 し て い る オ ー プ ン ソ ー ス の 機 械 学 習 パ ッ ケ ー ジ を 用 い る .LIBLINEAR は 線 形 予 測 に 特 化 し て お り , 同 チ ー ム が 公 開 し て い る LIBSVM と 比 べ は る か に 高 速 に 動 作 す る た め , 大 規 模 な デ ー タ へ の 利 用 に 向 い て い る .4.2. 評価方法
提 案 手 法 に よ る 抽 出 結 果 と 手 動 で 抽 出 し た ア ー テ ィ ス ト 名 を 比 較 す る こ と に よ っ て ,正 解 を 判 定 す る . そ の 正 解 数 と 実 験 に よ る 抽 出 数 か ら 適 合 率 , 手 動 で 抽 出 し た ア ー テ ィ ス ト 数 か ら 再 現 率 を 算 出 し , そ れ ら か らF 値 を 算 出 し た . F 値 と は , 適 合 率 と 再 現 率 の 調 和 平 均 の こ と で あ る .適 合 率 precision,再 現 率 recall,F 値 F-measureは 次 の 式 で 算 出 す る .𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑅
𝑁
𝑟𝑒𝑐𝑎𝑙𝑙 =
𝑅
𝐶
𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
1 http://www.yamaha.co.jp/ongakukiji/ 2 https://www.atilika.com/en/ 推 測 結 果 形 態 素 品 詞 未 知 語 0 初 日 名 詞,一 般 ,*,* 0 0 が 助 詞,格 助 詞 ,一 般,* 0 0 米 国 名 詞,固 有 名 詞 , 地 域,国 0 0 の 助 詞,連 体 化 ,*,* 0 1 フ ー 名 詞,固 有 名 詞 , 一 般,* 0 1 ・ 記 号,一 般 ,*,* 0 1 フ ァ イ タ ー ズ 名 詞,固 有 名 詞 , 組 織,* 1 0 、 記 号,読 点 ,*,* 0R は 正 解 し た ア ー テ ィ ス ト 名 の 抽 出 結 果 の 形 態 素 数 ,Nは 実 験 に よ る 抽 出 結 果 の 形 態 素 数 ,C は 手 動 で 抽 出 し た 正 解 の ア ー テ ィ ス ト 形 態 素 数 を 表 し て い る . こ こ で ア ー テ ィ ス ト 数 で は な く , ア ー テ ィ ス ト 名 の 形 態 素 数 を 単 位 と し て い る の は , ア ー テ ィ ス ト 名 の 抽 出 結 果 に お い て ア ー テ ィ ス ト 名 の 一 部 が 抽 出 さ れ た 結 果 が 多 く , 評 価 に か か る 作 業 コ ス ト を 軽 減 す る た め で あ る . ま た , 実 験 に 際 し て 交 差 検 定 の 手 法 の 一 つ で あ る leave-one-out 交 差 検 定 を 行 っ た . leave-one-out 交 差 検 定 と は デ ー タ をk 個 用 意 し ,一 つ を テ ス ト 事 例 と し ,残 るk-1 個 を 訓 練 事 例 と し て k 回 検 証 を 行 い , k 回 の 結 果 を 平 均 し て 一 つ の 推 定 結 果 を 得 る 手 法 で あ る .今 回 k を 35 記 事 ,訓 練 34 記 事 ,テ ス ト 1 記 事 の 比 率 で 実 験 を 行 っ た .
4.3. 素性の比較実験
4.3.1 素性に適切な形態素数
固 有 表 現 を 機 械 学 習 す る 際 , 一 般 的 に は 前 後 2 形 態 素 ま で の 情 報 を 素 性 と す る こ と が 多 い が , こ こ で は 適 切 な 前 後 の 形 態 素 数 を 検 証 す る た め の 実 験 を 行 っ た . 使 用 す る 素 性 の 前 後 の 形 態 素 数 を 一 つ か ら 四 つ の 範 囲 に 変 化 さ せ た 際 の 再 現 率 , 適 合 率 ,F 値 を 表3 に 示 し , ま た そ れ ぞ れ の 値 の 最 大 値 に は 太 字 で 示 す . 表3: 素 性 の 前 後 の 形 態 素 数 に よ る 精 度 の 違 い 前 の 形 態 素 数 後 ろ の 形 態 素 数 再 現 率 適 合 率 F 値 1 1 0.1963 0.4819 0.2790 1 2 0.2546 0.4957 0.3364 1 3 0.2432 0.5336 0.3341 1 4 0.2686 0.6529 0.3807 2 1 0.1793 0.4442 0.2555 2 2 0.2764 0.5898 0.3764 2 3 0.2096 0.5574 0.3046 2 4 0.2210 0.5557 0.3163 3 1 0.2118 0.4824 0.1326 3 2 0.1996 0.5476 0.2926 3 3 0.2196 0.5914 0.3202 3 4 0.2487 0.5856 0.3491 4 1 0.1800 0.5164 0.2670 4 2 0.2332 0.5830 0.3331 4 3 0.2380 0.5723 0.3362 4 4 0.2181 0.5300 0.30904.3.2 素性の比較実験
海 外 の ア ー テ ィ ス ト 名 が 音 楽 記 事 中 に 出 現 す る と き , グ ル ー プ 名 の 単 語 の 区 切 り や , 個 人 名 の 姓 と 名 の 区 切 り な ど に 中 点 が よ く 使 わ れ る . そ こ で , ア ー テ ィ ス ト 名 を 抽 出 す る と き 中 点 の 情 報 を 素 性 に 加 え る .4.3.1 節 の 実 験 で は ,中 点 の 情 報 を 認 識 す る 際 に 学 習 機 は 単 な る 「 記 号 」 と い う 品 詞 種 別 と し て し か 扱 っ て い な か っ た が , 中 点 そ の も の の 情 報 を 品 詞 種 別 「 中 点 」 と し て 品 詞 ID に 追 加 し 学 習 す る こ と で 実 験 の 結 果 に ど の よ う に 影 響 す る か 実 験 し た . 使 用 す る 素 性 の 前 後 の 形 態 素 は 表3 の F 値 が 最 も 高 か っ た 前 後 の 形 態 素 数 上 位3 件 を 使 用 し た . こ の 実 験 の 結 果 を 表 4 に 示 す . ま た , 中 点 の 素 性 を 与 え る 前 と 与 え た 後 の 変 化 を 見 る た め , 前3 つ ,後 ろ 4 つ の 形 態 素 を 使 用 し た 結 果 を 図3 に 示 し , 最 も 精 度 が 高 か っ た 値 を 太 字 で 示 す . 表4: 中 点 の 情 報 を 与 え た 実 験 結 果 前 の 形 態 素 数 後 ろ の 形 態 素 数 再 現 率 適 合 率 F 値 1 4 0.2784 0.6288 0.3860 2 2 0.2236 0.6551 0.3334 3 4 0.2788 0.7530 0.4070 図3: 中 点 の 素 性 を 与 え る 前 後 の 結 果 (前 3 つ , 後 ろ 4 つ )4.3.3 考察
使 用 す る 前 後 の 素 性 の 情 報 は 一 般 的 に は 前 後2 つ の 形 態 素 の 情 報 を 使 用 す る が , 表 3 よ り 前 1 つ , 後 ろ4 つ の 形 態 素 の 情 報 を 与 え て ア ー テ ィ ス ト を 抽 出 し た 結 果 がF 値 が 最 も 高 か っ た .後 ろ の 形 態 素 を 多 く 与 え る とF 値 が 向 上 し ,逆 に 前 の 情 報 を 多 く 与 え 0 0.2 0.4 0.6 0.8 1 再現率 適合率 F値 中点を与える前 中点を与えた後て い く に つ れ て F 値 が 低 下 す る 傾 向 が 見 ら れ た .全 体 的 に 再 現 率 が 低 い が , こ れ は 再 現 率 の 計 算 時 に 手 動 で 抽 出 し た ア ー テ ィ ス ト と 正 解 し た ア ー テ ィ ス ト の 形 態 素 数 が 完 全 一 致 し た 場 合 を カ ウ ン ト し た た め , 再 現 率 が 低 く な っ た と 思 わ れ る . ま た , 完 全 一 致 し た ア ー テ ィ ス ト 名 の 形 態 素 数 を 増 や す た め に , 中 点 の 素 性 を 与 え て 実 験 を し た . 表 4, よ り 前 3 つ , 後 ろ 4 つ の 形 態 素 情 報 を 使 用 し た 結 果 が 再 現 率 が 0.2788, 適 合 率 が 0.7530, F 値 が 0.4070 と 表 3 の ど の 結 果 よ り F 値 が 高 い .中 点 の 素 性 を 与 え る 前 よ り , 中 点 の 素 性 を 与 え た 後 の 数 値 の ほ う が 高 い こ と か ら , 中 点 の 素 性 情 報 は 精 度 向 上 に 効 果 が あ る と 考 え ら れ る . 部 分 一 致 の 場 合 に , 再 現 率 を 上 げ る 効 果 が あ る こ と を 検 証 す る た め , 表 4 の 前 後 形 態 素 数 に 部 分 一 致 で 評 価 を 行 っ た 場 合 を 表 5 に 示 す .ま た ,完 全 一 致 , 部 分 一 致 の 再 現 率 , 適 合 率 ,F 値 の 前 の 形 態 素 数 3 つ , 後 ろ の 形 態 素 数4 つ の と き の 変 化 の グ ラ フ を 図 4 に 示 す . 図 4 よ り 部 分 一 致 の 場 合 , 再 現 率 が 高 く な っ た の で , 完 全 一 致 の と き に 取 り こ ぼ し て い た 形 態 素 が 取 れ る よ う に な る と い え る . 表5: 正 解 し た 形 態 素 が 部 分 一 致 の と き 前 の 形 態 素 数 後 ろ の 形 態 素 数 再 現 率 適 合 率 F 値 1 4 0 . 6 5 7 2 0 . 6 2 8 8 0 . 6 4 2 6 2 2 0 . 5 4 3 9 0 . 6 5 5 1 0 . 5 9 4 3 3 4 0 . 6 5 5 7 0 . 7 5 3 0 0 . 7 0 1 0 図4: 完 全 一 致 ・ 部 分 一 致 の と き の 評 価 結 果 の 違 い(前 3 つ , 後 ろ 4 つ )
4.4 エンティティリンキング 実験
4.4.1 編集距離を用いた実験
4.1 節 で 使 用 し た 音 楽 記 事 デ ー タ の 中 か ら 10 記 事 を 用 い て , 記 事 中 の ア ー テ ィ ス ト 名 を 抽 出 し Wikipedia の 全 記 事 タ イ ト ル 2,863,283 個 と 編 集 距 離 を 用 い て マ ッ チ ン グ し た .10 記 事 中 の ア ー テ ィ ス ト 数 は357 組 で ,編 集 距 離 の 範 囲 を 0 か ら 2 ま で 変 化 さ せ て い き 正 解 数 が ど の 程 度 変 化 す る の か 実 験 を 行 っ た . な お , 編 集 距 離 0 は ア ー テ ィ ス ト 名 と Wikipedia 記 事 タ イ ト ル が 完 全 一 致 で あ る こ と を 表 し て い る . 正 解 は 記 事 中 の ア ー テ ィ ス ト 名 が Wikipedia の タ イ ト ル に 存 在 し た 場 合 , 記 事 が そ の ア ー テ ィ ス ト の も の か ど う か に か か わ ら ず 正 解 と み な す . マ ッ チ ン グ の 実 験 結 果 の 編 集 距 離 に よ る 正 解 率 の 変 化 の グ ラ フ を 図5 に 示 す . 図5: 編 集 距 離 に よ る 正 解 率 の 変 化 の グ ラ フ4.4.2 考察
図 4 よ り 編 集 距 離 が 0 の と き 正 解 率 が 0.8375 と な り , 編 集 距 離 の 範 囲 を1 ま で と し マ ッ チ ン グ を 行 っ た 結 果 , 正 解 率 が 0.8655 と な り , 範 囲 を 2 ま で と し た 場 合 ,正 解 率 が0.8740 と な っ た .正 解 率 は 編 集 距 離 が 0 か ら 1 ま で と し た と き ,0.028 増 加 し ,1 か ら2 ま で と し た と き ,0.0085 増 加 し た .編 集 距 離 の 範 囲 を 1 ま で と し た と き に マ ッ チ ン グ し た 結 果 の 例 を 表6 に 示 す . 表6: 正 解 抽 出 の 例 (編 集 距 離 1 ま で ) ア ー テ ィ ス ト 名 Wikipedia タ イ ト ル 名 ス テ ィ ー ヴ ィ ・ レ イ ・ ヴ ォ ー ン ス テ ィ ー ヴ ィ ー ・ レ イ ・ ヴ ォ ー ン エ ー ス ・ オ ブ ・ ベ イ ス エ イ ス ・ オ ブ ・ ベ イ ス KoЯ n Korn 表5 よ り 編 集 距 離 が 1 ま で の 場 合 は「 ス テ ィ ー ヴ ィ ・ レ イ ・ ヴ ォ ー ン 」 , 「 エ ー ス ・ オ ブ ・ ベ イ ス 」 の よ う に 音 楽 記 事 中 の ア ー テ ィ ス ト 名 に 長 音 「 ー 」 の 表 記 ゆ れ が 存 在 し た と き に 正 解 が 抽 出 さ れ , ま た 「KoЯ n」 の よ う に ア ー テ ィ ス ト 名 に 特 殊 文 字 が 存 在 し た と き に 正 解 が 抽 出 さ れ た . 次 に 編 集 距 離 の 範 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 再現率 適合率 F値 完全一致 部分一致0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0
1まで
2まで
正解率
囲 を2 ま で と し た と き に マ ッ チ ン グ し た 結 果 , 正 解 が 抽 出 で き た 例 を 表7 に 示 す .
表7: 正 解 抽 出 の 例 (編 集 距 離 2 ま で ) ア ー テ ィ ス ト 名 Wikipedia タ イ ト ル 名
ONE OK ROCK ONE_OK_ROCK
ノ ヴ ェ ン バ ー ノ ー ベ ン バ ー ス ノ ー ウ ィ ・ ホ ワ イ ト ス ノ ウ ィ ー ・ ホ ワ イ ト 表 7 よ り 編 集 距 離 が 2 ま で の 場 合 は 「 ONE OK ROCK」 の よ う に 音 楽 記 事 中 の ア ー テ ィ ス ト 名 に ア ル フ ァ ベ ッ ト 表 記 で 空 白 が 単 語 間 に 存 在 し て い る 場 合 , 正 解 が 抽 出 さ れ た . こ れ は ,Wikipedia の タ イ ト ル 内 で は ア ル フ ァ ベ ッ ト 表 記 の ア ー テ ィ ス ト 名 が 出 現 し た 場 合 , 単 語 間 の 空 白 の 位 置 に ア ン ダ ー ラ イ ン「_」が 代 わ り に 挿 入 さ れ て い る の が 原 因 だ と 考 え ら れ る . ま た , 「 ノ ヴ ェ ン バ ー 」 や 「 ス ノ ー ウ ィ ・ ホ ワ イ ト 」 の よ う に 音 楽 記 事 中 の ア ー テ ィ ス ト 名 に 長 音 「 ー 」 , 「 ベ 」 の 代 わ り に 「 ヴ ェ 」 の 文 字 が 用 い ら れ て い る 表 記 ゆ れ の 場 合 が 編 集 距 離 の 範 囲 が 2 ま で と し た 場 合 に 正 解 が 抽 出 さ れ た . よ っ て , 編 集 距 離 を 用 い た と き , 編 集 距 離 が 0 の と き に マ ッ チ ン グ さ れ な か っ た ア ー テ ィ ス ト 名 が 取 得 で き る と い え る . し か し そ の 一 方 , 編 集 距 離 1, 編 集 距 離 2 と 増 え て い く ご と に ア ー テ ィ ス ト 名 と 関 係 な い Wikipedia 記 事 タ イ ト ル と 多 く マ ッ チ ン グ さ れ て し ま う . 関 係 な い 記 事 タ イ ト ル の マ ッ チ ン グ の 例 を 表 8 に 示 す . 例 え ば ア ー テ ィ ス ト 名 が 「 シ ョ パ ン 」 の と き , Wikipedia タ イ ト ル 名 が 「 あ げ パ ン 」 , 「 G パ ン 」 の よ う に 編 集 距 離 を 用 い る マ ッ チ ン グ に よ っ て , ア ー テ ィ ス ト 名 と 関 係 な い 記 事 タ イ ト ル と マ ッ チ ン グ し て し ま う . そ の 解 決 策 と し て , 音 楽 記 事 中 の ア ー テ ィ ス ト 名 とWikipedia 記 事 タ イ ト ル と マ ッ チ ン グ す る 際 に , 全 記 事 の タ イ ト ル 名 と マ ッ チ ン グ す る の で は な く ,Wikipedia の ア ー テ ィ ス ト 名 を 含 む 音 楽 カ テ ゴ リ の 中 のWikipedia 記 事 タ イ ト ル と マ ッ チ ン グ す る 手 法 が 考 え ら れ る . 表8: ア ー テ ィ ス ト 名 と 関 係 な い 記 事 タ イ ト ル と の マ ッ チ ン グ の 例
5.おわりに
本 研 究 で は ,Web 上 の 音 楽 記 事 に 対 し , Support Vector Machine を 用 い て ア ー テ ィ ス ト 名 抽 出 規 則 を 学 習 す る こ と に よ り , 音 楽 記 事 中 か ら ア ー テ ィ ス ト 名 を 抽 出 す る 手 法 を 提 案 し た . ま た , 抽 出 し た ア ー テ ィ ス ト 名 と ア ー テ ィ ス ト に 関 す る 情 報 へ の リ ン ク を 取 得 す る 手 法 を 提 案 し た . 抽 出 実 験 に お い て , 学 習 機 に 与 え る 素 性 を 海 外 の ア ー テ ィ ス ト 名 が 出 現 し た と き に よ く 使 用 さ れ る 中 点(・)を 与 え た と き , 再 現 率 ,F 値 の 向 上 が 見 ら れ た . よ っ て , 中 点 を 素 性 と す る こ と は 有 用 で あ る と い え る . ま た 編 集 距 離 を 用 い て エ ン テ ィ テ ィ リ ン キ ン グ を 行 う こ と に よ っ て , 記 事 内 に 表 記 ゆ れ が 存 在 し て い た 場 合 に も 正 解 が 抽 出 で き た . 今 後 の 課 題 と し て は , 再 現 率 を よ り 向 上 さ せ る た め に , 形 態 素 ご と に 判 定 し て い る も の を , ア ー テ ィ ス ト 名 全 体 を 一 つ に ま と め る 手 法 や , リ ン キ ン グ す る 際 に 編 集 距 離 で は と り き れ な か っ た ア ー テ ィ ス ト 名 の 略 称 を 含 む 記 事 タ イ ト ル を マ ッ チ ン グ す る 手 法 が 挙 げ ら れ る . ま た , 編 集 距 離 で は 多 く の ア ー テ ィ ス ト 名 と は 関 係 の な い 記 事 タ イ ト ル と マ ッ チ ン グ し て し ま う の で , そ の 記 事 数 を 減 ら す た め , 編 集 距 離 を 用 い る 際 に 挿 入 ・ 削 除 ・ 置 換 の コ ス ト を1 と し て 重 み づ け を 行 っ て い た が そ れ ぞ れ の 操 作 に 対 し て 適 切 な 重 み づ け を 行 う 手 法 が 挙 げ ら れ る .参 考 文 献
[1] 古 川 竜 也 , 相 良 毅 , 相 澤 彰 子 : 言 語 横 断 エ ン テ ィ テ ィ リ ン キ ン グ の た め の 語 義 曖 昧 性 解 消 ,情 報 処 理 学 会 誌 ,Vol.24,No.2,pp.172-177( 2014). [2] 渡 辺 一 郎 , 桝 井 文 人 , 福 本 淳 一 : 固 有 表 現 抽 出 ツ ー ル NExT の 精 緻 化 と ユ ー ザ ビ リ テ ィ の 向 上 , 言 語 処 理 学 会 第 10 回 年 次 大 会 pp.413-415 ( 2004) . [3] 山 田 寛 康 , 工 藤 拓 , 松 本 裕 治 : Support Vector Machines に よ る 日 本 語 固 有 表 現 抽 出 ,情 報 処 理 学 会 論 文 誌 , Vol.43, No.1, pp.44-53( 2002) . [4] 中 野 桂 吾 , 平 井 有 三 : 日 本 語 固 有 表 現 抽 出 に お け る 文 節 情 報 の 利 用 , 情 報 処 理 学 会 論 文 誌 , Vol.45, No.3, pp.934-941( 2004) .[5] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang and Chih -Jen Lin: LIBLINEAR: A Library for Large Linear Classification, Journal of Machine Learning Research 9, pp.1871 -1874 ( 2008) . ア ー テ ィ ス ト 名 Wikipedia タ イ ト ル 名 シ ョ パ ン シ ョ パ ン シ ョ パ ン あ げ パ ン シ ョ パ ン G パ ン