DEIM Forum 2016 B1-4
新旧地名・施設名対の抽出による文書の時空間マッピング
平山
拓実
†難波 英嗣
†竹澤 寿幸
††広島市立大学大学院 情報科学研究科 〒731-3194 広島県広島市安佐南区大塚東 3-4-1
E-mail: †{hirayama, nanba, takezawa}@ls.info.hiroshima-cu.ac.jp
あらまし
我々は,様々な文書を地図上にマッピングするシステムを構築している.このシステムを用いることで,任意の 場所に関する情報を容易に把握することができる.ここで,地名や施設名は年月とともに変わる可能性があるため,このシステ ムでは,古い地名表現を含んだ文書を地図上にマッピングできないという問題があった.そこで本研究では,新旧地名・組織名 の対をテキストデータベースから抽出し,古い地名表現を含んだ文書のマッピングを実現する.提案手法を使って文書を時空間 領域にマッピングすることにより,ある地点の歴史をさかのぼって調べたり,過去のある時点を言及した文書間の関係を調べた りすることが可能になった.キーワード
マッピング,可視化,情報抽出,地理情報,新旧地名1. は じ め に
本 研 究 で は , 地 名 や 施 設 名 な ど の 地 名 表 現 を 含 ん だ 文 書 を 時 空 間 領 域 に マ ッ ピ ン グ す る シ ス テ ム を 構 築 す る . 本 シ ス テ ム に よ り , 大 量 の 文 書 を 読 む こ と な く , 任 意 の 場 所 に 関 す る 情 報 を , 時 間 を さ か の ぼ っ て 把 握 す る こ と が 可 能 で あ る , 地 域 の 歴 史 や あ る 時 間 に 何 が あ っ た の か を 容 易 に 把 握 す る こ と が で き る . 一 般 的 に マ ッ ピ ン グ シ ス テ ム を 実 現 す る に は , 文 書 中 の 地 名 表 現 を 抽 出 し , 緯 度 経 度 デ ー タ ベ ー ス と の マ ッ チ ン グ を 行 う こ と で 緯 度 経 度 を 付 与(ジ オ コ ー デ ィ ン グ)す る 作業 が 必 要 で あ る .し か し ,地 名 表 現 は 年 月 に よ っ て 移 り 変 わ っ て い く も の で あ る .例 え ば ,「 原 爆 ド ー ム 」の 場 合 ,「 広 島 県 物 産 陳 列 館(1915 年 -1921 年 )」, 「 広 島 県 立 商 品 陳 列 所(1921 年 -1933 年 )」,「 広 島 県 産 業 奨 励 館(1933 年 -1944 年 )」 と 名 称 が 年 月 に よ り 変 化 し て い る . し か し , 緯 度 経 度 デ ー タ ベ ー ス に は , 新 し い 地 名 表 現 し か 登 録 さ れ て い な い た め , 新 地 名 表 現 と 旧 地 名 表 現 を 対 応 さ せ た 新 旧 地 名 表 現 対 応 辞 書 が 必 要 で あ る . 我 々 の 先 行 研 究[1]で は,新 旧 地 名 表 現 対 応辞 書 を 構 築 す る た め に ,Web ペ ー ジ か ら「 [新 地 名 表 現 ]( 旧 [旧 地 名 表 現]」とい う 限 ら れ た パ タ ー ン を 利 用 し ,新 旧 地 名 表 現 対 抽 出 を 行 っ た . し か し , 新 旧 地 名 表 現 対 を 記 述 す る パ タ ー ン は , そ の 他 に も 大 量 に 存 在 す る . そ こ で 本 研 究 で は , 上 位 下 位 関 係 の 対 を 抽 出 す る 半 教 師 あ り 学 習 ア ル ゴ リ ズ ム ブ ー ト ス ト ラ ッ プ 法[2] を 利 用 す る こ と で , 新 旧 地 名 表 現 対 抽 出 を 行 う た め の パ タ ー ン を 大 量 に 収 集 す る 手 法 を 提 案 す る . こ の 手 法 に よ り 収 集 さ れ た パ タ ー ン を 利 用 す る こ と で , 新 旧 地 名 表 現 対 を 網 羅 的 に 収 集 す る こ と が 可 能 で あ る . さ ら に , 収 集 し た 新 旧 地 名 表 現 対 を 利 用 す る こ と で , 旧 地 名 表 現 を 含 む 文 書 の マ ッ ピ ン グ 結 果 を 閲 覧 す る シ ス テ ム を 構 築 す る . 本 シ ス テ ム は 任 意 の 場 所 に お け る 歴 史 を さ か の ぼ っ て 調 べ る こ と を 目 的 と す る た め , マ ッ ピ ン グ 結 果 を 年 代 で 分 割 し て 表 示 す る .こ れ に よ り , ユ ー ザ が 調 べ た い 年 代 の 情 報 を 取 得 し や す く な る . ま た , 同 じ 箇 所 に 大 量 の ピ ン が 乱 立 す る 問 題 を 緩 和 す る こ と が で き る . 本 研 究 は , 文 書 が 言 及 す る 年 代 を 文 書 中 の 文 か ら 推 定 し , そ れ を 基 に 時 空 間 上 に マ ッ ピ ン グ す る こ と を 最 終 目 標 と す る . 本 論 文 の 構 成 は 以 下 の 通 り で あ る .2 章 では 本 シ ス テ ム の 動 作 例 を 示 し ,3 章 で は関 連 研 究 に つ い て 述 べ, 4 章 で は 大 量 のテ キ ス ト デ ー タ ベ ー ス か ら の 新 旧 地 名 表 現 対 抽 出 に つ い て 述 べ る .5 章 で は 文 書 の マ ッ ピ ン グ に つ い て 詳 し く 述 べ る .6 章 で は 評 価 実 験 に つ い て 述 べ ,7 章 で 本 論 文 を ま と め る .2. シ ス テ ム概 要と 動 作例
本 節 で は , 構 築 す る シ ス テ ム の 概 要 と 動 作 例 に つ い て 説 明 す る . 本 シ ス テ ム の マ ッ ピ ン グ 対 象 文 書 は Wikipedia や 旅 行 ブ ロ グ ,Web ペ ー ジ な ど 様 々 な 文 書 を 対 象 と し て い る . 様 々 な 文 書 を マ ッ ピ ン グ す る こ と で , 任 意 の 場 所 に お け る 多 種 多 様 な 情 報 を 把 握 で き る シ ス テ ム と な っ て い る . た だ し , 文 書 中 の 代 表 的 な 地 名 表 現 の 推 定 は ま だ 行 っ て い な い た め , 現 状 で は 文 書 中 の 地 名 表 現 の 全 て に 対 し て ピ ン を 立 て て い る . つ ま り ,一 つ の 文 書 に 対 し て 複 数 の ピ ン が 立 つ こ と が あ る . 本 シ ス テ ム は 文 書 を 年 代 ご と に 表 示 す る . 例 え ば , 図1 の 場 合 は 1900 年 か ら 1930 年 ,図 2 は 1930 年 か ら 1960 年 の 期 間 の 「 原 爆 ド ー ム 」 の 結 果 を 示 し て い る . こ の よ う に 表 示 す る こ と で , ユ ー ザ が 調 べ た い 年 代 の 文 書 を 探 す こ と が 容 易 に な る . ま た , 年 代 で 提 示 す る こ と で 同 時 期 に ど う い っ た こ と が 起 き た か を 調 べ る 際 に も 役 立 つ 表 示 と な っ て い る . さ ら に , 分 割 す る 年 代 を 自 動 決 定 で き れ ば , 一 箇 所 に 大 量 の ピ ン が 乱 立 す る 問 題 を 緩 和 す る こ と も 可 能 で あ る .図1. 1900 年 か ら 1930 年 ま で の マ ッ ピ ン グ 結 果 図2. 1930 年 か ら 1960 年 ま で の マ ッ ピ ン グ 結 果 次 に , 動 作 例 に つ い て 詳 し く 述 べ る . 図 1, 2 中 の ピ ン を ク リ ッ ク す る こ と で , 文 書 の タ イ ト ル , 年 代 , 地 名 表 現 を 含 む 文 が 表 示 さ れ る . ま た , タ イ ト ル は ク リ ッ ク す る こ と で ,対 象 Web ペ ー ジ へ 移 動 す る こ と も で き , ユ ー ザ が 興 味 の あ る 文 書 を 詳 し く 読 む こ と も で き る . 年 代 は 文 の 先 頭 に 記 述 さ れ る . 図 1 の 場 合 , 「[1914 年 ]」 であ る . た だ し , 年 代 は 文 書 の 作 成 し た 年 で は な く ,文 書 で 言 及 さ れ た 出 来 事 の 年 を 意 味 す る . 図1 に お い てマ ッ ピ ン グ さ れ た 文 書 に は ,1914 年 に 広 島 県 物 産 陳 列 館 が 建 築 さ れ た こ と ,1915 年 に 開 館 さ れ た こ と に 関 す る 文 書 が 存 在 し た . そ れ に 対 し て , 図 2 で は ,1933 年 に 広 島 県 産 業 奨 励 館 に 改 称 し た こ と , 1945 年 に 原 爆 が 落 ち た こ と に 関 す る 文 書 が 存 在 し た . こ の よ う に , そ の 年 代 に お い て 重 要 な 出 来 事 を 視 覚 的 に 調 べ る こ と が 可 能 で あ る .
3. 関 連 研 究
本 研 究 で は , 新 聞 記 事 や 旅 行 ブ ロ グ , 書 籍 と い っ た 様 々 な 文 書 を 地 図 上 に マ ッ ピ ン グ し て い る . 本 研 究 と 同 様 に マ ッ ピ ン グ シ ス テ ム を 構 築 す る 研 究 に 郡 ら[3] や 鎌 田 ら[4]の 研 究 が 挙 げ られ る .郡 ら は ,複 数 の 旅 行 ブ ロ グ か ら 代 表 的 な 行 動 経 路 と そ の 行 動 の テ ー マ を 抽 出 し , 地 図 上 に マ ッ ピ ン グ を し て い る . 鎌 田 ら は , Twitter な ど の つ ぶ や き か ら ユ ー ザ の 経 路 を 抽 出 し ,地 図 上 に 経 路 と 投 稿 さ れ た 写 真 を 表 示 す る ア プ リ ケ ー シ ョ ン の 構 築 を し て い る . こ の よ う に 文 書 を マ ッ ピ ン グ す る 研 究 は 多 く , マ ッ ピ ン グ の 対 象 と さ れ る 文 書 は 多 様 で あ る . 本 研 究 で は こ れ ら の 研 究 と 異 な り , Wikipedia や 旅 行 ブ ロ グ と い っ た 複 数 の 種 類 の 文 書 を 同 一 の 地 図 上 に マ ッ ピ ン グ す る . こ れ に よ り , 任 意 の 場 所 に お け る 歴 史 や 事 件 ・ 事 故 な ど の 様 々 な 情 報 を 取 得 で き る シ ス テ ム の 構 築 が 望 め る . 文 書 を 地 図 上 に マ ッ ピ ン グ す る に は , 文 書 中 か ら 抽 出 し た 地 名 表 現 の ジ オ コ ー デ ィ ン グ が 必 要 で あ り , 旧 地 名 表 現 の 考 慮 が 必 要 と さ れ る .国 分 ら[5]は 人 手 に よ る 自 然 言 語 処 理 用 の シ ソ ー ラ ス を 構 築 す る 際 , 旧 地 名 表 現 を 出 力 し な い た め に , 旧 地 名 表 現 の 差 別 化 を 行 っ た . し か し , シ ソ ー ラ ス を 運 用 す る た め に は , 増 加 し 続 け る 旧 地 名 表 現 を 常 に 登 録 す る こ と が 必 要 で あ る と 述 べ た . こ れ に 対 し , 本 研 究 で は 莫 大 な 時 間 と コ ス ト を 必 要 と し な い 手 法 を 提 案 す る . 本 手 法 は 半 教 師 あ り 学 習 ア ル ゴ リ ズ ム で あ る ブ ー ト ス ト ラ ッ プ 法[2] を 用 い る こ と で , 自 動 で 新 旧 地 名 表 現 対 抽 出 を 行 う こ と が で き る . ブ ー ト ス ト ラ ッ プ 法 を 用 い た 辞 書 構 築 は 多 く 存 在 す る .例 え ば ,水 口 ら[6]は ,Web ペ ー ジ か ら ブ ー ト ス ト ラ ッ プ 法 を 用 い て , 地 名 辞 書 や 企 業 名 辞 書 の 構 築 を 行 っ て い る .ま た ,イ ン ス タ ン ス を 含 む Web ペ ー ジ の 検 索 に 複 数 単 語 で 組 み 合 わ せ た ク エ リ を 用 い る こ と で 実 行 時 間 の 短 縮 を 提 案 し た . 本 研 究 は , 地 名 表 現 の 分 類 で は な く , 新 旧 対 応 付 け を 行 っ て い る 点 で 異 な る . 本 研 究 と 同 様 に 時 間 を 考 慮 し た 情 報 抽 出 の 研 究 が あ る .Ling ら [7]は ,確 率 モ デ ル を 用 い る こ と で ,イ ベ ン ト と 年 代 の 時 間 関 係 を 抽 出 し た .例 え ば ,“Steve Jobs revealed the iPhone in 2007”と い っ た 文 か ら Jobs が iPhone を 発 表 し た イ ベ ン ト は ,2007 年 開 始 時 か ら 終 了 時 ま で の 間 に 存 在 す る と い う 時 間 関 係 を 抽 出 し た . ま た ,高 久 ら[8]は ,単 語 の 時 系列 頻 度 を 用 い た ,教 師 あ り 学 習 に よ り 各 米 国 大 統 領 な ど の 時 間 関 係 を 抽 出 し た . 本 研 究 で は , よ り 網 羅 的 な 抽 出 を 行 う た め , 頻 度 に 大 き く 依 存 し な い 手 法 を 用 い る . 次 に , 本 研 究 と 同 様 に , 任 意 の 場 所 に お け る 過 去 の イ ベ ン ト を マ ッ ピ ン グ し た 研 究 に つ い て 述 べ る . Jannik ら [9]は , 電 子 化 し た 書 籍 デ ー タ か ら 抽 出 し た 時 間 情 報 と 地 名 表 現 を 組 み 合 わ せ て イ ベ ン ト を 生 成 し , 地 図 上 に 表 示 す る 手 法 を 提 案 し て い る . 図 3 に 示 す 動 作 例 は 重 要 度 の 高 い イ ベ ン ト を マ ッ ピ ン グ し て い る . ま た , 各 イ ベ ン ト は 時 系 列 に お い て 前 後 の イ ベ ン ト と 線 で 結 ば れ て い る . 本 研 究 で は , 重 要 な 文 書 の み で は な く , 様 々 な 文 書 を 網 羅 的 に マ ッ ピ ン グ す る シ ス テ ム を 目 指 し て い る . そ の た め , 一 箇 所 に 複 数 の 文 書 が マッ ピ ン グ さ れ ,Jannik ら の 提 示 方 法 で は 効 果 が 薄 い と 考 え ら れ る . そ こ で , 本 シ ス テ ム で は マ ッ ピ ン グ 結 果 を 年 代 で 分 割 し て 表 示 す る . 図 3. Jannik ら [9]の シ ス テ ム 動 作 例
4. 新 旧 地 名表 現対 の 抽出
4.1. 新旧 地 名表 現対 抽 出手 法の概要
新 旧 地 名 表 現 対 の 情 報 は , テ キ ス ト 中 で[新 地 名 表 現]<パ タ ー ン >[旧 地 名 表 現 ]の よ うに 記 述 さ れ る .例 え ば , 以 下 の 例 で は , ポ ン ペ イ 島 は か つ て ポ ナ ペ と 呼 ば れ て い た こ と が わ か る . 毎 年 恒 例 ミ ク ロ ネ シ ア ツ ア ー 。 今 年 は 太 平 洋 の 孤 島 、 ポ ン ペ イ 島 ( 旧 ポ ナ ペ ) で す 。 そ こ で ,実 際 に 新 旧 地 名 表 現 対 を 含 む Web ペ ー ジ や 新 聞 記 事 内 の 文 を 調 べ た と こ ろ 「( 旧 」 や 「( 当 時 は 」 な ど 様 々 な パ タ ー ン が 存 在 し た .先 行 研 究[1]で は「( 旧 」 を 手 が か り に し ,機 械 学 習 手 法CRF を 用 い る こ と で 新 旧 地 名 表 現 対 を 高 い 精 度 で 抽 出 し た . し か し , 対 象 テ キ ス ト デ ー タ ベ ー ス を「( 旧 」を 含 む 文 に 限 定 し た た め , 新 旧 地 名 表 現 対 の 抽 出 件 数 が 少 な い こ と が 考 え ら れ る . そ の た め , 本 研 究 で は ,Espresso ア ル ゴ リ ズ ム に よ る ブ ー ト ス ト ラ ッ プ 法 を 用 い る こ と で , よ り 網 羅 的 な 新 旧 地 名 表 現 対 抽 出 を 行 う .4.2. ブートストラップ法
本 研 究 で 用 い る ブ ー ト ス ト ラ ッ プ 法 と は , シ ー ド イ ン ス タ ン ス を 基 に し , 新 た な パ タ ー ン や イ ン ス タ ン ス を 抽 出 す る 手 法 で あ る . ブ ー ト ス ト ラ ッ プ 法 を 図4 を 用 い て 説 明 す る . 例 え ば , シ ー ド イ ン ス タ ン ス に 新 地 名 表 現 「 ポ ン ペ イ 島 」 と 旧 地 名 表 現 「 ポ ナ ペ 」 を 与 え た 場 合 ,テ キ ス ト デ ー タ ベ ー ス か ら「( 旧 」な ど の パ タ ー ン 集 合 を 抽 出 す る . 次 に , 抽 出 し た パ タ ー ン 集 合 を 用 い て , 新 地 名 表 現 「 さ い た ま 市 」 と 旧 地 名 表 現 「 浦 和 市 」 と い っ た 新 た な 新 旧 地 名 表 現 対 を 抽 出 す る . こ の よ う に , パ タ ー ン と イ ン ス タ ン ス を 繰 り 返 し 抽 出 す る こ と で ,網 羅 的 な 新 旧 地 名 表 現 対 抽 出 が 可 能 と な る . 図4. ブ ー ト ス ト ラ ッ プ 法 の 概 要 ブ ー ト ス ト ラ ッ プ 法 に は , 繰 り 返 し 抽 出 す る 間 に 誤 っ た パ タ ー ン ま た は イ ン ス タ ン ス の 抽 出 が 行 わ れ た 場 合 , 精 度 が 低 く な る 問 題 が あ る . し か し , こ の 問 題 は Pantel ら [10]が 提 案 し た Espresso ア ル ゴ リ ズ ム を 用 い る こ と で 緩 和 で き る .Espresso ア ル ゴ リ ズ ム で は , イ ン ス タ ン ス と パ タ ー ン の 信 頼 ス コ ア を 相 互 再 帰 的 に 定 義 す る . こ の 信 頼 ス コ ア を 用 い る こ と で , 信 頼 ス コ ア の 高 い パ タ ー ン と 共 起 す る イ ン ス タ ン ス は 信 頼 ス コ ア が 高 く , 信 頼 ス コ ア の 高 い イ ン ス タ ン ス と 共 起 す る パ タ ー ン は 信 頼 ス コ ア が 高 く な る . こ れ に よ り , 誤 っ た 抽 出 を 減 少 さ せ , 信 頼 ス コ ア の 高 い パ タ ー ン と イ ン ス タ ン ス を 抽 出 す る こ と が で き る . パ タ ー ン 𝑝と イ ン ス タ ン ス i の 信頼 ス コ ア は そ れ ぞ れ 𝑟𝜋(𝑝)と 𝑟𝜄(𝑖)で 表 し ,以 下 の 式 を 用 い る . 𝑟𝜋(𝑝) = 1 |𝐼|∑ 𝑝𝑚𝑖(𝑖, 𝑝) max 𝑝𝑚𝑖 𝑖∈𝐼 𝑟𝜄(𝑖) (1) 𝑟𝜄(𝑖) = 1 |𝑃|∑ 𝑝𝑚𝑖(𝑖, 𝑝) max 𝑝𝑚𝑖 𝑝∈𝑃 𝑟𝜋(𝑝) (2) P と I は パ タ ー ン と イ ン ス タ ン ス の 集 合 を 表 し , pmi(i,p) は i と p の 自 己 相 互 情 報 量 を 表 し て い る . pmi(i,p)は 以 下 の 式 で 求 め ら れ る . 𝑝𝑚𝑖(𝑖, 𝑝) = log2 |𝑖, 𝑝| |𝑖,∗||∗, 𝑝| (3)4.3. ブートストラップ法 を利 用 した新 旧 地 名 表 現 対
抽出 手 法
本 研 究 で は , 図4 の よ う に シ ー ド イ ン ス タ ン ス に 新 旧 地 名 表 現 対 を 利 用 す る こ と で , テ キ ス ト デ ー タ ベ ー ス か ら 網 羅 的 に 新 旧 地 名 表 現 対 抽 出 を 行 う . 先 行 研 究 と 異 な り ,パ タ ー ン を「( 旧 」に 限 定 し な い た め ,よ り 多 く の 新 旧 地 名 表 現 対 を 抽 出 で き る と 考 え ら れ る . 本 研 究 に お け る パ タ ー ン は ,10 文 字 以 内 の 文 字 列 と す る . ま た , 抽 出 し た パ タ ー ン 集 合 の 内 ,「 は ,」 の よ う に あ ま り に も 頻 度 が 多 い パ タ ー ン は 実 行 時 間 が 非 常に 掛 か る 上 , ス コ ア の 影 響 も 低 い の で 取 り 除 く も の と す る . そ し て , 次 の イ ン ス タ ン ス 抽 出 に 用 い る パ タ ー ン 集 合 は 信 頼 ス コ ア 上 位 n 件 の パ タ ー ン を 用 い る . 本 研 究 に お け る イ ン ス タ ン ス は , パ タ ー ン の 直 前 ・ 直 後 の 地 名 ・ 施 設 名 に 関 す る 固 有 表 現 と す る . 固 有 表 現 解 析 に は 日 本 語 係 り 受 け 解 析 器CaboCha の 固 有 表 現 解 析 機 能 を 用 い る . こ れ は IREX-NE で 公 開 さ れ た 定 義1に 基 づ い た 固 有 表 現 に 分 類 を 行 う 機 能 で あ る .本 研 究 で は , こ の 機 能 を 用 い て ,LOCATION ま た は ORGANIZATION と さ れ た 語 を イ ン ス タ ン ス と し て 抽 出 す る .以 下 に LOCATION と ORGANIZATION の定 義 を 述 べ る . ま ず ,LOCATION は , 大 陸 や 地 域 名 , 駅 名 ,山 と い っ た 固 有 の 場 所 を 指 す 名 前 で あ る .次 に , ORGANIZATION は ,株 式 会 社 や 学 校 ,病 院 と い っ た な ん ら か の 目 的 を 持 っ た 組 織 な ど の 名 前 で あ る . よ っ て 本 研 究 で は , LOCATION が 地 名 で あ り , ORGANIZATION が 施 設 名 と 対 応 す る と 考 え,こ の 二 種 類 の 固 有 表 現 を 用 い る . そ し て , 次 の パ タ ー ン 抽 出 に 用 い る イ ン ス タ ン ス 集 合 は 信 頼 ス コ ア 上 位m 件 と す る . た だ し 6 章の 実 験 で は , パ タ ー ン 抽 出 , イ ン ス タ ン ス 抽 出 の 反 復 回 数 を1 回 と し た た め , イ ン ス タ ン ス か ら の パ タ ー ン 抽 出 は 行 わ な い . そ の た め ,m の 値 は 定 義 し な い も の と す る . パ タ ー ン 抽 出 と イ ン ス タ ン ス 抽 出 の 繰 り 返 し に よ り , 抽 出 し た イ ン ス タ ン ス を 用 い て 新 旧 地 名 表 現 対 応 辞 書 を 作 成 す る .
5. 文 書 マ ッピ ング シ ステ ム
本 節 で は , 本 シ ス テ ム に つ い て 説 明 す る . 本 シ ス テ ム の 流 れ に つ い て 図 5 に 示 す . ま ず , 文 書 に 含 ま れ る 全 て の 地 名 ・ 施 設 名 に 関 す る 固 有 表 現 を 地 名 表 現 と し て 抽 出 す る .次 に ,新 旧 地 名 表 現 対 応 辞 書 を 参 照 し て , 抽 出 し た 地 名 表 現 を 新 地 名 表 現 に 置 き 換 え る .そ し て , 緯 度 経 度 デ ー タ ベ ー ス を 用 い て 地 名 表 現 の ジ オ コ ー デ ィ ン グ を 行 い , 地 図 上 に マ ッ ピ ン グ を 行 う . ま ず , 文 書 中 の 地 名 表 現 の 抽 出 に つ い て 述 べ る . 本 研 究 で は , 地 名 表 現 の 抽 出 に 4.3 節 で 述 べ た CaboCha を 用 い る . 使 用 す る 固 有 表 現 も イ ン ス タ ン ス と 同 様 の LOCATION と ORGANIZATION で あ る . 抽 出 し た 地 名 表 現 の ジ オ コ ー デ ィ ン グ に は , 地 名 ・ 施 設 名 の 緯 度 経 度 デ ー タ ベ ー ス と の マ ッ チ ン グ を 行 う . た だ し , 地 名 表 現 が 新 旧 地 名 表 現 対 応 辞 書 の 旧 地 名 表 現 と 一 致 し た 場 合 は 対 応 す る 新 地 名 表 現 の 緯 度 経 度 で ジ オ コ ー デ ィ ン グ を 行 う . そ し て , ジ オ コ ー デ ィ ン グ に よ っ て 付 与 さ れ た 緯 度 経 度 を 基 に ,Google Maps2を 用 い て 文 書 の マ ッ ピ ン グ を 行 う . 1 http://nlp.cs.nyu.edu/irex/ 2 http://maps.google.co.jp 図5. 文 書 マ ッ ピ ン グ 概 要6. 新 旧 地 名表 現対 抽 出実 験
本 節 で は 4 章の 新 旧 地 名 表 現 対 抽 出 手 法 の評 価 実 験 に つ い て 説 明 す る .6.1 節 で は 実 験 方 法 に つ い て 述 べ , 6.2 節 で 実 験結 果 , 6.3 節 で 考 察 に つ い て 述 べ る .6.1. 実験 方 法
ブ ー ト ス ト ラ ッ プ 法 に 用 い る シ ー ド イ ン ス タ ン ス に は Wikipedia の「 日 本 の 廃 止 市 町 村 一 覧3」 に 記 載 さ れ た 地 名 ,JST 提 供 の 企 業 名 の 新 旧 地 名 表 現 対 ,各 30 件 を 使 用 し た . 本 研 究 で は , 施 設 名 の 収 集 が 困 難 と 考 え た た め , 施 設 名 の 一 部 で あ る 企 業 名 を シ ー ド イ ン ス タ ン ス と し た . そ し て , テ キ ス ト デ ー タ ベ ー ス に は , NTCIR-5Web 検 索 タ ス ク4に 使 用 さ れ た デ ー タ セ ッ ト を 用 い た . 先 行 研 究 の 実 験 で は , 上 記 の 1.3TB あ る テ キ ス ト デ ー タ ベ ー ス を 用 い た . し か し , ブ ー ト ス ト ラ ッ プ 法 に よ る 抽 出 は 非 常 に 時 間 が 掛 か る た め , 本 実 験 で は 88GB に 減ら し た デ ー タ を テ キ ス ト デ ー タ ベ ー ス と し た . こ の テ キ ス ト デ ー タ ベ ー ス に 対 し て ,4 章 の ブ ー ト ス ト ラ ッ プ 法 を 用 い , パ タ ー ン か ら 抽 出 し た イ ン ス タ ン ス の 信 頼 ス コ ア 上 位 400 件 を 評 価 す る . た だ し , パ タ ー ン と イ ン ス タ ン ス の 抽 出 反 復 回 数 は 1 回 と す る . ま た , イ ン ス タ ン ス 抽 出 に 用 い る パ タ ー ン 集 合 の 件 数 は n=20 と す る.評 価 尺 度 に は ,精 度 を 用 い る .6.2. 実験 結 果
実 験 の 結 果 , 抽 出 し た パ タ ー ン 数 は 247 件, イ ン ス タ ン ス 数 は 9,038 件 で あ っ た . イ ン ス タ ン ス 信 頼 ス コ ア の 上 位 400 件 ま で の 平 均 精 度 の 推 移 を 図 6 に 示 す . ま た , 上 位 400 件 を 4 つ の 区 間 に 分 割 し , 1 区 間 ご と の 平 均 精 度 を 表 1 に 示 す . 図 6 と 表 1 を 見 る と , 上 位 250 件 以 降 信頼 ス コ ア が 下 が る に つ れ , 精 度 も 低 下 し て い る こ と が 分 か る . ま た , 上 位 10 件 の 平 均 精 度 は 0.60 で あ っ た .こ れ ら の こ と か ら , 信 頼 ス コ ア が 高 け れ ば , 精 度 も 高 い と い っ た , ブ ー ト ス ト ラ ッ プ 法 を 用 い た 上 位 下 位 関 係 抽 出 と 同 様 の 結 果 が 得 ら れ た . そ の た め , 新 旧 地 名 表 現 対 抽 出 に ブ ー ト ス ト ラ ッ プ 法 が 有 効 で あ る こ と が 分 か る . 3 https://ja.wikipedia.org/wiki/日 本 の 廃 止 市 町 村 一 覧 4 http://www.lemurproject.org/clueweb09.php/図6. イ ン ス タ ン ス 信 頼 ス コ ア 上 位 400 件 の 精 度 表1. 区 間 に お け る 精 度 区 間 精 度 [1-100] 0.39 [101-200] 0.40 [201-300] 0.31 [300-400] 0.11
6.3. 考察
パ タ ー ン の 信 頼 ス コ ア 上 位 10 件 を 表 2,正 し く 抽 出 さ れ た イ ン ス タ ン ス の 例 10 件 を 表 3,誤 っ て 抽 出 さ れ た イ ン ス タ ン ス の 例 5 件 を 表 4 に 示 す . 表2. パ タ ー ン 信 頼 ス コ ア 上 位 10 件 順 位 パ タ ー ン 順 位 パ タ ー ン 1 ( 旧 6 側 と 2 の 旧 7 三 井 3 : 旧 8 市 場 4 (旧 9 ( ← 5 ( 旧 10 ( 当 時 表3. 正 し く 抽 出 さ れ た イ ン ス タ ン ス 例 新 地 名 表 現 旧 地 名 表 現 ロ シ ア ソ 連 ド イ ツ 西 ド イ ツ ジ ェ ネ オ ン パ イ オ ニ ア JR 国 鉄 J R 国 鉄 魚 沼 市 堀 之 内 町 マ ケ ド ニ ア ユ ー ゴ ス ラ ビ ア 日 本 学 生 支 援 機 構 日 本 育 英 会 HP コ ン パ ッ ク 中 国 東 北 部 満 州 表4. 誤 っ て 抽 出 さ れ た イ ン ス タ ン ス 例 新 地 名 表 現 旧 地 名 表 現 日 本 日 本 軍 ITmedia ZDNet 関 東 東 京 UFJ 三 和 中 央 金 庫 全 国 信 用 金 庫 連 合 会 抽 出 し た パ タ ー ン に は 「( 旧 」 の 他 に , 表 2 に 示 す 「 : 旧 」 や 「( ← 」,「( 当 時 」, さ ら に ,「 、 か つ て の 」, 「 と 合 併 す る 」 と い っ た 様 々 な 有 効 な パ タ ー ン を 抽 出 す る こ と が で き た . ま た , 先 行 研 究 で 抽 出 し た イ ン ス タ ン ス 数 43,333 件 と 比 べ , 本 実 験 で は 1/10 以 下 の テ キ ス ト デ ー タ ベ ー ス か ら 9,038 件 の イ ン ス タ ン ス を 抽 出 す る こ と が で き た . 今 後 , 反 復 回 数 を 増 や す こ と で よ り 多 く の イ ン ス タ ン ス を 抽 出 が で き る と 考 え ら れ る . こ れ ら の こ と か ら , 本 研 究 の 目 的 で あ る , よ り 多 く の 新 旧 地 名 表 現 対 抽 出 に 貢 献 で き た と 考 え ら れ る . 図6 と 表 1 を見 る と , 上 位 1 件 か ら 250 件ま で 精 度 が ほ ぼ 同 値 で あ る こ と が 分 か る . こ れ は , 反 復 回 数 や イ ン ス タ ン ス 抽 出 に 用 い た パ タ ー ン 数(n=20)が 問 題 で あ っ た と 考 え ら れ る . そ の た め , 反 復 回 数 を 増 や す こ と や ,n の 値 を 増 や す こ と で , よ り イ ン ス タ ン ス 間 の 信 頼 ス コ ア の 差 を 大 き く す る 必 要 が あ る . 次 に ,抽 出 さ れ た パ タ ー ン を 確 認 し た と こ ろ ,「 が 」 や「 と 」な ど 効 果 が 期 待 で き な い パ タ ー ン が 存 在 し た . し か し , テ キ ス ト デ ー タ ベ ー ス を 確 認 し た と こ ろ , イ ン ス タ ン ス の 直 後 に 「 を 買 収 し た 」 や 「 が 合 併 し た 」 な ど 新 旧 地 名 表 現 対 を 決 定 付 け る パ タ ー ン を 確 認 し た . こ の こ と か ら , 本 手 法 の 二 項 間 パ タ ー ン 以 外 に も イ ン ス タ ン ス 直 後 の パ タ ー ン を 追 加 す る こ と で , よ り 精 度 が 向 上 す る と 考 え ら れ る . 表3 を 見 る と, 正 し く 抽 出 さ れ た イ ン ス タン ス の 中 に「JR-国 鉄 」と「 J R ― 国 鉄 」が あ る .こ の よ う に , 共 通 の 地 名 表 現 と 対 応 付 く 地 名 表 現 を 利 用 し て , 表 記 揺 れ を 検 出 す る こ と も 可 能 と 考 え ら れ る . 次 に 本 手 法 で 誤 っ た 抽 出 に 表 4 を 用 い て 考 察 す る .ま ず ,「ITmedia ―ZDNet 」 は , ニ ュ ー ス サ イ ト 「 ZDNet JAPAN 」 が 「ITmedia」に リ ニ ュ ー ア ル し た た め ,イ ン ス タ ン ス 信 頼 ス コ ア が 高 く な っ た と 考 え ら れ る . し か し , こ の 対 は 地 名 表 現 で は な い の で 誤 り と し た .「UFJ― 三 和 」は 「 三 和 銀 行 」と「 東 海 銀 行 」が 合 併 し ,「UFJ 銀 行 」に 名 称 が 変 更 し た .し か し ,テ キ ス ト デ ー タ に は「 銀 行 」 が 省 略 し て 記 述 し て お り , 緯 度 経 度 の 特 定 が 困 難 に な る 問 題 が 起 こ る .例 え ば 他 に「UFJ グ ル ー プ (UFJ)」や ス ー パ ー マ ー ケ ッ ト チ ェ ー ン 運 営 会 社 「 三 和 」 が 一 致 す る 可 能 性 が あ る .「 中 央 金 庫 ― 全 国 信 用 金 庫 連 合 会 」 は 本 来 「 信 金 中 央 金 庫 ― 全 国 信 用 金 庫 連 合 会 」 で あ る が , 固 有 表 現 解 析 に お い て ,「 中 央 金 庫 」 が ORGANIZATION と な っ て い た . 「( 旧 」 を 含 む 文 の み を 抽 出 対 象 と し た 先 行 研 究 の 精 度 0.88 と 比 較 す ると ,低 下 し て い る が ,抽 出 の 反 復 回 数 を 増 や す こ と や , 機 械 学 習 を 用 い た イ ン ス タ ン ス 抽 出 に よ り 差 を 小 さ く で き る と 考 え ら れ る . ま た , 多 く の 有 効 な パ タ ー ン 抽 出 が で き た こ と か ら , 先 行 研 究 よ り 多 く の 新 旧 地 名 表 現 対 抽 出 が 望 め る . 0 0.2 0.4 0.6 0.8 1 0 50 100 150 200 250 300 350 400 (精度) (順位)7. お わ り に
本 稿 で は , 様 々 な 文 書 を 時 空 領 域 に マ ッ ピ ン グ す る シ ス テ ム を 構 築 す る た め , 新 旧 地 名 表 現 対 を 大 量 の テ キ ス ト デ ー タ か ら 抽 出 し , 旧 地 名 表 現 を 含 む 文 書 を マ ッ ピ ン グ す る 手 法 を 提 案 し た . 新 旧 地 名 表 現 対 抽 出 に は ブ ー ト ス ト ラ ッ プ 法 を 用 い る こ と で 実 現 し た . 実 験 結 果 よ り , 上 位 101 件 目 か ら 上 位 200 件 目 の 区 間 に お け る 平 均 精 度 が 0.400 で 他 の 区 間 よ り 高 い 値 で あ っ た. 先 行 研 究 と 比 べ て 低 い 値 で あ っ た が . 有 効 な パ タ ー ン の 抽 出 が で き た こ と か ら 成 果 が あ っ た と 考 え ら れ る . ま た , 精 度 は 機 械 学 習 を 用 い た イ ン ス タ ン ス 抽 出 を 行 う こ と で 改 善 で き る と 考 え ら れ る . 今 後 の 課 題 に は , パ タ ー ン の 位 置 , イ ン ス タ ン ス 抽 出 に お け る 地 名 ・ 施 設 名 の 正 し い 判 定 な ど が 挙 げ ら れ る .謝 辞
本 研 究 の シ ー ド イ ン ス タ ン ス の 一 部 を 提 供 し て く だ さ っ た 国 立 研 究 開 発 法 人 科 学 技 術 振 興 機 構(JST) に 深 く 感 謝 致 し ま す .参 考 文 献
[1] 平 山 拓 実 ,難 波 英嗣 ,竹 澤 寿 幸 ,“文 書 の 時 空 間 3 次 元 地 図 へ の マ ッ ピ ン グ”, 電 子 情 報 通 信 学 会 技 術 研 究 報 告 LOIS, Vol.115, No.110, pp.35-39, 2015. [2] Yarowsky David, “Unsupervised Word SenseDisambiguation Rivaling Supervised Methods ”, Proceedings of the 33rd Annual Meeting on
Association for Computational Linguistics (SCL’95), pp.189-196, 1995. [3] 郡 宏 志 ,服 部 峻 ,手 塚 太郎 ,田 島 敬 史 ,田 中 克 己 , “ブ ロ グ か ら の ビ ジ タ ー の 代 表 的 な 行 動 経 路 と そ の コ ン テ キ ス ト の 抽 出”, 情 報 処 理 学 会 研 究 報 告 デ ー タ ベ ー ス, Vol.2006, No.78, pp.35-42, 2006. [4] 鎌 田 早 織 , 坂 本 寛 幸 , 井 垣 宏 , 中 村 匡 秀 , “ マ ッ シ ュ ア ッ プAPI を 用 い た 異 な る ラ イ フ ロ グ サ ー ビ ス の 連 携”, 電 子 情 報 通 信 学 会 技 術 研 究 報 告 LOIS, Vol.109, No.450, pp.91-96, 2010. [5] 国 分 芳 宏 , 岡 野 弘 行 , “ 複 数 の 観 点 で 分 類 し た 自 然 言 語 処 理 用 シ ソ ー ラ ス”, 自 然 言 語 処 理 , Vol.17, No.1, pp.247-263, 2010. [6] 水 口 弘 紀 ,河 合 英 紀 ,土 田 正 明 ,久 寿 居 大 ,“Web 知 識 を 利 用 し た ブ ー ト ス ト ラ ッ プ に よ る 辞 書 増 殖 手 法”, 電 子 情 報 通 信 学 会 , 第 18 回 デ ー タ 工 学 ワ ー ク シ ョ ッ プ 論 文 集, E8-5, 2007.
[7] Xiao Ling and Daniel Weld, “Temporal Information Extraction”, Proceedings of the 24th AAAI,
pp.1385-1390, 2010.
[8] 高 久 陽 平 ,吉 永 直 樹 , 鍛 治 伸 裕 ,豊田 正 史 , 喜 連 川 優 ,“ 時 系 列 テ キ ス ト を 用 い た 恒 久 性 と 一 意 性 に 基 づ く 関 係 の 分 類”, 電 子 情 報 通 信 学 会 論 文 誌 D, Vol.96, No.3, pp.411-422, 2013.
[9] Jannik Strötgen and Michael Gertz, “Event-Centric Search and Exploration in Document Collections ”, Proceedings of the 12th ACM/IEEE-CS joint
conference on Digital Libraries, pp.223 -232, 2012. [10] Pantel Patrick and Pennacchiotti Marco, “Espresso:
Leveraging Generic Patterns for Automatically Harvesting Semantic Relations”, Proceedings of the 21st International Conference on Computational
Linguistics and the 44th Annual Meeting of the ACL,