DEIM Forum 2016 E8-1
信頼区間の下限値による確率推定を用いた企業名抽出
中野 翔平
†菊地 真人
†吉田 光男
†岡部 正幸
‡梅村 恭司
††豊橋技術科学大学 情報・知能工学系 〒441-8580 愛知県豊橋市天白町雲雀ヶ丘 1-1
‡豊橋技術科学大学 情報メディア基盤センター 〒441-8580 愛知県豊橋市天伯町雲雀ケ丘 1-1
E-mail: †{[email protected], [email protected], [email protected], [email protected]},
‡[email protected]
あらまし Good-Turing のスムージングとナイーブベイズを用いた先行研究において,名前の周辺と名前を 構成する文字列を特徴量としている抽出方法がある.本研究では Good-Turing の代わりに信頼区間の下限値に よる確率推定を用いた企業名抽出を提案する.先行研究と同様の条件で新聞記事から企業名の抽出を行う比較 実験を行なった結果,近似された適合率及び近似された再現率のそれぞれにおいて提案手法が Good-Turing を 用いた方法を上回り,有意水準 1%で提案手法と先行研究の有意差が認められた. キーワード 情報抽出,企業名,N-gram,ナイーブベイズ,確率推定1. はじめに
文 書 の 分 類 を す る た め に , 同 じ 種 類 の 名 前 の リ ス ト が 用 い ら れ る こ と が あ る . 例 え ば , 野 球 や サ ッ カ ー の チ ー ム 名 や 選 手 の 名 前 が 含 ま れ る 文 書 は ス ポ ー ツ に , パ ソ コ ン の OS 名 や 携 帯 電 話 の 機 種 名 が 含 ま れ る 文 書 は IT に 分 類 す る こ と が で き る .こ の よ う に ,特 定 の 種 類 の 名 前 の リ ス ト が あ る こ と で 人 手 に よ ら な い 分 類 が 可 能 に な る . 特 定 の 種 類 の 名 前 の リ ス ト を 作 成 す る 方 法 と し て , 既 存 の 辞 書 か ら 名 前 を 取 り 出 し 利 用 す る 方 法 や 手 作 業 で リ ス ト に 名 前 を 追 加 し て い く 方 法 , 形 態 素 解 析 又 は 構 文 解 析 で 名 前 を 取 り 出 し 利 用 す る 方 法 が 挙 げ ら れ る . し か し , 既 存 の 辞 書 か ら 名 前 を 取 り 出 す 方 法 は 新 た な 語 が 含 ま れ な い と い う 問 題 が あ る . 手 作 業 で 追 加 す る 方 法 は 一 か ら 作 成 し た 場 合 , コ ス ト が 膨 大 と な る , 最 初 だ け 既 存 の 辞 書 を 用 い た と し て も 新 た な 語 が 出 続 け る た び に 追 加 し て い く の は 同 様 に コ ス ト が 大 き い , ま た 人 為 的 な ミ ス も 発 生 し や す い と い う 問 題 が あ る . 形 態 素 解 析 又 は 構 文 解 析 を 利 用 す る 方 法 は 固 有 名 詞 が 抽 出 で き た と し て も , そ こ か ら は 特 定 の 種 類 の 名 前 だ け を 人 手 で 選 別 し な け れ ば な ら な い , ま た 辞 書 に 含 ま れ な い 名 前 が 出 現 し た 場 合 に 漏 れ が 生 じ る と い う 問 題 も あ る . こ れ ら の 問 題 を 解 決 す る た め に 先 行 研 究 に お い て , ナ イ ー ブ ベ イ ズ を 基 に し た 特 定 の 種 類 の 名 前 の 抽 出 法 が 提 案 さ れ て い る[ 6 , 7]. ナ イ ー ブ ベ イ ズ を 基 に し た 抽 出 法 で は , 未 知 語 が 現 れ た 場 合 , 本 来 の 確 率 が 0 で 無 い に も 関 わ ら ず 全 体 の 尤 度 が 0 に な る と い う 問 題 が あ る . こ の 問 題 を 解 決 す る た め に 確 率 推 定 が 用 い ら れ る . 未 知 の 名 前 を 抽 出 し た い 場 合 , 確 率 推 定 法 の 選 択 が 重 要 と な る . 本 研 究 で は , 先 行 研 究 で 提 案 さ れ た 特 定 の 種 類 の 名 前 の 抽 出 法 に , 新 た に 信 頼 区 間 の 下 限 値 に よ る 確 率 推 定 を 検 討 す る . こ れ は 先 行 研 究 の 課 題 と し て 挙 げ ら れ た , 片 仮 名 を 含 む 名 前 に 対 し て 誤 り が 発 生 し や す い と い う 問 題 に 対 し て 対 処 し た も の で あ る . さ ら に , 先 行 研 究 で 最 も 適 合 率 及 び 再 現 率 の 高 か っ た 確 率 推 定 法 と 本 稿 で 提 案 す る 確 率 推 定 法 の 比 較 実 験 を 行 い , 本 稿 で 提 案 す る 確 率 推 定 法 の 方 が 適 合 率 及 び 再 現 率 を 有 意 に 向 上 で き る こ と を 示 す .2. 関連研究
こ こ で は , 本 研 究 に 関 連 す る 未 知 語 の 抽 出 , 日 本 語 か ら の 特 定 の 種 類 の 名 前 の 抽 出 に 関 連 す る 研 究 , ナ イ ー ブ ベ イ ズ を 基 に し た 特 定 の 種 類 の 名 前 の 抽 出 に 関 す る 研 究 に つ い て 述 べ る . 未 知 語 の 抽 出 が 可 能 な 研 究 と し て , 次 の よ う な も の が あ る .森 ら[ 1 ]は ,N-gram 統 計 値 を 用 い た 単 語 の 抽 出 と 品 詞 の 推 定 を 同 時 に 行 う 手 法 を 提 案 し て い る . こ の 研 究 で は 形 態 素 解 析 済 み の コ ー パ ス に 対 し , 名 詞 の 前 後 の N-gram の 分 布 を 用 い る こ と で 未 知 語 を 含 む 名 詞 の 抽 出 を 行 な っ て い る . 梅 村[ 2]は , 出 現 頻 度 と 出 現 集 中 を 表 す 統 計 量 を 用 い る こ と で 辞 書 を 用 い ず 文 書 中 の 特 有 の 語 を 抽 出 す る 手 法 を 提 案 し て い る . こ の 研 究 で は あ る 文 字 列 を 含 む 文 書 の 数 を 用 い て 文 書 中 の 特 有 の 語 を 抽 出 し て い る . 以 上 の 研 究 は 未 知 語 を 抽 出 で き る も の で あ る が , 特 定 の 種 類 の 名 前 の 抽 出 は 行 な っ て い な い . 日 本 語 か ら の 特 定 の 種 類 の 名 前 の 抽 出 に 関 連 す る 研 究 と し て , 固 有 名 詞 の 分 類 の 1 つ で あ る 組 織 名 を 抽 出 す る 研 究[ 3 , 4, 5 ]が あ る . こ れ ら の 手 法 は 単 語 ご と に 分 割 済 み の 文 書 を 用 意 , 又 は 先 に 単 語 ご と に 分 割 を 行 な っ て い る . ナ イ ー ブ ベ イ ズ を 基 に し た 特 定 の 種 類 の 名 前 の 抽 出 に 関 す る 研 究 と し て , 名 前 の 周 辺 と 名 前 を 構 成 す る 文 字 列 を 特 徴 量 と し て い る 次 の よ う な 研 究 が あ る . 菅 野[ 6 ]は , N-gram の 統 計 値 を 用 い て 語 の 抽 出 を 行 う 手法 を 提 案 し て い る . こ の 研 究 で は 企 業 名 を 適 用 例 と し て , 企 業 名 の 前 後 の 文 字 N-gram の 出 現 頻 度 を 用 い て 抽 出 を 行 な っ て い る . ま た , 企 業 名 抽 出 に お い て は 企 業 名 自 身 の 文 字 N-gram の 出 現 頻 度 も 特 徴 量 と し て 用 い る こ と が 有 用 で あ る こ と を 報 告 し て い る . 中 野 ら[ 7 ] は , 菅 野 の 手 法 を 基 に し た 新 た な 特 徴 量 を 提 案 し て い る .こ の 研 究 で は 企 業 名 自 身 を 新 た に 企 業 名 自 身 の 前 , 企 業 名 自 身 の 中 及 び 企 業 名 自 身 の 後 に 分 け , そ れ ぞ れ の 文 字 N-gram の 出 現 頻 度 を 特 徴 量 と し て 用 い る こ と が 有 用 で あ る こ と を 報 告 し て い る . こ の 手 法 は , 形 態 素 解 析 を 利 用 せ ず に 抽 出 を 行 う た め 1 章 に 挙 げ た 漏 れ が 生 じ る と い う 問 題 を 回 避 で き る と 考 え る . さ ら に こ の 方 法 は , 既 存 の 辞 書 の 増 強 と し て 用 い る こ と も で き , 抽 出 し た 未 知 語 を リ ス ト に 追 加 す る こ と で よ り 内 容 を 充 実 さ せ ら れ る と い う 点 も 有 用 で あ る . こ の 方 法 を 改 良 す る こ と で よ り 正 確 に 特 定 の 種 類 の 名 前 の 抽 出 が 行 え る よ う に な る と 考 え る . 中 野 ら[ 7]の 手 法 は Good-Turing の ス ム ー ジ ン グ を 用 い て い る . こ れ は 観 測 さ れ な か っ た 語 に 対 し て 一 定 の 頻 度 を 分 配 し , 観 測 さ れ た 語 に 対 し て も 頻 度 の 補 正 を 行 な っ て い る . 一 方 , 提 案 手 法 は ベ イ ズ 統 計 の 枠 組 み で , 観 測 に よ っ て 計 算 で き る 事 後 分 布 を 扱 う . 通 常 は ,こ の 事 後 分 布 に お け る 確 率 の 期 待 値 を と る 方 法( ラ プ ラ ス ス ム ー ジ ン グ )で 確 率 を 推 定 す る 場 合 が 多 い が , 本 研 究 で は 事 後 確 率 に お け る 信 頼 区 間 を 構 成 し , そ の 下 限 値 を と る ア プ ロ ー チ を と っ た . 提 案 手 法 と 中 野 ら[ 7]に お い て , 特 徴 と す る も の , 尤 度 比 の 計 算 方 法 , 評 価 の 行 い 方 は 同 一 で あ る が , 確 率 推 定 の 方 法 だ け が 異 な る 本 研 究 で は , 確 率 推 定 の 方 法 を 取 り 換 え る こ と で 適 合 率 及 び 再 現 率 が 有 意 に 向 上 す る こ と を 示 す .
3. 使用する概念
3.1. 概要
こ こ で は ,本 研 究 で 使 用 し て い る 5 つ の 概 念 ,N-gram, 分 布 仮 説 ,評 価 文 字 列 ,尤 度 比 ,文 書 に つ い て 述 べ る . こ れ ら の 概 念 は 中 野 ら[ 7 ]と 同 じ も の で あ る .3.2.
N
-gram
N-gram[ 8 ]と は , 文 字 , 単 語 又 は 品 詞 な ど の 連 続 し た 組 み 合 わ せ で あ る . 単 語 を 空 白 で 区 切 る 英 語 な ど の 言 語 で は 単 語 単 位 で 区 切 っ た N-gram( 単 語 N-gram) が 使 用 さ れ る . し か し , 日 本 語 は 空 白 で 区 切 ら れ て い な い た め , 直 接 単 語 N-gram を 用 い る こ と は 出 来 な い . こ の 問 題 の 解 決 と し て ,文 字 単 位 で 分 割 を 行 う 方 法[ 1 , 9 ] が あ る .今 回 は こ の 文 字 単 位 で 区 切 っ た N-gram( 文 字 N-gram) を 用 い る . ま た , 菅 野[ 6 ]は 企 業 名 抽 出 に 対 し て 文 字 N-gram の 大 き さ 別 の 比 較 実 験 を 行 い , 図 1 の よ う な 2 文 字 区 切 り の N-gram( 文 字 Bigram) を 用 い た 場 合 に 最 も 適 合 率 及 び 再 現 率 が 高 か っ た こ と を 報 告 し て い る . 中 野 ら[ 7]も 文 字 Bigram を 用 い て い る . 図 1 文 字 Bigram の 例3.3. 分布仮 説
Harris の 分 布 仮 説[ 1 0 ]と は ,「 同 じ 文 脈 で 使 わ れ る 言 葉 は , 類 似 す る 意 味 を も つ 傾 向 が あ る 」 と い う 仮 説 で あ る . 中 野 ら[ 7 ]と 同 様 に , 本 研 究 で は こ の 分 布 仮 説 に お け る 文 脈 を 企 業 名 の 直 前 及 び 直 後 の 文 字 Bigram と 考 え る .3.4. 評価文 字列
中 野 ら[ 7]は 分 布 仮 説 を 基 づ い て 企 業 名 周 辺 の 文 字 列 を , 企 業 名 の 前 , 企 業 名 自 身 の 前 , 企 業 名 自 身 の 中 , 企 業 名 自 身 の 後 及 び 企 業 名 の 後 の 5 つ に 分 類 し , 特 徴 量 と し て 用 い る こ と が 有 用 で あ る と 報 告 し て い る . こ れ 以 降 , 企 業 名 の 前 , 企 業 名 自 身 の 前 , 企 業 名 自 身 の 中 , 企 業 名 自 身 の 後 及 び 企 業 名 の 後 と い う 各 部 分 を 図 2 の よ う に 先 行 部 , 先 頭 部 , 中 間 部 , 末 尾 部 及 び 後 続 部 と し て 表 す . ま た , 図 3 の よ う に 文 書 全 体 の 評 価 文 字 列 を 集 め た 集 合 を 評 価 文 字 列 集 合 と す る . 図 2 評 価 文 字 列 の 各 部 の 例 図 3 評 価 文 字 列 集 合 の 例3.5. 尤度比
文 字 列 の 企 業 名 ら し さ を 評 価 す る 値 と し て 尤 度 比 を 用 い る .尤 度 比 と は ,帰 無 仮 説 の 尤 度𝐿(𝐻0)と 対 立 仮 説 の 尤 度𝐿(𝐻1)の 比 を 取 り ,ど ち ら が 尤 も ら し い か を 比 較 す る 指 標 で あ る . 対 立 仮 説𝐻1よ り 帰 無 仮 説𝐻0の 方 が 尤 も ら し い と き に 尤 度 比 は 小 さ く な り , 帰 無 仮 説𝐻0よ り 対 立 仮 説𝐻1の 方 が 尤 も ら し い と き に 尤 度 比 は 大 き く な る . ど ち ら も 同 じ く ら い 尤 も ら し い と き に は 尤 度 比 は 1 と な る . 本 研 究 で は ,帰 無 仮 説𝐻0を「 与 え ら れ た 文 字 Bigram が 文 書 中 か ら 任 意 に 取 り 出 し た も の で あ る 」( 評 価 文 字 列 集 合 の 文 字 Bigram で は な い ), 対 立 仮 説𝐻1を 「 与 え ら れ た 文 字 Bigram が 企 業 名 自 身 ま た は そ の 直 前 直 後 か ら 取 り 出 し た も の で あ る 」( 評 価 文 字 列 集 合 の 文 字 Bigram で あ る ) と す る . 以 上 の 帰 無 仮 説𝐻0と 対 立 仮 説𝐻1を 尤 度 比 と し て 表 す と 式 (1)と な る . 評価文字列集合の文字Bigram から求めた尤度 文 書 全 体 の 文 字Bigram か ら 求 め た 尤 度 (1)3.6. 文書
3.3 節 の 分 布 仮 説 に よ り , 尤 度 の 計 算 に は 企 業 名 の 直 前 直 後 の 文 字 Bigram の 出 現 頻 度 が 必 要 と な る た め , 図4の よ う な 文 章 中 に 企 業 名 が 含 ま れ て お り 直 前 直 後 の 文 字 Bigram を 得 る こ と の で き る 文 書 を 使 用 す る . 図 4 文 書 と 利 用 す る 直 前 直 後 の 文 字 Bigram の 例4. スムージング
4.1. 概要
尤 度 の 計 算 に お い て , 未 知 の 文 字 Bigram が 現 れ た 場 合 , 本 来 の 尤 度 が 0 で 無 い に も 関 わ ら ず 文 字 列 全 体 の 尤 度 が 0 に な る と い う 問 題( ゼ ロ 頻 度 問 題 )が あ る . こ の た め ,ス ム ー ジ ン グ に よ る 確 率 推 定 が 用 い ら れ る . こ こ で は ,中 野 ら[ 7]の 手 法 で 用 い ら れ た Good-Turing, 及 び 本 稿 で 新 た に 用 い る 信 頼 区 間 の 下 限 値 に よ る ス ム ー ジ ン グ に つ い て 述 べ る .4.2. Good-Turing
Good-Turing[ 11 ]は 頻 度𝑟の 語 の 種 類 数 N𝑟を 用 い て 出 現 頻 度 に 対 し て 補 正 を 行 い , 出 現 し な か っ た 語 の 確 率 を 推 定 す る .ま た 頻 度 が 高 い 語 の 場 合 , N𝑟の 値 が 不 安 定 に な る た め , ジ ッ プ の 法 則 を 用 い る こ と で さ ら に 補 正 を 行 う . ジ ッ プ の 法 則 と は 「 頻 度 順 位 が n 位 の 単 語 は 1 位 の 単 語 の 1/n の 確 率 で あ ら わ れ る 」 と い う 法 則 で あ る . こ の 法 則 に よ り ,logN𝑟及 びlogrが 線 形 の 関 係 で 表 さ れ る . 中 野 ら[ 7]は Gale ら[ 1 2 ]の 方 法 に 基 づ く , 通 常 の Good-Turing と 線 形 回 帰 を 用 い た Good-Turing を 頻 度 が 低 い も の と 高 い も の で 切 り 替 え る Good-Turing を 用 い て 確 率 推 定 を 行 な っ て い る . 中 野 ら で 使 用 さ れ て い る Good-Turing を 式 (2)に 示 す . 𝑃𝑆𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) = { 𝑃𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) (𝜎 × 1.65 < |𝑃𝐺𝑇(𝑤𝑗𝑖| 𝑆𝑋) − 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋)|) 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) (𝜎 × 1.65 ≧ |𝑃𝐺𝑇(𝑤𝑗𝑖| 𝑆𝑋) − 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋)|) 𝑁1 𝑁0𝑁 (𝑟 = 0) (2) 𝑃𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) = (𝑟 + 1)・ 𝑁𝑟+1 𝑁𝑟 𝑁 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) =𝑟(1 + 1𝑟) 𝑏+1 𝑁 𝜎 = √(𝑟 + 1)2・𝑁𝑟+1 𝑁𝑟 (1 + 𝑁𝑟+1 𝑁𝑟 ) 𝑛 𝑤𝑖𝑗 𝑃𝑆𝐺𝑇 𝑆𝑋 𝑟 𝑁 𝑁𝑟 評 価 文 字 列 の 文 字 数 評 価 文 字 列 中 の𝑖文 字 目 か ら j文 字 目 ま で の 部 分 文 字 列 使 用 す る Good-Turing の 推 定 値 任 意 の 文 字 Bigram 集 合 𝑆𝑋内 の𝑤𝑖𝑗の 頻 度 文 字 Bigram の 総 頻 度 𝑆𝑋内 の 頻 度𝑟の 文 字 Bigram の 種 類 数4.3. 信頼区 間の下 限値に よ る スム ージン グ
一 般 的 な ス ム ー ジ ン グ の 手 法 の 一 つ と し て , コ ー パ ス に 出 現 し た 全 て の 語 に 対 し て , そ れ ぞ れ の 頻 度 に 1 を 加 え る ラ プ ラ ス ス ム ー ジ ン グ が あ る . ラ プ ラ ス ス ム ー ジ ン グ は , 観 測 に お け る 確 率 の 事 後 分 布 を 計 算 し た あ と , 確 率 の 期 待 値 を と る こ と に 等 し い . 実 際 に は ラ プ ラ ス ス ム ー ジ ン グ を 使 用 す る と , ま れ な 事 象 へ の 確 率 を 過 大 に 推 定 す る と い う 問 題 が 生 じ る . こ の と き , 事 後 分 布 が 計 算 で き る な ら ば , そ の 分 布 の 信 頼 区 間 を 構 成 す る こ と は で き る . 例 と し て 工 業 製 品 の 製 造 不 良 の 確 率 を 推 定 す る と き に は , 観 測 か ら 計 算 さ れ る 事 後 分 布 か ら 求 め ら れ る 信 頼 区 間 の 上 限 値 を 用 い る . こ れ は , 不 良 品 を あ や ま っ て 良 品 と 判 断 と す る リ ス ク が , 良 品 を 不 良 品 と 判 断 す る リ ス ク よ り も 大 き い か ら で あ る . 我 々 は , 名 前 の 抽 出 の タ ス ク に 置 い て は , 確 率 を 過大 に 評 価 す る リ ス ク が 確 率 を 過 小 と す る リ ス ク よ り も 大 き い と 考 え た . こ の 理 由 は , 抽 出 の 精 度 は 五 分 五 分 よ り も 高 く す る の が 自 然 と い う こ と に あ る . 信 頼 区 間 を 構 成 す る 近 似 公 式 は 多 く あ る が , 頻 度 が 極 め て 低 い 場 合 に は 近 似 が 使 え な い と い う 制 限 が あ る . そ こ で ,本 研 究 で は 菊 地 ら[ 1 3]の 方 法 を 使 っ て 信 頼 区 間 を 構 成 し , 尤 度 比 の 計 算 に 用 い る 確 率 に は , そ の 信 頼 区 間 の 下 限 値 を 使 用 し た . 二 項 分 布 の 尤 度 関 数 が 式 (3)で 表 さ れ る と き の 信 頼 区 間 を 式 (4)に 示 す .こ の 信 頼 区 間 の 下 限 値𝑝𝑙𝑏を ス ム ー ジ ン グ 値 と し て 用 い る .下 限 値𝑝𝑙𝑏は 代 数 的 に 求 め る こ と が で き な い た め ,式 (4)の 下 限 値 側 を 整 理 し て 二 分 法 に よ っ て 求 め る . 整 理 し た 式 を 式 (5)に 示 す . 𝐿(𝑝; 𝑛, 𝑥) = 𝐶𝑛 𝑥𝑝𝑥(1 − 𝑝)𝑛−𝑥 (3) 𝛼 2∫ 𝑝𝑥(1 − 𝑝)𝑛−𝑥𝑑𝑝 1 0 = ∫ 𝑝𝑝𝑙𝑏 𝑥(1 − 𝑝)𝑛−𝑥𝑑𝑝 0 =∫1𝑝𝑥(1 − 𝑝)𝑛−𝑥𝑑𝑝 𝑝𝑢𝑏 (4) (1 − 𝑝𝑙𝑏)𝑛−𝑥+1∙ ∑ ( (𝑛 − 𝑥 + 𝑖)! (𝑛 − 𝑥)! ∙ (𝑝𝑙𝑏)𝑖∙ 1 𝑖!) 𝑥 𝑖=0 − (1 −𝛼 2) = 0 (5) p n 𝑥 α 𝑝𝑙𝑏 𝑝𝑢𝑏 成 功 確 率 試 行 回 数 成 功 数 有 意 水 準 信 頼 区 間 の 下 限 値 信 頼 区 間 の 上 限 値
5. 出現頻度の学習
5.1. 概要
こ こ で は , 評 価 値 の 計 算 に 用 い る 頻 度 の 集 計 及 び 尤 度 の 計 算 方 法 に つ い て 述 べ る . こ の 集 計 方 法 及 び 計 算 方 法 は 中 野 ら[ 7 ]と 同 じ も の で あ る .5.2. 学習方 法
尤 度 の 計 算 に は 先 行 部 か ら 末 尾 部 ま で の 各 部 の 文 字 Bigram の 出 現 頻 度 及 び 全 体 の 文 字 Bigram の 出 現 頻 度 を 使 用 す る た め , 3.6 節 の 文 書 を 用 い て 頻 度 を 集 計 し た 学 習 デ ー タ を 用 い る . ま た , 尤 度 に 対 し て は 4 章 の ス ム ー ジ ン グ を 適 用 す る . 例 と し て , 図 5 の よ う な 複 数 の 企 業 名 を 含 む 文 書 か ら , 各 部 の 頻 度 及 び 全 体 の 頻 度 を 集 計 し 尤 度 を 計 算 す る と 図 6 の よ う に な る .図 6 上 部 は 各 文 字 Bigram の 頻 度 ,図 6 下 部 は 各 文 字 Bigram の 尤 度 を 表 す .な お ,尤 度 に は ス ム ー ジ ン グ さ れ た 値 を 用 い て い る . こ れ に よ り , 今 回 の 例 の 「 自 動 」 や 「 動 車 」 の よ う な , 企 業 名 に よ く 使 わ れ る 文 字 列 の 尤 度 が 高 く な り 企 業 名 ら し い 文 字 列 を 得 る こ と が で き る . 図 5 複 数 の 企 業 名 を 含 む 文 書 の 例 図 6 各 部 の 頻 度 の 集 計 及 び 尤 度 の 計 算 例6. 企業名の評価及び抽出
6.1. 概要
こ こ で は , 企 業 名 ら し さ の 評 価 方 法 及 び 企 業 名 の 抽 出 方 法 に つ い て 述 べ る . こ の 評 価 方 法 及 び 抽 出 方 法 は 中 野 ら[ 7 ]と 同 じ も の で あ る . 中 野 ら[ 7 ]か ら 引 用 し た も の に つ い て 横 線 で 表 す .6.2. 評価方 法
抽 出 の 段 階 で は , 対 象 と な る 文 書 の 先 頭 か ら 順 に 部 分 文 字 列 が 企 業 名 ら し い か の 評 価 を 行 う . こ の 評 価 は 抽 出 し た い 文 字 長 内 に 含 ま れ る 全 て の 部 分 文 字 列 が 対 象 と な る . こ の 部 分 文 字 列 を 評 価 文 字 列 と 呼 ぶ こ と に す る . 評 価 時 は 評 価 文 字 列 を 企 業 名 と そ の 直 前 直 後 の 文 字 列 と 仮 定 し て , 先 行 部 か ら 後 続 部 の 各 部 に 対 し て 3.4 節 の 尤 度 比 を 計 算 す る . こ の 値 が 企 業 名 ら し さ を 表 す も の と な る . 図 8 の 例 の 「 月 に ト ヨ タ 自 動 車 が 新 」 を 評 価 し た い と す る と , こ の 評 価 文 字 列 に 対 す る 尤 度 比 を 計 算 し ,「 ト ヨ タ 自 動 車 」 と い う 文 字 列 が 企 業 名 ら し い か の 評 価 を 行 う こ と と な る . 本 研 究 で は , 評 価 文 字 列 に 対 す る 尤 度 比 を 先 行 部か ら 末 尾 部 ま で の 各 部 の 尤 度 比 の 相 乗 平 均 と 仮 定 し て , こ の 値 を 評 価 値 と 定 義 す る . こ れ は 図 9 の よ う に 表 さ れ る . 評 価 値 を 求 め る た め の 評 価 式𝐿𝑅(𝑤1𝑛)を 式 (2) に 示 す . 文 字 数𝑛の 評 価 文 字 列𝑤に お け る𝑖文 字 目 か ら𝑗文 字 目 ま で の 部 分 文 字 列 を𝑤𝑖𝑗と す る . こ の 時 , 各 部 の 尤 度 比𝐿𝑅𝑃𝑟𝑒, 𝐿𝑅𝐻𝑒𝑎𝑑, 𝐿𝑅𝑀𝑖𝑑, 𝐿𝑅𝑇𝑎𝑖𝑙, 𝐿𝑅𝑃𝑜𝑠𝑡は ,先 行 部 , 先 頭 部 , 中 間 部 , 末 尾 部 , 後 続 部 の 文 字 Bigram 集 合 𝑆𝑃𝑟𝑒, 𝑆𝐻𝑒𝑎𝑑, 𝑆𝑀𝑖𝑑, 𝑆𝑇𝑎𝑖𝑙, 𝑆𝑃𝑜𝑠𝑡内 の 文 字 Bigram の 推 定 値 𝑃∗(𝑤 𝑖 𝑗| 𝑆 𝑋)( 𝑆𝑋は 各 部 の 文 字 Bigram 集 合 )と 抽 出 用 文 書 の 文 字 Bigram 集 合𝑆𝑑𝑜𝑐内 の 文 字 Bigram の 推 定 値 𝑃∗(𝑤 𝑛−1 𝑛 | 𝑆 𝑑𝑜𝑐)の 比 で 表 さ れ る . 今 回 は 引 用 内 の 式 (2)の𝑃∗(𝑤 𝑖 𝑗| 𝑆 𝑋)に つ い て ,Good-Turing 及 び 信 頼 区 間 の 下 限 値 に よ る ス ム ー ジ ン グ を 使 用 し て い る . 𝐿𝑅(𝑤1𝑛) = (𝐿𝑅𝑃𝑟𝑒× 𝐿𝑅𝐻𝑒𝑎𝑑× ∏ 𝐿𝑅𝑀𝑖𝑑 𝑛−4 𝑖=4 × 𝐿𝑅𝑇𝑎𝑖𝑙× 𝐿𝑅𝑃𝑜𝑠𝑡) 1 𝑛−3 (2) 𝐿𝑅𝑃𝑟𝑒= 𝑃∗(𝑤 1 2| 𝑆 𝑃𝑟𝑒) 𝑃∗(𝑤 1 2| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝐻𝑒𝑎𝑑= 𝑃∗(𝑤 3 4| 𝑆 𝐻𝑒𝑎𝑑) 𝑃∗(𝑤 3 4| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝑀𝑖𝑑= 𝑃∗(𝑤 𝑖 𝑖+1| 𝑆 𝑀𝑖𝑑) 𝑃∗(𝑤 𝑖 𝑖+1| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝑇𝑎𝑖𝑙= 𝑃∗(𝑤 𝑛−3 𝑛−2| 𝑆 𝑇𝑎𝑖𝑙) 𝑃∗(𝑤 𝑛−3 𝑛−𝑚| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝑃𝑜𝑠𝑡= 𝑃∗(𝑤 𝑛−1 𝑛 | 𝑆 𝑃𝑜𝑠𝑡) 𝑃∗(𝑤 𝑛−1 𝑛 | 𝑆 𝑑𝑜𝑐) 𝑛 𝑤𝑖𝑗 𝐿𝑅 𝐿𝑅𝑋 𝑆𝑃𝑟𝑒 𝑆𝐻𝑒𝑎𝑑 𝑆𝑀𝑖𝑑 𝑆𝑇𝑎𝑖𝑙 𝑆𝑃𝑜𝑠𝑡 𝑆𝑑𝑜𝑐 𝑃∗(𝑤 𝑖 𝑗| 𝑆 𝑋) 評 価 文 字 列 の 文 字 数 評 価 文 字 列 中 の𝑖文 字 目 か ら j文 字 目 ま で の 部 分 文 字 列 評 価 文 字 列 の 尤 度 比 ( = 評 価 値 ) 各 部 の 尤 度 比 先 行 部 の 文 字 Bigram 集 合 先 頭 部 の 文 字 Bigram 集 合 中 間 部 の 文 字 Bigram 集 合 末 尾 部 の 文 字 Bigram 集 合 後 続 部 の 文 字 Bigram 集 合 抽 出 用 文 書 の 文 字 Bigram 集 合 𝑆𝑋中 の𝑤𝑖𝑗の 出現確率の推定値のスムージング値 ( 今 回 は Good-Turing 推 定 法 を 使 用 ) 図2 評 価 文 字 列 の 例 図3 評 価 値 の 計 算 例
6.3. 抽出方 法
抽 出 し た い 最 小 文 字 数 か ら 最 大 文 字 数 ま で の 評 価 文 字 列 に つ い て 6.2 節 の 評 価 値 を 計 算 し , そ の 値 の 高 い 順 か ら 一 定 数 の 企 業 名 を 抽 出 す る . 例 と し て「 6 月 に ト ヨ タ 自 動 車 が 新 型 車 を 発 売 し た .」 と い う 文 章 に 対 し 評 価 値 を 計 算 し て , 値 が 高 い 順 に 並 べ 替 え る と 表 1 の よ う に な る .こ の 例 で は 企 業 名 が 1 つ し か 含 ま れ て い な い が ,実 際 の 文 書 で は 多 く の 企 業 名 が 含 ま れ る た め 上 位 一 定 数 を 抽 出 す る . 表 1 評 価 文 字 列 と 評 価 値 の 例 評 価 文 字 列 評 価 値 ( 尤 度 比 ) 月 に ト ヨ タ 自 動 車 が 新 0.2447 月 に ト ヨ タ 自 動 車 が 新 型 0.0572 に ト ヨ タ 自 動 車 が 新 0.0510 6 月 に ト ヨ タ 自 動 車 が 新 0.0461 月 に ト ヨ タ 自 動 車 が 0.0424 に ト ヨ タ 自 動 車 が 新 型 0.0121 に ト ヨ タ 自 動 車 が 新 型 車 0.0082 6 月 に ト ヨ タ 自 動 車 が 0.0081 ト ヨ タ 自 動 車 が 新 型 0.0065 ・ ・ ・ ・ ・ ・7. 比較実験
7.1. 概要
こ こ で は , 確 率 推 定 を 変 更 し た こ と に よ る 影 響 を 確 認 す る た め , 今 回 提 案 し た 信 頼 区 間 の 下 限 値 に よ る 確 率 推 定 を 用 い た 抽 出 法( 以 下 提 案 手 法 )と Good-Turing を 用 い た 抽 出 法 ( 以 下 ベ ー ス ラ イ ン ) と の 比 較 実 験 を 行 う .7.2. 実験条 件
実 験 の 各 条 件 は 表 2 に 示 す , ベ ー ス ラ イ ン に お い て 最 も 適 合 率 及 び 再 現 率 の 高 か っ た 条 件 を 使 用 す る . 文 書 は ,毎 日 新 聞 コ ー パ ス 91-97 年[ 1 4 ]の 年 始 か ら 2 万 記 事 を 1 万 記 事 ご と に 分 割 し た も の を 1 つ の 文 書 と し て 計 14 文 書 を 作 成 す る .ま た ,K-分 割 交 差 検 証 で 14 文 書 中 の 13 文 書 を 学 習 用 ,残 り の 1 文 書 を テ ス ト 用 と す る .既 知 の企 業 名 は テ ス ト 用 文 書 か ら 形 態 素 解 析 で 組 織 名 を 抽 出 後 , パ タ ー ン マ ッ チ に よ り 企 業 名 以 外 を 除 去 し た も の を 用 い た .5 文 字 か ら 30 文 字 ま で の 企 業 名 を 対 象 に 評 価 値 の 計 算 を 行 い , 評 価 値 の 高 い 順 に 上 位2000 件 を 企 業 名 と し て 抽 出 し た . 表 2 実 験 条 件 使 用 文 書 毎 日 新 聞 コ ー パ ス 91-97 年 の 年 始 か ら 2 万 記 事 ( 1 万 記 事 ご と に 分 割 ) の 計 14 文 書 テ ス ト 用 文 書 使 用 文 書 中 の 1 文 書 学 習 用 文 書 使 用 文 書 中 か ら テ ス ト 用 の 1 文 書 を 除 い た 13 文 書 既 知 の 企 業 名 リ ス ト の 作 成 方 法 形 態 素 解 析 で 組 織 名 を 抽 出 後 ,パ タ ー ン マ ッ チ に よ り 企 業 名 以 外 を 除 去 N-gram 文 字 Bigram 企 業 名 抽 出 の 文 字 数 の 範 囲 5 - 30 [文 字 ] 抽 出 件 数 評 価 値 の 上 位 2000 [件 ] ス ム ー ジ ン グ 法 ・ Good-Turing ・ 信 頼 区 間 の 下 限 値 を 用 い た 確 率 推 定 (𝛼=0.9999997)
7.3. 部分正 解によ る評価
正 解 の 評 価 方 法 は 中 野 ら[ 7]と 同 じ く 部 分 適 合 率 及 び 部 分 再 現 率 を 使 用 し て い る . そ れ ら の 説 明 に つ い て 中 野 ら[ 7 ]か ら 引 用 し た も の を 横 線 で 表 す . 人 が 企 業 名 だ と 認 識 で き る 全 て の 文 字 列 の 集 合 を 全 体 正 解 集 合 A と し て こ の 外 に 正 解 は 無 い も の と す る . こ の 時 , 既 知 の 企 業 名 の リ ス ト を 全 体 正 解 集 合 A に 包 含 さ れ る 部 分 正 解 集 合 a と す る .図 10 に 全 体 正 解 集 合 A, 部 分 正 解 集 合 a 及 び 抽 出 結 果 S の 関 係 図 を 示 す . 以 下 の 評 価 は 菅 野[ 4 ]を 踏 襲 し た も の で あ る . 本 来 な ら ば 抽 出 の 正 誤 の 判 定 に は 全 体 正 解 集 合 A を 用 い る べ き で あ る が ,全 体 正 解 集 合 A は 実 際 に は 得 ら れ な い , も し く は 得 る た め に 大 き な コ ス ト が か か る た め , 部 分 正 解 集 合 a を 用 い る . こ の 際 , 抽 出 結 果 S に 対 し て 部 分 正 解 集 合 a か ら 得 ら れ る 精 度 及 び 再 現 率 を 全 体 正 解 集 合 A か ら 得 ら れ る 精 度 及 び 再 現 率 と は 区 別 し て 部 分 適 合 率 と 部 分 再 現 率 と 表 現 す る . 部 分 適 合 率 と 部 分 再 現 率 を 式 (4.1)と 式 (4.2)に 示 す . 部 分 適 合 率=部 分 正 解 に 含 ま れ る 抽 出 文 字 列 の 数 抽 出 文 字 列 の 数 (4.1) 部 分 再 現 率= 部 分 正 解 に 含 ま れ る 抽 出 文 字 列 の 数 文書に存在する部分正解に含まれる企業名の数 (4.2) 図4 正 解 集 合 と 抽 出 結 果 ( 中 略 ) [4] 菅 野 弘 太 . n-gram の 統 計 値 に よ る 企 業 名 の 抽 出 . 豊 橋 技 術 科 学 大 学 , 2014, 43p. 修 士 論 文 .7.4. 実験結 果・考 察
抽 出 の 結 果 , 提 案 手 法 と ベ ー ス ラ イ ン を 比 較 し て 片 方 の み に 現 れ た 企 業 名 の 例 ( 同 じ 企 業 名 は 除 く ) を 表 3 に 示 す . 提 案 手 法 の み に 現 れ た 例 で は ベ ー ス ラ イ ン の み に 現 れ た 例 に 比 べ て ,企 業 名 に「 "ソ ロ モ ン・ブ ラ ザ ー ズ "」 や 「 山 崎 製 "パ ン "」 な ど の 片 仮 名 を 含 む 企 業 名 が 多 く 含 ま れ て い る . こ れ は , Good-Turing の 確 率 推 定 が ジ ッ プ の 法 則 を 基 に し て い る た め と 考 え ら れ る . 漢 字 の 文 字 Bigram は 異 な る 単 語 同 士 で 同 じ 文 字 Bigram が 現 れ る こ と が 少 な く , 文 字 Bigram と 単 語 の 出 現 頻 度 が お お よ そ 等 し く な り ジ ッ プ の 法 則 に 従 っ て い る が ,片 仮 名 や 平 仮 名 の 文 字 Bigram は 異 な る 単 語 同 士 で も 同 じ 文 字 Bigram が 現 れ る こ と が 多 い た め ジ ッ プ の 法 則 に 従 わ な い 分 布 と な る . こ の た め , 信 頼 区 間 の 下 限 値 に よ る 確 率 推 定 の 方 が 有 効 に 働 い た と 考 え ら れ る . 表 4 に 部 分 適 合 率 及 び 部 分 再 現 率 を 示 す . ま た , 各 項 目 で 上 回 っ て い る 手 法 を 下 線 で 示 す . 部 分 適 合 率 と 部 分 再 現 率 の い ず れ も '94(1) 以 外 の 全 て の 対 象 文 書 に お い て 提 案 手 法 が ベ ー ス ラ イ ン を 上 回 っ て お り , 符 号 検 定 を 行 な っ た 結 果 , 有 意 水 準 1%で 提 案 手 法 と ベ ー ス ラ イ ン と の 有 意 差 が 認 め ら れ た . 表 3 片 方 の み に 現 れ た 企 業 名 の 例 提 案 手 法 の み に 現 れ た 例 ベ ー ス ラ イ ン の み に 現 れ た 例 ソ ロ モ ン ・ ブ ラ ザ ー ズ 山 崎 製 パ ン サ ン ケ ン 電 気 ア エ ロ フ ロ ー ト ワ シ ン ト ン ・ ポ ス ト ニ ュ ー ヨ ー ク ・ タ イ ム ズ 全 日 本 空 輸 積 水 ハ ウ ス ホ テ ル オ ー ク ラ み す ず 書 房 帝 国 ホ テ ル 日 立 製 作 所 日 本 輸 出 入 銀 行 毎 日 新 聞 社 全 日 本 空 輸 富 士 重 工 業 石 川 島 播 磨 東 洋 信 託 銀 行 テ レ ビ 東 京 中 央 公 論 社 ︙ ︙表 4 部 分 適 合 率 及 び 部 分 再 現 率 部 分 適 合 率 部 分 再 現 率 提 案 手 法 ベ ー ス ラ イ ン 提 案 手 法 ベ ー ス ラ イ ン '91(1) 0.724 0.708 0.735 0.718 '91(2) 0.751 0.712 0.734 0.696 '92(1) 0.788 0.753 0.751 0.717 '92(2) 0.741 0.714 0.702 0.676 '93(1) 0.842 0.798 0.724 0.687 '93(2) 0.888 0.867 0.670 0.654 '94(1) 0.860 0.862 0.704 0.706 '94(2) 0.866 0.857 0.652 0.645 '95(1) 0.842 0.833 0.665 0.657 '95(2) 0.813 0.783 0.706 0.680 '96(1) 0.890 0.862 0.637 0.617 '96(2) 0.878 0.874 0.627 0.624 '97(1) 0.891 0.864 0.594 0.576 '97(2) 0.895 0.878 0.585 0.574 平 均 0.834 0.812 0.678 0.659 分 散 0.0034 0.0040 0.0026 0.0021
8. おわりに
本 稿 で は , Good-Turing の 代 わ り に 信 頼 区 間 の 下 限 値 に よ る ス ム ー ジ ン グ を 用 い た 企 業 名 抽 出 の 提 案 を 行 っ た . そ し て , 新 聞 記 事 を 対 象 と し た 提 案 手 法 と ベ ー ス ラ イ ン の 比 較 実 験 を 行 い , 部 分 適 合 率 及 び 部 分 再 現 率 が 向 上 で き る こ と を 明 ら か に し た .謝辞
本 研 究 は , 住 友 電 工 情 報 シ ス テ ム 株 式 会 社 と の 共 同 研 究 の 成 果 で す . こ こ に 感 謝 の 意 を 表 し ま す .参 考 文 献
[1] 森 信 介 , 長 尾 眞 . n グ ラ ム 統 計 に よ る コ ー バ ス か ら の 未 知 語 抽 出 . 情 報 処 理 学 会 論 文 誌 . 1998, 39(7), p. 2093-2100. [2] 梅 村 恭 司 . 未 踏 テ キ ス ト 情 報 中 の キ ー ワ ー ド の 抽 出 シ ス テ ム 開 発 . 未 踏 ソ フ ト ウ ェ ア 創 造 事 業 , 2000.[3] 山 田 寛 康 ほ か . Support Vector Machine を 用 い た 日 本 語 固 有 表 現 抽 出 . 情 報 処 理 学 会 論 文 誌 . 2002, 43(1), p. 44-53. [4] 宇 津 呂 武 仁 , 颯 々 野 学 . ブ ー ト ス ト ラ ッ プ に よ る 低 人 手 で コ ス ト 日 本 語 固 有 表 現 抽 出 . 情 報 処 理 学 会 研 究 報 告 . 2000, 2000(86), p. 9-16. [5] 齋 藤 邦 子 ほ か . CRF を 用 い た ブ ロ グ か ら の 固 有 表 現 抽 出 . 言 語 処 理 学 会 第 13 回 年 次 大 会 , 2007, p. 1-4. [6] 菅 野 弘 太 . n-gram の 統 計 値 に よ る 企 業 名 の 抽 出 . 豊 橋 技 術 科 学 大 学 , 2014, 43p. 修 士 論 文 . [7] 中 野 翔 平 ほ か . 企 業 名 抽 出 の た め の 特 徴 量 の 検 討 , 第 7 回 デ ー タ 工 学 と 情 報 マ ネ ジ メ ン ト に 関 す る フ ォ ー ラ ム (DEIM 2015), E8-5, 2015. [8] 長 尾 眞 , 森 信 介 . 大 規 模 日 本 語 テ キ ス ト の n グ ラ ム 統 計 の 作 り 方 と 語 句 の 自 動 抽 出 . 情 報 処 理 学 会 研 究 報 告 . 1993, 93(61), p. 1-8. [9] 浅 原 正 幸 , 松 本 裕 治 . 日 本 語 固 有 表 現 抽 出 に お け る わ か ち 書 き 問 題 の 解 決 . 情 報 処 理 学 会 論 文 誌 . 2002, 45(5), p.1442-1450.
[10] Zellig S. Harris. Distributional structure. Word. 1954, 10(23), p. 146-162.
[11] 北 研 二 . 確 率 的 言 語 モ デ ル . 東 京 大 学 出 版 会 , 1999, 239p.
[12] W. A. Gale, G. Sampson. Good-Turing Frequency Estimation without Tears. Journal of Quantitative Linguistics. 1995, 2(3), p.217 -237.
[13] Masato Kikuchi et al. “Confidence Interval of Probability Estimator of Laplace Smoothing”. ICAICTA2015. The Tide Resort, Bang Saen Beach, Chonburi, Thailand, 2015-08-19/22.
[14] 毎 日 新 聞 社 . CD-毎 日 新 聞 デ ー タ 集 '91-97 年 版 . 日 外 ア ソ シ エ ー ツ , 1991-1997. (CD-ROM).