• 検索結果がありません。

信頼区間の下限値による確率推定を用いた企業名抽出

N/A
N/A
Protected

Academic year: 2021

シェア "信頼区間の下限値による確率推定を用いた企業名抽出"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2016 E8-1

信頼区間の下限値による確率推定を用いた企業名抽出

中野 翔平

菊地 真人

吉田 光男

岡部 正幸

梅村 恭司

†豊橋技術科学大学 情報・知能工学系 〒441-8580 愛知県豊橋市天白町雲雀ヶ丘 1-1

‡豊橋技術科学大学 情報メディア基盤センター 〒441-8580 愛知県豊橋市天伯町雲雀ケ丘 1-1

E-mail: †{[email protected], [email protected], [email protected], [email protected]},

[email protected]

あらまし Good-Turing のスムージングとナイーブベイズを用いた先行研究において,名前の周辺と名前を 構成する文字列を特徴量としている抽出方法がある.本研究では Good-Turing の代わりに信頼区間の下限値に よる確率推定を用いた企業名抽出を提案する.先行研究と同様の条件で新聞記事から企業名の抽出を行う比較 実験を行なった結果,近似された適合率及び近似された再現率のそれぞれにおいて提案手法が Good-Turing を 用いた方法を上回り,有意水準 1%で提案手法と先行研究の有意差が認められた. キーワード 情報抽出,企業名,N-gram,ナイーブベイズ,確率推定

1. はじめに

文 書 の 分 類 を す る た め に , 同 じ 種 類 の 名 前 の リ ス ト が 用 い ら れ る こ と が あ る . 例 え ば , 野 球 や サ ッ カ ー の チ ー ム 名 や 選 手 の 名 前 が 含 ま れ る 文 書 は ス ポ ー ツ に , パ ソ コ ン の OS 名 や 携 帯 電 話 の 機 種 名 が 含 ま れ る 文 書 は IT に 分 類 す る こ と が で き る .こ の よ う に ,特 定 の 種 類 の 名 前 の リ ス ト が あ る こ と で 人 手 に よ ら な い 分 類 が 可 能 に な る . 特 定 の 種 類 の 名 前 の リ ス ト を 作 成 す る 方 法 と し て , 既 存 の 辞 書 か ら 名 前 を 取 り 出 し 利 用 す る 方 法 や 手 作 業 で リ ス ト に 名 前 を 追 加 し て い く 方 法 , 形 態 素 解 析 又 は 構 文 解 析 で 名 前 を 取 り 出 し 利 用 す る 方 法 が 挙 げ ら れ る . し か し , 既 存 の 辞 書 か ら 名 前 を 取 り 出 す 方 法 は 新 た な 語 が 含 ま れ な い と い う 問 題 が あ る . 手 作 業 で 追 加 す る 方 法 は 一 か ら 作 成 し た 場 合 , コ ス ト が 膨 大 と な る , 最 初 だ け 既 存 の 辞 書 を 用 い た と し て も 新 た な 語 が 出 続 け る た び に 追 加 し て い く の は 同 様 に コ ス ト が 大 き い , ま た 人 為 的 な ミ ス も 発 生 し や す い と い う 問 題 が あ る . 形 態 素 解 析 又 は 構 文 解 析 を 利 用 す る 方 法 は 固 有 名 詞 が 抽 出 で き た と し て も , そ こ か ら は 特 定 の 種 類 の 名 前 だ け を 人 手 で 選 別 し な け れ ば な ら な い , ま た 辞 書 に 含 ま れ な い 名 前 が 出 現 し た 場 合 に 漏 れ が 生 じ る と い う 問 題 も あ る . こ れ ら の 問 題 を 解 決 す る た め に 先 行 研 究 に お い て , ナ イ ー ブ ベ イ ズ を 基 に し た 特 定 の 種 類 の 名 前 の 抽 出 法 が 提 案 さ れ て い る[ 6 , 7] ナ イ ー ブ ベ イ ズ を 基 に し た 抽 出 法 で は , 未 知 語 が 現 れ た 場 合 , 本 来 の 確 率 が 0 で 無 い に も 関 わ ら ず 全 体 の 尤 度 が 0 に な る と い う 問 題 が あ る . こ の 問 題 を 解 決 す る た め に 確 率 推 定 が 用 い ら れ る . 未 知 の 名 前 を 抽 出 し た い 場 合 , 確 率 推 定 法 の 選 択 が 重 要 と な る . 本 研 究 で は , 先 行 研 究 で 提 案 さ れ た 特 定 の 種 類 の 名 前 の 抽 出 法 に , 新 た に 信 頼 区 間 の 下 限 値 に よ る 確 率 推 定 を 検 討 す る . こ れ は 先 行 研 究 の 課 題 と し て 挙 げ ら れ た , 片 仮 名 を 含 む 名 前 に 対 し て 誤 り が 発 生 し や す い と い う 問 題 に 対 し て 対 処 し た も の で あ る . さ ら に , 先 行 研 究 で 最 も 適 合 率 及 び 再 現 率 の 高 か っ た 確 率 推 定 法 と 本 稿 で 提 案 す る 確 率 推 定 法 の 比 較 実 験 を 行 い , 本 稿 で 提 案 す る 確 率 推 定 法 の 方 が 適 合 率 及 び 再 現 率 を 有 意 に 向 上 で き る こ と を 示 す .

2. 関連研究

こ こ で は , 本 研 究 に 関 連 す る 未 知 語 の 抽 出 , 日 本 語 か ら の 特 定 の 種 類 の 名 前 の 抽 出 に 関 連 す る 研 究 , ナ イ ー ブ ベ イ ズ を 基 に し た 特 定 の 種 類 の 名 前 の 抽 出 に 関 す る 研 究 に つ い て 述 べ る . 未 知 語 の 抽 出 が 可 能 な 研 究 と し て , 次 の よ う な も の が あ る .森 ら[ 1 ]は ,N-gram 統 計 値 を 用 い た 単 語 の 抽 出 と 品 詞 の 推 定 を 同 時 に 行 う 手 法 を 提 案 し て い る . こ の 研 究 で は 形 態 素 解 析 済 み の コ ー パ ス に 対 し , 名 詞 の 前 後 の N-gram の 分 布 を 用 い る こ と で 未 知 語 を 含 む 名 詞 の 抽 出 を 行 な っ て い る . 梅 村[ 2]は , 出 現 頻 度 と 出 現 集 中 を 表 す 統 計 量 を 用 い る こ と で 辞 書 を 用 い ず 文 書 中 の 特 有 の 語 を 抽 出 す る 手 法 を 提 案 し て い る . こ の 研 究 で は あ る 文 字 列 を 含 む 文 書 の 数 を 用 い て 文 書 中 の 特 有 の 語 を 抽 出 し て い る . 以 上 の 研 究 は 未 知 語 を 抽 出 で き る も の で あ る が , 特 定 の 種 類 の 名 前 の 抽 出 は 行 な っ て い な い . 日 本 語 か ら の 特 定 の 種 類 の 名 前 の 抽 出 に 関 連 す る 研 究 と し て , 固 有 名 詞 の 分 類 の 1 つ で あ る 組 織 名 を 抽 出 す る 研 究[ 3 , 4, 5 ]が あ る . こ れ ら の 手 法 は 単 語 ご と に 分 割 済 み の 文 書 を 用 意 , 又 は 先 に 単 語 ご と に 分 割 を 行 な っ て い る . ナ イ ー ブ ベ イ ズ を 基 に し た 特 定 の 種 類 の 名 前 の 抽 出 に 関 す る 研 究 と し て , 名 前 の 周 辺 と 名 前 を 構 成 す る 文 字 列 を 特 徴 量 と し て い る 次 の よ う な 研 究 が あ る . 菅 野[ 6 ]は , N-gram の 統 計 値 を 用 い て 語 の 抽 出 を 行 う 手

(2)

法 を 提 案 し て い る . こ の 研 究 で は 企 業 名 を 適 用 例 と し て , 企 業 名 の 前 後 の 文 字 N-gram の 出 現 頻 度 を 用 い て 抽 出 を 行 な っ て い る . ま た , 企 業 名 抽 出 に お い て は 企 業 名 自 身 の 文 字 N-gram の 出 現 頻 度 も 特 徴 量 と し て 用 い る こ と が 有 用 で あ る こ と を 報 告 し て い る . 中 野 ら[ 7 ] は , 菅 野 の 手 法 を 基 に し た 新 た な 特 徴 量 を 提 案 し て い る .こ の 研 究 で は 企 業 名 自 身 を 新 た に 企 業 名 自 身 の 前 , 企 業 名 自 身 の 中 及 び 企 業 名 自 身 の 後 に 分 け , そ れ ぞ れ の 文 字 N-gram の 出 現 頻 度 を 特 徴 量 と し て 用 い る こ と が 有 用 で あ る こ と を 報 告 し て い る . こ の 手 法 は , 形 態 素 解 析 を 利 用 せ ず に 抽 出 を 行 う た め 1 章 に 挙 げ た 漏 れ が 生 じ る と い う 問 題 を 回 避 で き る と 考 え る . さ ら に こ の 方 法 は , 既 存 の 辞 書 の 増 強 と し て 用 い る こ と も で き , 抽 出 し た 未 知 語 を リ ス ト に 追 加 す る こ と で よ り 内 容 を 充 実 さ せ ら れ る と い う 点 も 有 用 で あ る . こ の 方 法 を 改 良 す る こ と で よ り 正 確 に 特 定 の 種 類 の 名 前 の 抽 出 が 行 え る よ う に な る と 考 え る . 中 野 ら[ 7]の 手 法 は Good-Turing の ス ム ー ジ ン グ を 用 い て い る . こ れ は 観 測 さ れ な か っ た 語 に 対 し て 一 定 の 頻 度 を 分 配 し , 観 測 さ れ た 語 に 対 し て も 頻 度 の 補 正 を 行 な っ て い る . 一 方 , 提 案 手 法 は ベ イ ズ 統 計 の 枠 組 み で , 観 測 に よ っ て 計 算 で き る 事 後 分 布 を 扱 う . 通 常 は ,こ の 事 後 分 布 に お け る 確 率 の 期 待 値 を と る 方 法( ラ プ ラ ス ス ム ー ジ ン グ )で 確 率 を 推 定 す る 場 合 が 多 い が , 本 研 究 で は 事 後 確 率 に お け る 信 頼 区 間 を 構 成 し , そ の 下 限 値 を と る ア プ ロ ー チ を と っ た . 提 案 手 法 と 中 野 ら[ 7]に お い て , 特 徴 と す る も の , 尤 度 比 の 計 算 方 法 , 評 価 の 行 い 方 は 同 一 で あ る が , 確 率 推 定 の 方 法 だ け が 異 な る 本 研 究 で は , 確 率 推 定 の 方 法 を 取 り 換 え る こ と で 適 合 率 及 び 再 現 率 が 有 意 に 向 上 す る こ と を 示 す .

3. 使用する概念

3.1. 概要

こ こ で は ,本 研 究 で 使 用 し て い る 5 つ の 概 念 ,N-gram, 分 布 仮 説 ,評 価 文 字 列 ,尤 度 比 ,文 書 に つ い て 述 べ る . こ れ ら の 概 念 は 中 野 ら[ 7 ]と 同 じ も の で あ る .

3.2.

N

-gram

N-gram[ 8 ]と は , 文 字 , 単 語 又 は 品 詞 な ど の 連 続 し た 組 み 合 わ せ で あ る . 単 語 を 空 白 で 区 切 る 英 語 な ど の 言 語 で は 単 語 単 位 で 区 切 っ た N-gram( 単 語 N-gram) が 使 用 さ れ る . し か し , 日 本 語 は 空 白 で 区 切 ら れ て い な い た め , 直 接 単 語 N-gram を 用 い る こ と は 出 来 な い . こ の 問 題 の 解 決 と し て ,文 字 単 位 で 分 割 を 行 う 方 法[ 1 , 9 ] が あ る .今 回 は こ の 文 字 単 位 で 区 切 っ た N-gram( 文 字 N-gram) を 用 い る . ま た , 菅 野[ 6 ]は 企 業 名 抽 出 に 対 し て 文 字 N-gram の 大 き さ 別 の 比 較 実 験 を 行 い , 図 1 の よ う な 2 文 字 区 切 り の N-gram( 文 字 Bigram) を 用 い た 場 合 に 最 も 適 合 率 及 び 再 現 率 が 高 か っ た こ と を 報 告 し て い る . 中 野 ら[ 7]も 文 字 Bigram を 用 い て い る . 図 1 文 字 Bigram の 例

3.3. 分布仮 説

Harris の 分 布 仮 説[ 1 0 ]と は ,「 同 じ 文 脈 で 使 わ れ る 言 葉 は , 類 似 す る 意 味 を も つ 傾 向 が あ る 」 と い う 仮 説 で あ る . 中 野 ら[ 7 ]と 同 様 に , 本 研 究 で は こ の 分 布 仮 説 に お け る 文 脈 を 企 業 名 の 直 前 及 び 直 後 の 文 字 Bigram と 考 え る .

3.4. 評価文 字列

中 野 ら[ 7]は 分 布 仮 説 を 基 づ い て 企 業 名 周 辺 の 文 字 列 を , 企 業 名 の 前 , 企 業 名 自 身 の 前 , 企 業 名 自 身 の 中 , 企 業 名 自 身 の 後 及 び 企 業 名 の 後 の 5 つ に 分 類 し , 特 徴 量 と し て 用 い る こ と が 有 用 で あ る と 報 告 し て い る . こ れ 以 降 , 企 業 名 の 前 , 企 業 名 自 身 の 前 , 企 業 名 自 身 の 中 , 企 業 名 自 身 の 後 及 び 企 業 名 の 後 と い う 各 部 分 を 図 2 の よ う に 先 行 部 , 先 頭 部 , 中 間 部 , 末 尾 部 及 び 後 続 部 と し て 表 す . ま た , 図 3 の よ う に 文 書 全 体 の 評 価 文 字 列 を 集 め た 集 合 を 評 価 文 字 列 集 合 と す る . 図 2 評 価 文 字 列 の 各 部 の 例 図 3 評 価 文 字 列 集 合 の 例

(3)

3.5. 尤度比

文 字 列 の 企 業 名 ら し さ を 評 価 す る 値 と し て 尤 度 比 を 用 い る .尤 度 比 と は ,帰 無 仮 説 の 尤 度𝐿(𝐻0)と 対 立 仮 説 の 尤 度𝐿(𝐻1)の 比 を 取 り ,ど ち ら が 尤 も ら し い か を 比 較 す る 指 標 で あ る . 対 立 仮 説𝐻1よ り 帰 無 仮 説𝐻0の 方 が 尤 も ら し い と き に 尤 度 比 は 小 さ く な り , 帰 無 仮 説𝐻0よ り 対 立 仮 説𝐻1の 方 が 尤 も ら し い と き に 尤 度 比 は 大 き く な る . ど ち ら も 同 じ く ら い 尤 も ら し い と き に は 尤 度 比 は 1 と な る . 本 研 究 で は ,帰 無 仮 説𝐻0を「 与 え ら れ た 文 字 Bigram が 文 書 中 か ら 任 意 に 取 り 出 し た も の で あ る 」( 評 価 文 字 列 集 合 の 文 字 Bigram で は な い ), 対 立 仮 説𝐻1を 「 与 え ら れ た 文 字 Bigram が 企 業 名 自 身 ま た は そ の 直 前 直 後 か ら 取 り 出 し た も の で あ る 」( 評 価 文 字 列 集 合 の 文 字 Bigram で あ る ) と す る . 以 上 の 帰 無 仮 説𝐻0と 対 立 仮 説𝐻1を 尤 度 比 と し て 表 す と 式 (1)と な る . 評価文字列集合の文字Bigram から求めた尤度 文 書 全 体 の 文 字Bigram か ら 求 め た 尤 度 (1)

3.6. 文書

3.3 節 の 分 布 仮 説 に よ り , 尤 度 の 計 算 に は 企 業 名 の 直 前 直 後 の 文 字 Bigram の 出 現 頻 度 が 必 要 と な る た め , 図4の よ う な 文 章 中 に 企 業 名 が 含 ま れ て お り 直 前 直 後 の 文 字 Bigram を 得 る こ と の で き る 文 書 を 使 用 す る . 図 4 文 書 と 利 用 す る 直 前 直 後 の 文 字 Bigram の 例

4. スムージング

4.1. 概要

尤 度 の 計 算 に お い て , 未 知 の 文 字 Bigram が 現 れ た 場 合 , 本 来 の 尤 度 が 0 で 無 い に も 関 わ ら ず 文 字 列 全 体 の 尤 度 が 0 に な る と い う 問 題( ゼ ロ 頻 度 問 題 )が あ る . こ の た め ,ス ム ー ジ ン グ に よ る 確 率 推 定 が 用 い ら れ る . こ こ で は ,中 野 ら[ 7]の 手 法 で 用 い ら れ た Good-Turing, 及 び 本 稿 で 新 た に 用 い る 信 頼 区 間 の 下 限 値 に よ る ス ム ー ジ ン グ に つ い て 述 べ る .

4.2. Good-Turing

Good-Turing[ 11 ]は 頻 度𝑟の 語 の 種 類 数 N𝑟を 用 い て 出 現 頻 度 に 対 し て 補 正 を 行 い , 出 現 し な か っ た 語 の 確 率 を 推 定 す る .ま た 頻 度 が 高 い 語 の 場 合 , N𝑟の 値 が 不 安 定 に な る た め , ジ ッ プ の 法 則 を 用 い る こ と で さ ら に 補 正 を 行 う . ジ ッ プ の 法 則 と は 「 頻 度 順 位 が n 位 の 単 語 は 1 位 の 単 語 の 1/n の 確 率 で あ ら わ れ る 」 と い う 法 則 で あ る . こ の 法 則 に よ り ,logN𝑟及 びlogrが 線 形 の 関 係 で 表 さ れ る . 中 野 ら[ 7]は Gale ら[ 1 2 ]の 方 法 に 基 づ く , 通 常 の Good-Turing と 線 形 回 帰 を 用 い た Good-Turing を 頻 度 が 低 い も の と 高 い も の で 切 り 替 え る Good-Turing を 用 い て 確 率 推 定 を 行 な っ て い る . 中 野 ら で 使 用 さ れ て い る Good-Turing を 式 (2)に 示 す . 𝑃𝑆𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) = { 𝑃𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) (𝜎 × 1.65 < |𝑃𝐺𝑇(𝑤𝑗𝑖| 𝑆𝑋) − 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋)|) 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) (𝜎 × 1.65 ≧ |𝑃𝐺𝑇(𝑤𝑗𝑖| 𝑆𝑋) − 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋)|) 𝑁1 𝑁0𝑁 (𝑟 = 0) (2) 𝑃𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) = (𝑟 + 1)・ 𝑁𝑟+1 𝑁𝑟 𝑁 𝑃𝐿𝐺𝑇(𝑤𝑖𝑗| 𝑆𝑋) =𝑟(1 + 1𝑟) 𝑏+1 𝑁 𝜎 = √(𝑟 + 1)2𝑁𝑟+1 𝑁𝑟 (1 + 𝑁𝑟+1 𝑁𝑟 ) 𝑛 𝑤𝑖𝑗 𝑃𝑆𝐺𝑇 𝑆𝑋 𝑟 𝑁 𝑁𝑟 評 価 文 字 列 の 文 字 数 評 価 文 字 列 中 の𝑖文 字 目 か ら j文 字 目 ま で の 部 分 文 字 列 使 用 す る Good-Turing の 推 定 値 任 意 の 文 字 Bigram 集 合 𝑆𝑋内 の𝑤𝑖𝑗の 頻 度 文 字 Bigram の 総 頻 度 𝑆𝑋内 の 頻 度𝑟の 文 字 Bigram の 種 類 数

4.3. 信頼区 間の下 限値に よ る スム ージン グ

一 般 的 な ス ム ー ジ ン グ の 手 法 の 一 つ と し て , コ ー パ ス に 出 現 し た 全 て の 語 に 対 し て , そ れ ぞ れ の 頻 度 に 1 を 加 え る ラ プ ラ ス ス ム ー ジ ン グ が あ る . ラ プ ラ ス ス ム ー ジ ン グ は , 観 測 に お け る 確 率 の 事 後 分 布 を 計 算 し た あ と , 確 率 の 期 待 値 を と る こ と に 等 し い . 実 際 に は ラ プ ラ ス ス ム ー ジ ン グ を 使 用 す る と , ま れ な 事 象 へ の 確 率 を 過 大 に 推 定 す る と い う 問 題 が 生 じ る . こ の と き , 事 後 分 布 が 計 算 で き る な ら ば , そ の 分 布 の 信 頼 区 間 を 構 成 す る こ と は で き る . 例 と し て 工 業 製 品 の 製 造 不 良 の 確 率 を 推 定 す る と き に は , 観 測 か ら 計 算 さ れ る 事 後 分 布 か ら 求 め ら れ る 信 頼 区 間 の 上 限 値 を 用 い る . こ れ は , 不 良 品 を あ や ま っ て 良 品 と 判 断 と す る リ ス ク が , 良 品 を 不 良 品 と 判 断 す る リ ス ク よ り も 大 き い か ら で あ る . 我 々 は , 名 前 の 抽 出 の タ ス ク に 置 い て は , 確 率 を 過

(4)

大 に 評 価 す る リ ス ク が 確 率 を 過 小 と す る リ ス ク よ り も 大 き い と 考 え た . こ の 理 由 は , 抽 出 の 精 度 は 五 分 五 分 よ り も 高 く す る の が 自 然 と い う こ と に あ る . 信 頼 区 間 を 構 成 す る 近 似 公 式 は 多 く あ る が , 頻 度 が 極 め て 低 い 場 合 に は 近 似 が 使 え な い と い う 制 限 が あ る . そ こ で ,本 研 究 で は 菊 地 ら[ 1 3]の 方 法 を 使 っ て 信 頼 区 間 を 構 成 し , 尤 度 比 の 計 算 に 用 い る 確 率 に は , そ の 信 頼 区 間 の 下 限 値 を 使 用 し た . 二 項 分 布 の 尤 度 関 数 が 式 (3)で 表 さ れ る と き の 信 頼 区 間 を 式 (4)に 示 す .こ の 信 頼 区 間 の 下 限 値𝑝𝑙𝑏を ス ム ー ジ ン グ 値 と し て 用 い る .下 限 値𝑝𝑙𝑏は 代 数 的 に 求 め る こ と が で き な い た め ,式 (4)の 下 限 値 側 を 整 理 し て 二 分 法 に よ っ て 求 め る . 整 理 し た 式 を 式 (5)に 示 す . 𝐿(𝑝; 𝑛, 𝑥) = 𝐶𝑛 𝑥𝑝𝑥(1 − 𝑝)𝑛−𝑥 (3) 𝛼 2∫ 𝑝𝑥(1 − 𝑝)𝑛−𝑥𝑑𝑝 1 0 = ∫ 𝑝𝑝𝑙𝑏 𝑥(1 − 𝑝)𝑛−𝑥𝑑𝑝 0 =∫1𝑝𝑥(1 − 𝑝)𝑛−𝑥𝑑𝑝 𝑝𝑢𝑏 (4) (1 − 𝑝𝑙𝑏)𝑛−𝑥+1∙ ∑ ( (𝑛 − 𝑥 + 𝑖)! (𝑛 − 𝑥)! ∙ (𝑝𝑙𝑏)𝑖∙ 1 𝑖!) 𝑥 𝑖=0 − (1 −𝛼 2) = 0 (5) p n 𝑥 α 𝑝𝑙𝑏 𝑝𝑢𝑏 成 功 確 率 試 行 回 数 成 功 数 有 意 水 準 信 頼 区 間 の 下 限 値 信 頼 区 間 の 上 限 値

5. 出現頻度の学習

5.1. 概要

こ こ で は , 評 価 値 の 計 算 に 用 い る 頻 度 の 集 計 及 び 尤 度 の 計 算 方 法 に つ い て 述 べ る . こ の 集 計 方 法 及 び 計 算 方 法 は 中 野 ら[ 7 ]と 同 じ も の で あ る .

5.2. 学習方 法

尤 度 の 計 算 に は 先 行 部 か ら 末 尾 部 ま で の 各 部 の 文 字 Bigram の 出 現 頻 度 及 び 全 体 の 文 字 Bigram の 出 現 頻 度 を 使 用 す る た め , 3.6 節 の 文 書 を 用 い て 頻 度 を 集 計 し た 学 習 デ ー タ を 用 い る . ま た , 尤 度 に 対 し て は 4 章 の ス ム ー ジ ン グ を 適 用 す る . 例 と し て , 図 5 の よ う な 複 数 の 企 業 名 を 含 む 文 書 か ら , 各 部 の 頻 度 及 び 全 体 の 頻 度 を 集 計 し 尤 度 を 計 算 す る と 図 6 の よ う に な る .図 6 上 部 は 各 文 字 Bigram の 頻 度 ,図 6 下 部 は 各 文 字 Bigram の 尤 度 を 表 す .な お ,尤 度 に は ス ム ー ジ ン グ さ れ た 値 を 用 い て い る . こ れ に よ り , 今 回 の 例 の 「 自 動 」 や 「 動 車 」 の よ う な , 企 業 名 に よ く 使 わ れ る 文 字 列 の 尤 度 が 高 く な り 企 業 名 ら し い 文 字 列 を 得 る こ と が で き る . 図 5 複 数 の 企 業 名 を 含 む 文 書 の 例 図 6 各 部 の 頻 度 の 集 計 及 び 尤 度 の 計 算 例

6. 企業名の評価及び抽出

6.1. 概要

こ こ で は , 企 業 名 ら し さ の 評 価 方 法 及 び 企 業 名 の 抽 出 方 法 に つ い て 述 べ る . こ の 評 価 方 法 及 び 抽 出 方 法 は 中 野 ら[ 7 ]と 同 じ も の で あ る . 中 野 ら[ 7 ]か ら 引 用 し た も の に つ い て 横 線 で 表 す .

6.2. 評価方 法

抽 出 の 段 階 で は , 対 象 と な る 文 書 の 先 頭 か ら 順 に 部 分 文 字 列 が 企 業 名 ら し い か の 評 価 を 行 う . こ の 評 価 は 抽 出 し た い 文 字 長 内 に 含 ま れ る 全 て の 部 分 文 字 列 が 対 象 と な る . こ の 部 分 文 字 列 を 評 価 文 字 列 と 呼 ぶ こ と に す る . 評 価 時 は 評 価 文 字 列 を 企 業 名 と そ の 直 前 直 後 の 文 字 列 と 仮 定 し て , 先 行 部 か ら 後 続 部 の 各 部 に 対 し て 3.4 節 の 尤 度 比 を 計 算 す る . こ の 値 が 企 業 名 ら し さ を 表 す も の と な る . 図 8 の 例 の 「 月 に ト ヨ タ 自 動 車 が 新 」 を 評 価 し た い と す る と , こ の 評 価 文 字 列 に 対 す る 尤 度 比 を 計 算 し ,「 ト ヨ タ 自 動 車 」 と い う 文 字 列 が 企 業 名 ら し い か の 評 価 を 行 う こ と と な る . 本 研 究 で は , 評 価 文 字 列 に 対 す る 尤 度 比 を 先 行 部

(5)

か ら 末 尾 部 ま で の 各 部 の 尤 度 比 の 相 乗 平 均 と 仮 定 し て , こ の 値 を 評 価 値 と 定 義 す る . こ れ は 図 9 の よ う に 表 さ れ る . 評 価 値 を 求 め る た め の 評 価 式𝐿𝑅(𝑤1𝑛)を 式 (2) に 示 す . 文 字 数𝑛の 評 価 文 字 列𝑤に お け る𝑖文 字 目 か ら𝑗文 字 目 ま で の 部 分 文 字 列 を𝑤𝑖𝑗と す る . こ の 時 , 各 部 の 尤 度 比𝐿𝑅𝑃𝑟𝑒, 𝐿𝑅𝐻𝑒𝑎𝑑, 𝐿𝑅𝑀𝑖𝑑, 𝐿𝑅𝑇𝑎𝑖𝑙, 𝐿𝑅𝑃𝑜𝑠𝑡は ,先 行 部 , 先 頭 部 , 中 間 部 , 末 尾 部 , 後 続 部 の 文 字 Bigram 集 合 𝑆𝑃𝑟𝑒, 𝑆𝐻𝑒𝑎𝑑, 𝑆𝑀𝑖𝑑, 𝑆𝑇𝑎𝑖𝑙, 𝑆𝑃𝑜𝑠𝑡内 の 文 字 Bigram の 推 定 値 𝑃∗(𝑤 𝑖 𝑗| 𝑆 𝑋)( 𝑆𝑋は 各 部 の 文 字 Bigram 集 合 )と 抽 出 用 文 書 の 文 字 Bigram 集 合𝑆𝑑𝑜𝑐内 の 文 字 Bigram の 推 定 値 𝑃∗(𝑤 𝑛−1 𝑛 | 𝑆 𝑑𝑜𝑐)の 比 で 表 さ れ る . 今 回 は 引 用 内 の 式 (2)の𝑃∗(𝑤 𝑖 𝑗| 𝑆 𝑋)に つ い て ,Good-Turing 及 び 信 頼 区 間 の 下 限 値 に よ る ス ム ー ジ ン グ を 使 用 し て い る . 𝐿𝑅(𝑤1𝑛) = (𝐿𝑅𝑃𝑟𝑒× 𝐿𝑅𝐻𝑒𝑎𝑑× ∏ 𝐿𝑅𝑀𝑖𝑑 𝑛−4 𝑖=4 × 𝐿𝑅𝑇𝑎𝑖𝑙× 𝐿𝑅𝑃𝑜𝑠𝑡) 1 𝑛−3 (2) 𝐿𝑅𝑃𝑟𝑒= 𝑃∗(𝑤 1 2| 𝑆 𝑃𝑟𝑒) 𝑃∗(𝑤 1 2| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝐻𝑒𝑎𝑑= 𝑃∗(𝑤 3 4| 𝑆 𝐻𝑒𝑎𝑑) 𝑃∗(𝑤 3 4| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝑀𝑖𝑑= 𝑃∗(𝑤 𝑖 𝑖+1| 𝑆 𝑀𝑖𝑑) 𝑃∗(𝑤 𝑖 𝑖+1| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝑇𝑎𝑖𝑙= 𝑃∗(𝑤 𝑛−3 𝑛−2| 𝑆 𝑇𝑎𝑖𝑙) 𝑃∗(𝑤 𝑛−3 𝑛−𝑚| 𝑆 𝑑𝑜𝑐) 𝐿𝑅𝑃𝑜𝑠𝑡= 𝑃∗(𝑤 𝑛−1 𝑛 | 𝑆 𝑃𝑜𝑠𝑡) 𝑃∗(𝑤 𝑛−1 𝑛 | 𝑆 𝑑𝑜𝑐) 𝑛 𝑤𝑖𝑗 𝐿𝑅 𝐿𝑅𝑋 𝑆𝑃𝑟𝑒 𝑆𝐻𝑒𝑎𝑑 𝑆𝑀𝑖𝑑 𝑆𝑇𝑎𝑖𝑙 𝑆𝑃𝑜𝑠𝑡 𝑆𝑑𝑜𝑐 𝑃∗(𝑤 𝑖 𝑗| 𝑆 𝑋) 評 価 文 字 列 の 文 字 数 評 価 文 字 列 中 の𝑖文 字 目 か ら j文 字 目 ま で の 部 分 文 字 列 評 価 文 字 列 の 尤 度 比 ( = 評 価 値 ) 各 部 の 尤 度 比 先 行 部 の 文 字 Bigram 集 合 先 頭 部 の 文 字 Bigram 集 合 中 間 部 の 文 字 Bigram 集 合 末 尾 部 の 文 字 Bigram 集 合 後 続 部 の 文 字 Bigram 集 合 抽 出 用 文 書 の 文 字 Bigram 集 合 𝑆𝑋中 の𝑤𝑖𝑗の 出現確率の推定値のスムージング値 ( 今 回 は Good-Turing 推 定 法 を 使 用 ) 図2 評 価 文 字 列 の 例 3 評 価 値 の 計 算 例

6.3. 抽出方 法

抽 出 し た い 最 小 文 字 数 か ら 最 大 文 字 数 ま で の 評 価 文 字 列 に つ い て 6.2 節 の 評 価 値 を 計 算 し , そ の 値 の 高 い 順 か ら 一 定 数 の 企 業 名 を 抽 出 す る . 例 と し て「 6 月 に ト ヨ タ 自 動 車 が 新 型 車 を 発 売 し た .」 と い う 文 章 に 対 し 評 価 値 を 計 算 し て , 値 が 高 い 順 に 並 べ 替 え る と 表 1 の よ う に な る .こ の 例 で は 企 業 名 が 1 つ し か 含 ま れ て い な い が ,実 際 の 文 書 で は 多 く の 企 業 名 が 含 ま れ る た め 上 位 一 定 数 を 抽 出 す る . 表 1 評 価 文 字 列 と 評 価 値 の 例 評 価 文 字 列 評 価 値 ( 尤 度 比 ) 月 に ト ヨ タ 自 動 車 が 新 0.2447 月 に ト ヨ タ 自 動 車 が 新 型 0.0572 に ト ヨ タ 自 動 車 が 新 0.0510 6 月 に ト ヨ タ 自 動 車 が 新 0.0461 月 に ト ヨ タ 自 動 車 が 0.0424 に ト ヨ タ 自 動 車 が 新 型 0.0121 に ト ヨ タ 自 動 車 が 新 型 車 0.0082 6 月 に ト ヨ タ 自 動 車 が 0.0081 ト ヨ タ 自 動 車 が 新 型 0.0065 ・ ・ ・ ・ ・ ・

7. 比較実験

7.1. 概要

こ こ で は , 確 率 推 定 を 変 更 し た こ と に よ る 影 響 を 確 認 す る た め , 今 回 提 案 し た 信 頼 区 間 の 下 限 値 に よ る 確 率 推 定 を 用 い た 抽 出 法( 以 下 提 案 手 法 )と Good-Turing を 用 い た 抽 出 法 ( 以 下 ベ ー ス ラ イ ン ) と の 比 較 実 験 を 行 う .

7.2. 実験条 件

実 験 の 各 条 件 は 表 2 に 示 す , ベ ー ス ラ イ ン に お い て 最 も 適 合 率 及 び 再 現 率 の 高 か っ た 条 件 を 使 用 す る . 文 書 は ,毎 日 新 聞 コ ー パ ス 91-97 年[ 1 4 ]の 年 始 か ら 2 万 記 事 を 1 万 記 事 ご と に 分 割 し た も の を 1 つ の 文 書 と し て 計 14 文 書 を 作 成 す る .ま た ,K-分 割 交 差 検 証 で 14 文 書 中 の 13 文 書 を 学 習 用 ,残 り の 1 文 書 を テ ス ト 用 と す る .既 知 の企 業 名 は テ ス ト 用 文 書 か ら 形 態 素 解 析 で 組 織 名 を 抽 出 後 , パ タ ー ン マ ッ チ に よ り 企 業 名 以 外 を 除 去 し た も の を 用 い た .5 文 字 か ら 30 文 字 ま で の 企 業 名 を 対 象 に 評 価 値 の 計 算 を 行 い , 評 価 値 の 高 い 順 に 上 位

(6)

2000 件 を 企 業 名 と し て 抽 出 し た . 表 2 実 験 条 件 使 用 文 書 毎 日 新 聞 コ ー パ ス 91-97 年 の 年 始 か ら 2 万 記 事 ( 1 万 記 事 ご と に 分 割 ) の 計 14 文 書 テ ス ト 用 文 書 使 用 文 書 中 の 1 文 書 学 習 用 文 書 使 用 文 書 中 か ら テ ス ト 用 の 1 文 書 を 除 い た 13 文 書 既 知 の 企 業 名 リ ス ト の 作 成 方 法 形 態 素 解 析 で 組 織 名 を 抽 出 後 ,パ タ ー ン マ ッ チ に よ り 企 業 名 以 外 を 除 去 N-gram 文 字 Bigram 企 業 名 抽 出 の 文 字 数 の 範 囲 5 - 30 [文 字 ] 抽 出 件 数 評 価 値 の 上 位 2000 [件 ] ス ム ー ジ ン グ 法 ・ Good-Turing ・ 信 頼 区 間 の 下 限 値 を 用 い た 確 率 推 定 (𝛼=0.9999997)

7.3. 部分正 解によ る評価

正 解 の 評 価 方 法 は 中 野 ら[ 7]と 同 じ く 部 分 適 合 率 及 び 部 分 再 現 率 を 使 用 し て い る . そ れ ら の 説 明 に つ い て 中 野 ら[ 7 ]か ら 引 用 し た も の を 横 線 で 表 す . 人 が 企 業 名 だ と 認 識 で き る 全 て の 文 字 列 の 集 合 を 全 体 正 解 集 合 A と し て こ の 外 に 正 解 は 無 い も の と す る . こ の 時 , 既 知 の 企 業 名 の リ ス ト を 全 体 正 解 集 合 A に 包 含 さ れ る 部 分 正 解 集 合 a と す る .図 10 に 全 体 正 解 集 合 A, 部 分 正 解 集 合 a 及 び 抽 出 結 果 S の 関 係 図 を 示 す . 以 下 の 評 価 は 菅 野[ 4 ]を 踏 襲 し た も の で あ る . 本 来 な ら ば 抽 出 の 正 誤 の 判 定 に は 全 体 正 解 集 合 A を 用 い る べ き で あ る が ,全 体 正 解 集 合 A は 実 際 に は 得 ら れ な い , も し く は 得 る た め に 大 き な コ ス ト が か か る た め , 部 分 正 解 集 合 a を 用 い る . こ の 際 , 抽 出 結 果 S に 対 し て 部 分 正 解 集 合 a か ら 得 ら れ る 精 度 及 び 再 現 率 を 全 体 正 解 集 合 A か ら 得 ら れ る 精 度 及 び 再 現 率 と は 区 別 し て 部 分 適 合 率 と 部 分 再 現 率 と 表 現 す る . 部 分 適 合 率 と 部 分 再 現 率 を 式 (4.1)と 式 (4.2)に 示 す . 部 分 適 合 率=部 分 正 解 に 含 ま れ る 抽 出 文 字 列 の 数 抽 出 文 字 列 の 数 (4.1) 部 分 再 現 率= 部 分 正 解 に 含 ま れ る 抽 出 文 字 列 の 数 文書に存在する部分正解に含まれる企業名の数 (4.2) 図4 正 解 集 合 と 抽 出 結 果 ( 中 略 ) [4] 菅 野 弘 太 . n-gram の 統 計 値 に よ る 企 業 名 の 抽 出 . 豊 橋 技 術 科 学 大 学 , 2014, 43p. 修 士 論 文 .

7.4. 実験結 果・考 察

抽 出 の 結 果 , 提 案 手 法 と ベ ー ス ラ イ ン を 比 較 し て 片 方 の み に 現 れ た 企 業 名 の 例 ( 同 じ 企 業 名 は 除 く ) を 表 3 に 示 す . 提 案 手 法 の み に 現 れ た 例 で は ベ ー ス ラ イ ン の み に 現 れ た 例 に 比 べ て ,企 業 名 に「 "ソ ロ モ ン・ブ ラ ザ ー ズ "」 や 「 山 崎 製 "パ ン "」 な ど の 片 仮 名 を 含 む 企 業 名 が 多 く 含 ま れ て い る . こ れ は , Good-Turing の 確 率 推 定 が ジ ッ プ の 法 則 を 基 に し て い る た め と 考 え ら れ る . 漢 字 の 文 字 Bigram は 異 な る 単 語 同 士 で 同 じ 文 字 Bigram が 現 れ る こ と が 少 な く , 文 字 Bigram と 単 語 の 出 現 頻 度 が お お よ そ 等 し く な り ジ ッ プ の 法 則 に 従 っ て い る が ,片 仮 名 や 平 仮 名 の 文 字 Bigram は 異 な る 単 語 同 士 で も 同 じ 文 字 Bigram が 現 れ る こ と が 多 い た め ジ ッ プ の 法 則 に 従 わ な い 分 布 と な る . こ の た め , 信 頼 区 間 の 下 限 値 に よ る 確 率 推 定 の 方 が 有 効 に 働 い た と 考 え ら れ る . 表 4 に 部 分 適 合 率 及 び 部 分 再 現 率 を 示 す . ま た , 各 項 目 で 上 回 っ て い る 手 法 を 下 線 で 示 す . 部 分 適 合 率 と 部 分 再 現 率 の い ず れ も '94(1) 以 外 の 全 て の 対 象 文 書 に お い て 提 案 手 法 が ベ ー ス ラ イ ン を 上 回 っ て お り , 符 号 検 定 を 行 な っ た 結 果 , 有 意 水 準 1%で 提 案 手 法 と ベ ー ス ラ イ ン と の 有 意 差 が 認 め ら れ た . 表 3 片 方 の み に 現 れ た 企 業 名 の 例 提 案 手 法 の み に 現 れ た 例 ベ ー ス ラ イ ン の み に 現 れ た 例 ソ ロ モ ン ・ ブ ラ ザ ー ズ 山 崎 製 パ ン サ ン ケ ン 電 気 ア エ ロ フ ロ ー ト ワ シ ン ト ン ・ ポ ス ト ニ ュ ー ヨ ー ク ・ タ イ ム ズ 全 日 本 空 輸 積 水 ハ ウ ス ホ テ ル オ ー ク ラ み す ず 書 房 帝 国 ホ テ ル 日 立 製 作 所 日 本 輸 出 入 銀 行 毎 日 新 聞 社 全 日 本 空 輸 富 士 重 工 業 石 川 島 播 磨 東 洋 信 託 銀 行 テ レ ビ 東 京 中 央 公 論 社 ︙ ︙

(7)

表 4 部 分 適 合 率 及 び 部 分 再 現 率 部 分 適 合 率 部 分 再 現 率 提 案 手 法 ベ ー ス ラ イ ン 提 案 手 法 ベ ー ス ラ イ ン '91(1) 0.724 0.708 0.735 0.718 '91(2) 0.751 0.712 0.734 0.696 '92(1) 0.788 0.753 0.751 0.717 '92(2) 0.741 0.714 0.702 0.676 '93(1) 0.842 0.798 0.724 0.687 '93(2) 0.888 0.867 0.670 0.654 '94(1) 0.860 0.862 0.704 0.706 '94(2) 0.866 0.857 0.652 0.645 '95(1) 0.842 0.833 0.665 0.657 '95(2) 0.813 0.783 0.706 0.680 '96(1) 0.890 0.862 0.637 0.617 '96(2) 0.878 0.874 0.627 0.624 '97(1) 0.891 0.864 0.594 0.576 '97(2) 0.895 0.878 0.585 0.574 平 均 0.834 0.812 0.678 0.659 分 散 0.0034 0.0040 0.0026 0.0021

8. おわりに

本 稿 で は , Good-Turing の 代 わ り に 信 頼 区 間 の 下 限 値 に よ る ス ム ー ジ ン グ を 用 い た 企 業 名 抽 出 の 提 案 を 行 っ た . そ し て , 新 聞 記 事 を 対 象 と し た 提 案 手 法 と ベ ー ス ラ イ ン の 比 較 実 験 を 行 い , 部 分 適 合 率 及 び 部 分 再 現 率 が 向 上 で き る こ と を 明 ら か に し た .

謝辞

本 研 究 は , 住 友 電 工 情 報 シ ス テ ム 株 式 会 社 と の 共 同 研 究 の 成 果 で す . こ こ に 感 謝 の 意 を 表 し ま す .

参 考 文 献

[1] 森 信 介 , 長 尾 眞 . n グ ラ ム 統 計 に よ る コ ー バ ス か ら の 未 知 語 抽 出 . 情 報 処 理 学 会 論 文 誌 . 1998, 39(7), p. 2093-2100. [2] 梅 村 恭 司 . 未 踏 テ キ ス ト 情 報 中 の キ ー ワ ー ド の 抽 出 シ ス テ ム 開 発 . 未 踏 ソ フ ト ウ ェ ア 創 造 事 業 , 2000.

[3] 山 田 寛 康 ほ か . Support Vector Machine を 用 い た 日 本 語 固 有 表 現 抽 出 . 情 報 処 理 学 会 論 文 誌 . 2002, 43(1), p. 44-53. [4] 宇 津 呂 武 仁 , 颯 々 野 学 . ブ ー ト ス ト ラ ッ プ に よ る 低 人 手 で コ ス ト 日 本 語 固 有 表 現 抽 出 . 情 報 処 理 学 会 研 究 報 告 . 2000, 2000(86), p. 9-16. [5] 齋 藤 邦 子 ほ か . CRF を 用 い た ブ ロ グ か ら の 固 有 表 現 抽 出 . 言 語 処 理 学 会 第 13 回 年 次 大 会 , 2007, p. 1-4. [6] 菅 野 弘 太 . n-gram の 統 計 値 に よ る 企 業 名 の 抽 出 . 豊 橋 技 術 科 学 大 学 , 2014, 43p. 修 士 論 文 . [7] 中 野 翔 平 ほ か . 企 業 名 抽 出 の た め の 特 徴 量 の 検 討 , 第 7 回 デ ー タ 工 学 と 情 報 マ ネ ジ メ ン ト に 関 す る フ ォ ー ラ ム (DEIM 2015), E8-5, 2015. [8] 長 尾 眞 , 森 信 介 . 大 規 模 日 本 語 テ キ ス ト の n グ ラ ム 統 計 の 作 り 方 と 語 句 の 自 動 抽 出 . 情 報 処 理 学 会 研 究 報 告 . 1993, 93(61), p. 1-8. [9] 浅 原 正 幸 , 松 本 裕 治 . 日 本 語 固 有 表 現 抽 出 に お け る わ か ち 書 き 問 題 の 解 決 . 情 報 処 理 学 会 論 文 誌 . 2002, 45(5), p.1442-1450.

[10] Zellig S. Harris. Distributional structure. Word. 1954, 10(23), p. 146-162.

[11] 北 研 二 . 確 率 的 言 語 モ デ ル . 東 京 大 学 出 版 会 , 1999, 239p.

[12] W. A. Gale, G. Sampson. Good-Turing Frequency Estimation without Tears. Journal of Quantitative Linguistics. 1995, 2(3), p.217 -237.

[13] Masato Kikuchi et al. “Confidence Interval of Probability Estimator of Laplace Smoothing”. ICAICTA2015. The Tide Resort, Bang Saen Beach, Chonburi, Thailand, 2015-08-19/22.

[14] 毎 日 新 聞 社 . CD-毎 日 新 聞 デ ー タ 集 '91-97 年 版 . 日 外 ア ソ シ エ ー ツ , 1991-1997. (CD-ROM).

表 4  部 分 適 合 率 及 び 部 分 再 現 率   部 分 適 合 率  部 分 再 現 率   提 案 手 法   ベ ー ス ラ イ ン  提 案 手 法   ベ ー ス ラ イ ン  '91(1)  0.724  0.708  0.735  0.718  '91(2)  0.751  0.712  0.734  0.696  '92(1)  0.788  0.753  0.751  0.717  '92(2)  0.741  0.714  0.702  0.676  '93(1)  0.84

参照

関連したドキュメント

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”

▼ 企業名や商品名では無く、含有成分の危険性・有害性を MSDS 、文献

車両の作業用照明・ヘッド ライト・懐中電灯・LED 多機能ライトにより,夜間 における作業性を確保して

車両の作業用照明・ヘッド ライト・懐中電灯・LED 多機能ライトにより,夜間 における作業性を確保して

車両の作業用照明・ヘッド ライト・懐中電灯・LED 多機能ライトにより,夜間 における作業性を確保して

従って,今後設計する機器等については,JSME 規格に限定するものではなく,日本産業 規格(JIS)等の国内外の民間規格に適合した工業用品の採用,或いは American

従って,今後設計する機器等については,JSME 規格に限定するものではなく,日本工業 規格(JIS)等の国内外の民間規格に適合した工業用品の採用,或いは American

従って,今後設計する機器等については,JSME 規格に限定するものではなく,日本産業 規格(JIS)等の国内外の民間規格に適合した工業用品の採用,或いは American