DEIM Forum 2016 C7-3
回答のクラスタリングによる
多様な主観的回答を行う相談システムの提案
畠山 恭明
†山名 早人
‡§†早稲田大学基幹理工学研究科 〒169-8555 東京都新宿区大久保 3-4-1
‡早稲田大学理工学術院 〒169-8555 東京都新宿区大久保 3-4-1
§国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: {hatake, yamana}@yama.info.waseda.ac.jp
あらまし インターネット上の掲示板に投稿される質問の中には,相談のような答えが一つに定まらないような 質問が存在する.相談を投稿したユーザは,他のユーザからの返事を待つことで回答を得ることができるが,何も 回答を得られないという場合も存在する.また,過去の類似している相談・回答を検索するとき,多様な意見を求 めている場合は,大量の回答に目を通さなくてはならないという問題がある.そこで本研究では,過去の相談・回 答を利用して,入力の相談文に対して回答文を出力するシステムを提案する.本システムは,回答を回答者の意見 に基づきまとめあげることで,多様な主観的回答を出力する.また,どのような理由で回答がヒットしたのかをシ ステム利用者に提示する. キーワード non-factoid 型質問応答,相談回答,主観的回答
1. は じ め に
Yahoo!知 恵 袋1や 2 ち ゃ ん ね る2と い っ た イ ン タ ー ネ ッ ト 上 の 掲 示 板 に 投 稿 さ れ る 質 問 の 中 に は , 相 談 の よ う な 答 え が 一 つ に 定 ま ら な い よ う な 質 問 が 存 在 す る . 相 談 を 投 稿 し た ユ ー ザ は 他 の ユ ー ザ か ら の 返 事 を 待 つ こ と で 回 答 を 得 る こ と が で き る . し か し , 何 も 回 答 を 得 ら れ な い と い う 場 合 も 存 在 す る . ま た , 過 去 の 類 似 し て い る 相 談 ・ 回 答 を 検 索 す る こ と は , 多 様 な 意 見 を 求 め て い る 場 合 , 大 量 の 回 答 に 目 を 通 さ な く て は な ら な い と い う 問 題 が あ る . ま た , 回 答 が 長 文 で あ っ た 場 合 , 回 答 の 要 点 を 把 握 す る こ と も 困 難 で あ る . そ の た め , 相 談 文 に 対 す る 似 た 回 答 を ま と め , 回 答 の キ ー ワ ー ド を 提 示 す る シ ス テ ム は 回 答 を 効 率 的 に 閲 覧 す る た め に 有 用 で あ る と 考 え ら れ る . 入 力 さ れ た 質 問 文 に 対 し て 回 答 を 出 力 す る シ ス テ ム は ,大 き く 2 つ に 分 類 で き る .1 つ 目 は Factoid 型 質 問 応 答 シ ス テ ム と 呼 ば れ る , 回 答 の 形 式 が 単 語 と な る シ ス テ ム で あ る .2 つ 目 は Non-factoid 型 質 問 応 答 シ ス テ ム と 呼 ば れ る , 回 答 の 形 式 が 文 章 で あ る シ ス テ ム で あ る .本 研 究 で 対 象 と す る の は ,文 章 を 出 力 す る Non-factoid 型 で あ る .Non-Non-factoid 型 質 問 応 答 シ ス テ ム の 既 存 研 究 に は ,定 義 型 や why 型 ,how 型 と い っ た あ る 質 問 型 に 特 化 し た 研 究 [1][2][3], 質 問 型 を 特 定 せ ず に 回 答 を 行 う Universal Question Answering(UQA)と 呼 ば れ る 研 究 [4][5], 最 終 的 な 出 力 回 答 を 決 定 す る 研 究 [6][7] が あ る . 1 http://chiebukuro.yahoo.co.jp/ こ う し た 既 存 研 究 で は , 類 似 回 答 の ま と め を 行 っ て い る が , 回 答 の 要 点 に そ っ た ま と め が 行 わ れ て い る わ け で は な い . そ の た め , 回 答 が 要 点 で な い 部 分 で ま と め ら れ て し ま う 場 合 が あ る . ま た , 回 答 の キ ー ワ ー ド な ど を 提 示 す る 仕 組 み は 存 在 し な い た め , 出 力 さ れ る 回 答 の 主 張 が 何 で あ る か , シ ス テ ム 利 用 者 は 長 文 の 回 答 を 読 ま な い と 判 断 で き な い . そ こ で 本 研 究 で は , 回 答 を 回 答 者 の 意 見 に 基 づ き ま と め る こ と で , 多 様 な 主 観 的 回 答 を 出 力 す る こ と の で き る シ ス テ ム を 提 案 す る . 提 案 シ ス テ ム で は , 過 去 の 相 談 ・ 回 答 を 利 用 し て , 入 力 の 相 談 文 に 対 し て 回 答 文 を 出 力 す る . な お , 本 提 案 に お い て は , 質 問 分 野 は 予 め 定 め ら れ て い る と し た 上 で , 当 該 分 野 の キ ー ワ ー ド 辞 書 を 予 め 作 成 し , 同 辞 書 を 用 い た ク ラ ス タ リ ン グ を 行 う . キ ー ワ ー ド 辞 書 は 過 去 の 相 談 文 の 投 稿 タ イ ト ル か ら 作 成 す る . 投 稿 タ イ ト ル に は 相 談 内 容 の 要 点 を 表 現 す る 語 が 含 ま れ , 回 答 内 容 に お い て も 要 点 を 表 現 す る 語 と な る と 考 え ら れ る . こ れ ら の キ ー ワ ー ド を ま と め 上 げ に 用 い る こ と で ,他 の 一 般 的 な 語 の 影 響 を 避 け , 回 答 の 要 点 に よ る ま と め 上 げ を 行 う . ま た , 長 文 の 出 力 で は ど の よ う な 理 由 で 回 答 が ヒ ッ ト し た の か わ か ら な い た め , 回 答 の キ ー ワ ー ド を シ ス テ ム 利 用 者 に 提 示 す る . ま た , 過 去 の 回 答 文 に は 特 定 の 状 況 に 特 化 し た 回 答 も 含 ま れ る が , こ う し た 特 化 し た 回 答 は 一 般 的 に 回 答 と し て 的 確 な 回 答 に な る こ と が 少 な い . こ れ は , 特 化 し た 状 況 で の 回 答 と な る た め で あ る . そ こ で , こ う し 2 http://www.2ch.net/た 特 定 の 状 況 に 特 化 し た 回 答 を 出 力 し な い よ う に す る た め , 本 シ ス テ ム で は , 入 力 相 談 文 に 対 し て , 過 去 の よ り 単 純 な 相 談 文 に 対 す る 回 答 を 出 力 す る こ と で , あ る 特 定 の 状 況 に 特 化 し た 回 答 を 出 力 す る こ と を 防 ぐ . ま た ,相 談 文 の 投 稿 者 は ,質 問 を し な が ら も す で に「 投 稿 者 自 身 が 期 待 す る 回 答 」 を 持 っ て い る 場 合 が あ る . 本 研 究 で は 「 肯 定 的 な 回 答 」 を そ の 一 つ と し , 回 答 文 の 肯 定 度 に よ り 出 力 回 答 の ス コ ア 付 け を 行 う . 本 稿 で は 以 下 の 構 成 を と る . ま ず 第 2 節 で 関 連 研 究 に つ い て 述 べ , 第 3 節 で 提 案 手 法 に つ い て 述 べ る , 第 4 節 で 評 価 実 験 を 行 い , 最 後 に 第 5 節 で ま と め を 述 べ る .
2. 関 連 研 究
本 節 で は ,Non-factoid 型 質 問 応 答 を 扱 う 研 究 の 中 で も ,UQA に 分 類 さ れ る 関 連 研 究 ,出 力 す る 回 答 を 決 定 す る 関 連 研 究 に つ い て 述 べ る . UQA に 分 類 さ れ る 研 究 と し て , 石 下 ら [4] は 質 問 の 型 分 類 を 行 わ ず , 過 去 の Q&A コ ー パ ス か ら 類 似 す る 記 述 ス タ イ ル の 質 問 を 見 つ け , 対 応 す る 回 答 集 合 か ら 回 答 表 現 を 生 成 し , 回 答 の 抽 出 に 利 用 し た . ま た , 回 答 の 情 報 源 に は ,検 索 エ ン ジ ン よ り 得 ら れ た Web 上 の 文 書 を 用 い た . し か し , 相 談 回 答 と い っ た 情 報 は 一 般 の Web ペ ー ジ に は 多 く 存 在 せ ず ,回 答 の 情 報 源 と し て は 適 さ な い . Chaturvedi ら [5]は 質 問 ク ラ ス タ リ ン グ と 質 問 回 答 の 関 連 性 予 測 を 統 合 し た モ デ ル を 提 案 し , 質 問 型 に よ ら な い 質 問 応 答 シ ス テ ム を 構 築 し た .し か し , 回 答 の 内 容 が 不 足 の 場 合 と 過 剰 の 場 合 を 区 別 し て い な い た め , 入 力 に 対 し て 関 係 の な い 情 報 が 出 力 さ れ て し ま う 問 題 が あ る , 出 力 す る 回 答 を 決 定 す る 研 究 と し て , Achananuparp ら [6]は 回 答 間 の 関 連 性 に よ り グ ラ フ を 構 築 し ,回 答 の 多 様 化 を 行 っ た .石 下 ら [4]は 語 の 頻 度 ベ ク ト ル に よ り 回 答 の ク ラ ス タ リ ン グ を 行 い , 回 答 の 冗 長 性 の 排 除 を 行 っ た . し か し , こ れ ら の 手 法 は 語 の 重 要 度 を 考 慮 し て い な い た め ,回 答 の 要 点 で な い 部 分 で 回 答 の 多 様 化・ 冗 長 性 の 排 除 が 行 わ れ る 可 能 性 が あ る .Sakamoto ら [7] は 回 答 間 の グ ラ フ 構 造 を 構 築 し , 回 答 に 多 く の 観 点 含 ま れ る も の か ら ラ ン キ ン グ を 行 っ た . し か し , 回 答 に 多 く の 観 点 が 含 ま れ て い る ほ ど , 入 力 相 談 文 と 対 応 し て い な い 内 容 が 多 く 含 ま れ る 回 答 と な っ て し ま う 可 能 性 が あ る .3. 提 案 手 法
本 節 で は , 相 談 文 を 入 力 し 回 答 文 を 出 力 す る 提 案 シ ス テ ム に つ い て 述 べ る . 既 存 研 究 に お い て は , 以 下 の 3 http://oshiete.goo.ne.jp/ 問 題 点 が 存 在 し た . 検 索 エ ン ジ ン に よ り Web 上 の 情 報 を 取 得 し 回 答 に 用 い て い る [4]が ,相 談 の 回 答 の よ う な 内 容 は 一 般 の Web ペ ー ジ に は 多 く 存 在 せ ず ,回 答 を 見 つ け る に は 適 さ な い . 回 答 の 情 報 が 不 足 で あ る 場 合 と 過 剰 で あ る 場 合 を 区 別 し て い な い [5]た め ,入 力 に 対 し て 関 係 の な い 情 報 が 出 力 さ れ て し ま う . 語 の 重 要 度 を 考 慮 せ ず 回 答 の 多 様 化 を 行 っ て い る [4][6]た め ,回 答 の 要 点 で な い 部 分 で 多 様 化 さ れ た 回 答 が 出 力 さ れ る 場 合 が あ る . こ れ ら を 踏 ま え て 提 案 手 法 で は , 質 問 文 ( 入 力 ) を も と に , 単 純 な 内 容 の 類 似 相 談 文 を み つ け ,そ の 回 答 を 利 用 す る こ と で 関 係 の な い 情 報 の 出 力 を 抑 え る 回 答 文 の 内 容 を 端 的 に 表 現 す る キ ー ワ ー ド に よ り , 回 答 の 要 点 に よ る 回 答 選 択 を 行 う . と し た . 本 研 究 で は ,過 去 の 相 談・回 答 文 と し て「 教 え て goo!3」 の 恋 愛 相 談 カ テ ゴ リ か ら デ ー タ を 収 集 し , 利 用 し た 。 収 集 し た デ ー タ は ,相 談 文 10,645 件 ,回 答 文 49,456 件 で あ る . 提 案 手 法 は 以 下 の 流 れ を と る . step 1. 過 去 の 相 談 ・ 回 答 文 デ ー タ セ ッ ト か ら キ ー ワ ー ド を 抽 出 step 2. 入 力 質 問 文 に 対 す る 回 答 候 補 取 得 step 2.1. 入 力 に 対 す る 類 似 相 談 文 の 検 索 step 2.2. 2.1.で 取 得 し た 類 似 相 談 文 に 紐 づ く 回 答 を 回 答 候 補 と す る step 3. 出 力 す る 回 答 の 選 択 step 3.1. 回 答 候 補 の ク ラ ス タ リ ン グ を 行 う step 3.2. 回 答 候 補 に 対 し 文 章 の 肯 定 度 を ス コ ア 付 け す る step 4. 最 終 的 な 出 力 以 下 , 各 々 の step に つ い て 順 に 説 明 す る .3.1. キーワード辞 書 の構 築
キ ー ワ ー ド 辞 書 の 構 築 で は , 相 談 文 検 索 に 用 い る 相 談 文 キ ー ワ ー ド 辞 書 と , 回 答 選 択 に 用 い る 回 答 文 キ ー ワ ー ド 辞 書 の 構 築 を 行 う . 本 研 究 で は , 相 談 文 に 付 与 さ れ る 投 稿 タ イ ト ル に , 相 談 文 の 内 容 を 端 的 に 表 現 す る キ ー ワ ー ド が 含 ま れ て い る と 考 え る . そ こ で , 投 稿 タ イ ト ル か ら 形 態 素 解 析 器 Juman[8]を 用 い て 名 詞 ・ 形 容 詞・ 動 詞 を 抽 出 し て キ ー ワ ー ド と 定 義 し ,キ ー ワ ー ド 辞 書 を 作 成 し た .Jumanの 辞 書 は Juman7.0.1 の も の を 用 い た .ま た ,抽 出 さ れ た 単 語 か ら 一 般 的 な 語 を 除 去 す る . 一 般 語 の 除 去 に は 以 下 2 つ の 処 理 を 行 っ た . 数 字 の み の 語 の 除 去 idf 値 に よ る 除 去 idf 値 に よ る 除 去 で は ,ま ず「 投 稿 タ イ ト ル と し て 一 般 的 な 語 で は な く , 日 本 語 と し て 一 般 的 な 語 の 除 去 」 を 行 い た い .そ こ で ,Wikipedia 記 事 1,119,485 件 に 対 す る 単 語 の 文 書 頻 度 df(w)を 利 用 し て idf 値 を 計 算 す る . 単 語 w の idf 値 は 以 下 の 式 を 用 い て 計 算 し た . idf(w) = loge 𝑁 𝑑𝑓(𝑤) (1) た だ し ,𝑁は Wikipedia の 記 事 数 で あ る .idf 値 が 2.0 以 下 の 単 語 を 一 般 語 と し て , キ ー ワ ー ド 辞 書 か ら 除 去 し た . 次 に , 投 稿 タ イ ト ル に お け る 文 書 頻 度 が 非 常 に 高 い ・ 低 い た め , 文 書 を 特 定 す る こ と に 適 さ な い 単 語 の 除 去 を 行 う .式 (1)に よ る idf の 式 に お い て ,𝑁を 投 稿 タ イ ト ル 数 と し て , {idf(w) < 2.0 idf(𝑤) > 5.0 (2) と な る 単 語 を 除 去 し た . こ れ ら の し き い 値 は , 値 を 変 化 さ せ て い き , 結 果 を 人 目 で 確 認 す る こ と に よ っ て 決 定 し た . こ れ ら の 操 作 後 に 生 成 さ れ た キ ー ワ ー ド 例 を 表 1 に 示 す .ま た ,抽 出 さ れ た キ ー ワ ー ド は 881 個 で あ っ た . 次 に , 回 答 文 キ ー ワ ー ド 辞 書 の 構 築 に つ い て 述 べ る . 相 談 文 キ ー ワ ー ド 辞 書 の 構 築 で は 相 談 投 稿 タ イ ト ル の 情 報 を 用 い た が , 回 答 文 に は タ イ ト ル が 存 在 し な い . そ の た め , 回 答 文 の 前 半 部 分 に 回 答 の 要 点 が 含 ま れ る と し て , 回 答 文 先 頭 の 2 文 か ら 回 答 文 キ ー ワ ー ド 辞 書 を 構 築 す る . キ ー ワ ー ド 語 の 抽 出 法 , 一 般 語 の 除 去 法 は 相 談 文 キ ー ワ ー ド 辞 書 構 築 と 同 様 に 行 う . た だ し , Wikipedia に お け る idf 値 の し き い 値 は 2.0 と し た . ま た , 投 稿 タ イ ト ル に お け る 文 書 頻 度 の 代 わ り に , 回 答 文 全 文 に お け る idf 値 を 用 い て , {idf(𝑤) < 1.6 idf(𝑤) > 5.2 (3) と な る 単 語 の 除 去 を 行 っ た . こ れ ら の し き い 値 は , 同 様 に 結 果 を 人 目 で 確 認 す る こ と に よ っ て 決 定 し た . 生 成 さ れ た キ ー ワ ー ド 例 を 表 2 に 示 す .ま た ,抽 出 さ れ た キ ー ワ ー ド は 1,090 個 で あ っ た . 表 1 相 談 文 キ ー ワ ー ド 例 相 談 文 キ ー ワ ー ド 会 社 , 卒 業 , 高 校 , 友 人 , 年 上 , 片 思 い , 後 悔 表 2 回 答 文 キ ー ワ ー ド 例 回 答 文 キ ー ワ ー ド 変 だ , 抱 え る , 詫 び る , 普 通 だ , 勘 違 い , 立 派 だ
3.2. 類 似 相 談 文 検 索
類 似 相 談 文 の 検 索 で は , 3.1 項 で 抽 出 し た キ ー ワ ー ド を 用 い る . 類 似 相 談 文 を 検 索 す る 際 , 被 検 索 相 談 文 に 余 分 な 要 素 が 含 ま れ て い る と , 紐 づ く 回 答 に も 意 図 し な い 余 分 な 要 素 が 多 く 含 ま れ て し ま う こ と が 考 え ら れ る .そ こ で ,提 案 手 法 で は ,ま ず 入 力 相 談 文 query に 含 ま れ る キ ー ワ ー ド の 集 合 を Kinput,被 検 索 デ ー タ セ ッ ト 中 の 相 談 文 querydb に 含 ま れ る キ ー ワ ー ド の 集 合 を Kquerydbと す る . こ の と き Kqueryに 含 ま れ て い る が Kquerydbに 含 ま れ て い な い 語 は 許 容 す る が , Kinputに 含 ま れ て お ら ず Kquerydbに 含 ま れ る 語 が あ っ た 場 合 は 特 別 な ペ ナ ル テ ィ を 与 え る . こ れ を 踏 ま え て , 以 下 の 式 (3)で 類 似 相 談 文 の ス コ ア 付 け を 行 う .こ こ で ,αは ペ ナ ル テ ィ 項 の 重 み パ ラ メ ー タ で あ る . scorequerydb(𝑞𝑢𝑒𝑟𝑦) =|𝐾𝑞𝑢𝑒𝑟𝑦∩ 𝐾𝑞𝑢𝑒𝑟𝑦𝑑𝑏| |𝐾𝑞𝑢𝑒𝑟𝑦| ∗ (1 − 𝛼|𝐾̅̅̅̅̅̅̅̅̅ ∩ 𝐾𝑞𝑢𝑒𝑟𝑦 𝑞𝑢𝑒𝑟𝑦𝑑𝑏| |𝐾𝑞𝑢𝑒𝑟𝑦𝑑𝑏| ) (3) た だ し ,𝐾̅̅̅̅̅̅̅̅̅は キ ー ワ ー ド 辞 書 全 体 𝐾に 含 ま れ て い る𝑞𝑢𝑒𝑟𝑦 が , 𝐾queryに は 含 ま れ て い な い 語 の 集 合 で あ る . 式 (1)は , (querydb が query の キ ー ワ ー ド を 網 羅 し て い る か )*(querydb に 余 分 な キ ー ワ ー ド が 含 ま れ て い な い か )と い う 形 式 を し て い る .3.3. 回 答 クラスタリング
先 行 研 究 の 質 問 応 答 シ ス テ ム で は , 類 似 す る 回 答 に よ る 出 力 の 冗 長 性 を 解 消 す る た め に , 回 答 候 補 を ク ラ ス タ リ ン グ し ,出 力 を 決 定 す る [4].提 案 手 法 も そ れ に な ら い , 相 談 者 に 返 す 回 答 に 多 様 性 を も た せ る た め に ク ラ ス タ リ ン グ を 行 う . 同 一 ク ラ ス タ に な っ た 回 答 は 同 様 の 要 点 を 持 つ 回 答 で あ る と し , 後 の 処 理 で ク ラ ス タ 内 の 代 表 と な る 回 答 の み を 出 力 さ せ る . ク ラ ス タ リ ン グ に は 回 答 文 answer 中 の キ ー ワ ー ド 集 合 Kanswerを 用 い る . こ れ は , キ ー ワ ー ド が 回 答 の 要 点 を 端 的 に 表 現 す る も の で あ る と 考 え ら れ る た め で あ る . 回 答 文 answer1, answer2の 距 離 関 数 は Jaccard 係 数 を 用 い て 以下 の 式 (4)と し た .ま た ,ク ラ ス タ リ ン グ の ア ル ゴ リ ズ ム は 完 全 リ ン ク 法 に よ る 階 層 的 ク ラ ス タ リ ン グ を 用 い た .
3.4. 回 答 の肯 定 度 によるスコア付 け
相 談 者 が 相 談 文 を 投 稿 す る 際 , 相 談 者 に は 既 に 期 待 す る 回 答 が 存 在 す る 場 合 が あ る . 本 研 究 で は 「 肯 定 的 な 回 答 」 を 相 談 者 が 期 待 す る 回 答 で あ る と し て , こ の よ う な 回 答 に 対 し 高 い ス コ ア 付 け を 行 う . こ の ス コ ア 付 け に は ,熊 本 ら の 印 象 値 計 算 手 法 [9]を 用 い る .熊 本 d(answer1, 𝑎𝑛𝑠𝑤𝑒𝑟2) = 1 − |𝐾𝑎𝑛𝑠𝑤𝑒𝑟1∩ 𝐾𝑎𝑛𝑠𝑤𝑒𝑟2| |𝐾𝑎𝑛𝑠𝑤𝑒𝑟1∪ 𝐾𝑎𝑛𝑠𝑤𝑒𝑟2| (4)ら の 手 法 で は , 文 章 の 印 象 を 事 前 に 与 え た 印 象 語 群 を 用 い て ,「 楽 し い ⇔ 悲 し い 」と い っ た 印 象 尺 度 ご と に 印 象 値 を 計 算 す る . 本 シ ス テ ム で は ,「 肯 定 的 ⇔ 否 定 的 」 と い う 印 象 尺 度 に 手 法 を 適 用 し , 得 ら れ た 印 象 値 を 肯 定 度 ス コ ア と す る . 熊 本 ら の 手 法 の 流 れ は 以 下 の よ う に な る . 1. 印 象 尺 度 に 対 応 す る 印 象 語 群 を 設 定 す る 2. 印 象 語 群 を 用 い て ,文 章 中 単 語 の 印 象 値 を 計 算 し , 印 象 辞 書 に 登 録 す る 3. 印 象 辞 書 の 印 象 値 を 用 い て ,文 章 の 印 象 値 を 計 算 す る 肯 定 度 ス コ ア の 計 算 に は ,事 前 情 報 と し て ,「 肯 定 的 な 印 象 語 群 IWL」 と 「 否 定 的 な 印 象 語 群 IWR」 が 必 要 と な る . こ れ ら の 印 象 語 群 は , デ ー タ セ ッ ト 中 回 答 文 に 含 ま れ る 単 語 か ら 文 脈 に 依 存 す る 単 語 を 除 外 し , 文 書 頻 度 が 一 定 以 上 で あ る も の か ら 選 択 し た . 選 択 さ れ た 印 象 語 群 を 表 3 に 示 す . 表 3 選 択 さ れ た 印 象 語 群 印 象 語 肯 定 的 な 印 象 語 群 IWL 良 い , 素 敵 , 素 晴 ら し い , 正 し い 否 定 的 な 印 象 語 群 IWR 悪 い , ダ メ , ひ ど い , 間 違 い 次 に ,単 語 wの 印 象 値 v(w)を 計 算 す る .デ ー タ セ ッ ト 中 で ,IWLを IWRよ り 多 く 含 ん で い る 回 答 文 の 集 合 を SL, IWRを IWLよ り 多 く 含 ん で い る 回 答 文 の 集 合 を SRと す る . そ し て SL,SRに 含 ま れ る 助 詞 ,連 体 詞 ,指 示 詞 以 外 の す べ て の 単 語 を 抽 出 す る .こ の と き ,単 語 wの SLに お け る 文 書 頻 度 を NL(𝑤),SRに お け る 文 書 頻 度 を NR(w)と す る . ま た , SLの 回 答 文 数 を NL, SRの 回 答 文 数 を NRと す る . こ の と き 単 語 wの 印 象 値 v(w)は , 以 下 の 式 (5)に よ っ て 計 算 で き る . v(w) = 𝑃𝐿(𝑤) ∗ log10𝑁𝐿 𝑃𝐿(𝑤) ∗ log10𝑁𝐿+ 𝑃𝑅(𝑤) ∗ log10𝑁𝑅 (5) た だ し , PL(𝑤) = 𝑁𝐿(𝑤) 𝑁𝐿 (6) PR(𝑤) = 𝑁𝑅(𝑤) 𝑁𝑅 (7) で あ る . 最 後 に , 印 象 辞 書 の 印 象 値 を 用 い て , 回 答 文 の 肯 定 度 を 計 算 す る . 文 章 の 肯 定 度 は , 回 答 文 中 に 含 ま れ る 単 語 の 平 均 印 象 値 と す る . こ の と き , 同 じ 単 語 が 含 ま れ て い た 場 合 も 単 純 に 足 し 合 わ せ る こ と で 平 均 を 計 算 す る .
3.5. 最 終 的 な出 力 の決 定
3.3 項 で の 各 ク ラ ス タ 内 の 回 答 に 対 し ,3.4 項 の ス コ ア 付 け を 適 用 す る . 各 ク ラ ス タ 内 の ス コ ア 上 位 n 件 の 回 答 を ク ラ ス タ 内 の 代 表 回 答 と し て 採 用 し , 出 力 と す る . つ ま り , ク ラ ス タ 数 が k で あ る と き , シ ス テ ム は n × k個 の 回 答 を 出 力 す る . ま た , 各 出 力 回 答 内 に 含 ま れ る キ ー ワ ー ド を ヒ ッ ト し た 理 由 と し て 利 用 者 に 提 示 す る .4. 評 価 実 験
本 研 究 は ,入 力 さ れ た 相 談 文 に 対 し て ,(1)一 般 的 な 主 観 的 回 答 を 行 う ,(2)多 様 な 主 観 的 回 答 を 行 う ,こ と を 目 的 と し て い る . そ の た め , シ ス テ ム の 最 終 的 な 出 力 が (1),(2)に そ っ た 回 答 と な っ て い る か に つ い て 評 価 実 験 を 行 う .4.1. データセット
収 集 し た 相 談 ・ 回 答 デ ー タ か ら 10 件 の 相 談 文 と 紐 づ く 回 答 を 選 択 し , テ ス ト デ ー タ と し た .4.2. 評 価 実 験 方 法
シ ス テ ム 全 体 の 評 価 は ,(1)一 般 的 な 主 観 的 回 答 が 出 力 さ れ て い る か ,(2)多 様 な 主 観 的 回 答 が 出 力 さ れ て い る か , の 2 点 に つ い て 評 価 実 験 を 行 う . (1), (2)の い ず れ に お い て も , 回 答 選 択 に お け る ク ラ ス タ 数 を 5, ク ラ ス タ 内 出 力 数 は 1 と し た . ま た , 回 答 が 適 切 な も の で あ る か は 考 慮 し な い . (1)に つ い て ,各 回 答 に 対 し ,1(一 般 的 で な い )~ 5(一 般 的 )の 5 段 階 で 人 手 に よ り 回 答 の 一 般 性 ス コ ア の 評 価 を 行 う . こ こ で , 一 般 的 と い う の は , あ る 特 定 の 相 談 に 特 化 し た 回 答 で な く , 他 の 類 似 し た 相 談 の 回 答 と な り 得 る も の と す る . 類 似 相 談 文 検 索 の ベ ー ス ラ イ ン と し て ,Jaccard 係 数 に よ る 類 似 相 談 文 検 索 を 比 較 対 象 と し た . (2)に つ い て ,出 力 さ れ た 回 答 リ ス ト に 対 し ,要 点 が 異 な る 回 答 の 出 力 数 を 評 価 す る . 出 力 さ れ た 回 答 に 対 し て , 人 手 に よ り 同 様 の 観 点 の 回 答 を グ ル ー プ に し , 作 ら れ た グ ル ー プ 数 を 異 な る 要 点 の 数 と し た . ベ ー ス ラ イ ン と し て , 入 力 さ れ た 相 談 文 に 実 際 に 行 わ れ た 回 答( 正 解 回 答 )の ,異 な る 要 点 の 数 を 比 較 対 象 と し た .4.3. 評 価 実 験 結 果
回 答 の 一 般 性 に つ い て の 評 価 実 験 結 果 を 表 4 に 示 す .ま た ,回 答 の 要 点 数 に つ い て の 評 価 結 果 を 表 5 に 示 す . 表 4 相 談 文 に 対 す る 回 答 の 一 般 性 ス コ ア 検 索 手 法 平 均 ス コ ア Jaccard 係 数 3.00 提 案 手 法 α =1.0 3.12表 5 相 談 文 に 対 す る 回 答 の 要 点 数 回 答 選 択 手 法 要 点 数 正 解 回 答 (10 件 ) +人 手 ま と め 5.6 提 案 手 法 ( 5 件 出 力 ) 4.1
5. お わ り に
本 稿 で は , 入 力 さ れ た 相 談 文 に 対 し 出 力 を 行 う シ ス テ ム を 提 案 し た . 提 案 手 法 で は , 相 談 文 の よ う な 長 文 で 主 観 的 で あ る 入 力 に 対 し , 入 力 よ り も 単 純 な 類 似 相 談 を 見 つ け る 回 答 の ク ラ ス タ リ ン グ に よ り ,多 様 な 回 答 を 出 力 す る 相 談 者 が 求 め る 回 答 の 一 つ と し て ,肯 定 的 な 回 答 を 出 力 す る と い う 処 理 を 行 っ た . 恋 愛 相 談 カ テ ゴ リ を 対 象 に し た 評 価 実 験 の 結 果 , 一 般 的 な 回 答 の 出 力 で は , 提 案 手 法 が ベ ー ス ラ イ ン よ り 回 答 の 一 般 性 を 向 上 さ せ ,提 案 手 法 の 有 効 性 を 示 し た . 多 様 な 回 答 の 出 力 で は , 提 案 手 法 で 回 答 を 5 件 出 力 し た う ち , 重 複 し た の は 平 均 1 件 未 満 と な っ た . 今 後 の 課 題 と し て , 相 談 文 解 析 の 詳 細 化 , 正 答 を 出 力 す る た め の 回 答 選 択 が 挙 げ ら れ る .参 考 文 献
[1] Hang Cui, Min-Yen Kan and Tat-Seng Chua: ”Generic soft pattern models for definitional question answering,” Proceedings of the 28th annual international ACM SIGIR conference on Research and Development in Information Retrieval, pp.384-391, 2005.
[2] Ryuichiro Higashinaka and Hideki Isozaki: “Corpus-based Question Answering for why-Questions,” Proceedings of IJCNLP, pp.418 -425, 2008. [3] 佐 々 木 智 , 藤 井 敦 : “取 る べ き 行 動 を 理 由 と 共 に 答 え る 質 問 応 答 シ ス テ ム -how 型 と why 型 の 統 合 ” , 言 語 処 理 学 会 第 15 回 年 次 大 会 発 表 論 文 集 , pp.36-39, 2009. [4] 石 下 円 香 , 佐 藤 充 , 森 辰 則 :"Web 文 書 を 対 象 と し た 質 問 の 型 に 依 ら な い 質 問 応 答 手 法 ." 人 工 知 能 学 会 論 文 誌 , 24 巻 4 号 , pp. 339-350, 2009.
[5] Snigdha Chaturvedi, Vittorio Castelli, Radu Florian, Ramesh M. Nallapati and Hema Raghavan:"Joint question clustering and relev ance prediction for open domain non-factoid question answering," Proceedings of the 23rd International Conference on World Wide Web, 2014.
[6] Palakorn Achananuparp, Xiaohua Hu, Tingting He, Christopher C. Yang, Yuan An and Lifan Guo:"Answer diversification for comple x question answering on the web, " Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp.375-382, 2010.
[7] Kotaro Sakamoto, Keiichi Nagao, Hayato Kobayashi, Hideyuki Shibuki, Tatsunori Mori and Noriko Kando:”Re-ranking answer candidates based on exhaustiveness of variety of answer viewpoints in
non-factoid QA,” Proceedings of the SIGIR Workshop on Web Question Answering: Beyond Factoids, 2015. [8] JUMAN - KUROHASHI-KAWAHARA LAB, http://nlp.ist.i.kyoto -u.ac.jp/EN/index.php?JUMAN. [9] 熊 本 忠 彦 , 河 合 由 起 子 , 田 中 克 己 :" 新 聞 記 事 を 対
象 と す る テ キ ス ト 印 象 マ イ ニ ン グ 手 法 の 設 計 と 評 価 ", 電 子 情 報 通 信 学 会 論 文 誌 , Vol.J94-D No.3, pp.540-548, 2011.