DEIM Forum 2016 C2-1
単語ベクトルを用いた認知症ケア情報の文書クラスタリング精度向上
中島 緋沙恵
†小杉 尚子
†鬼塚 真
‡数井 裕光
§池田 学
¶†高崎健康福祉大学健康福祉学部医療情報学科 〒370-0033 群馬県高崎市中大類町 37-1
‡大阪大学大学院情報科学研究科 〒565-0871 大阪府吹田市山田丘 1-5
§大阪大学大学院医学系研究科 〒565-0456 大阪府吹田市山田丘 2
¶熊本大学大学院生命科学研究部 〒860-0811 熊本県熊本市本荘 1-1-1
E-mail: †[email protected], †[email protected], ‡[email protected],
§[email protected], ¶[email protected]
あらまし クラスタリングはビッグデータの分析に多く用いられており,近年では大量のテキストデータに対す るクラスタリング技術のニーズが高まっている.しかしながら, 1 単語を 1 次元とする高次元空間において,テキ スト情報は空間がスパースとなる問題点がある.スパースな空間では,データ間の正確な類似度評価が難しく,精 度の高いクラスタリングは容易ではない.本稿では,介護者から収集した認知症のケアに関する情報に対するクラ スタリングの精度向上を目指す.本稿で提案する手法では, Yahoo 知恵袋の投稿データから認知症に関係する記事 を選別し,類似単語辞書を作成する.次に,ケア情報に関するテキスト情報を Bag of Words に変換した後,類似単 語辞書を用いて密ベクトル化する.その後,iDF を用いて単語をフィルタリングすることで,クラスタリングの精 度向上を目指す.クラスタリング精度は正解データを用いて評価する.実験の結果,密ベクトル化の有効性は確認 できなかったが,iDF は有効であることを確認した. キーワード テキストマイニング,クラスタリング,単語ベクトル,認知症ケア情報1. は じ め に
日 本 は 世 界 に 先 駆 け て 超 高 齢 社 会 を 迎 え て お り , 認 知 症 高 齢 者 数 の 増 加 は 大 き な 社 会 問 題 と な っ て い る . 現 在 , 認 知 症 の 患 者 数 は 450 万 人 を 超 え ,今 な お 増 加 し て い る . し か し な が ら , 現 状 で は 有 効 な 根 治 療 法 が な い た め , 認 知 症 患 者 へ の 対 応 は ケ ア が 中 心 と な る . 認 知 症 の 症 状 は 「 中 核 症 状 」 と 言 わ れ る 認 知 機 能 障 害 や 実 行 機 能 障 害 な ど と ,中 核 症 状 に 伴 っ て 発 症 す る , 徘 徊 や 無 気 力 な ど の 「 BPSD (Behavioral and Psychological Symptoms of Dementia: 認 知 症 精 神 行 動 症 状 )」 の 2 つ に 大 別 さ れ る . BPSD は 適 切 な ケ ア に よ っ て 発 症 を 抑 え た り , 症 状 を 軽 減 さ せ ら れ た り す る こ と が 知 ら れ て い る .そ の た め , 介 護 現 場 で は BPSD の 緩 和 を 目 指 し て 様 々 な ケ ア が 行 わ れ て お り , そ の ケ ア に 関 す る 情 報 は 日 々 蓄 積 さ れ て い る . し か し , 認 知 機 能 に 障 害 が あ る 人 に 対 す る ケ ア は 試 行 錯 誤 の 繰 り 返 し と な る こ と も 多 く , 介 護 者 の 負 担 は 大 き い . こ の た め ,認 知 症 は ケ ア が 最 も 難 し い 疾 患 の 1 つ と 言 わ れ て お り , 介 護 者 の 負 担 を 軽 減 す る こ と が 急 務 で あ る . そ こ で , 我 々 は 多 く の 認 知 症 患 者 に と っ て 有 効 な ケ ア 方 法 を 明 ら か に す る た め の 研 究 を 行 っ て お り , 介 護 現 場 で 蓄 積 さ れ て い る ケ ア に 関 す る 情 報 を 効 率 的 か つ 大 量 に 収 集 す る た め の web サ イ ト「 認 知 症 ち え の わ net」 の 開 発 を 進 め て い る [1]. 「 認 知 症 ち え の わ net」 で は 発 生 し た BPSD と , そ の 症 状 に 対 す る 対 応 方 法 , お よ び そ の 対 応 方 法 の 奏 功 結 果 を 合 わ せ て 「 ケ ア 情 報 」 と 呼 び , 各 BPSD に 対 す る 奏 功 確 率 の 高 い 対 応 方 法 の 自 動 抽 出 を 目 指 し て い る . 本 稿 で は , そ の フ ァ ー ス ト ス テ ッ プ と し て ,「 BPSD」に 関 す る 情 報 の カ テ ゴ リ 化 に つ い て 扱 う . 情 報 を カ テ ゴ リ 化 す る 代 表 的 な 手 法 と し て ク ラ ス タ リ ン グ が 挙 げ ら れ る [2][3].ク ラ ス タ リ ン グ は ,デ ー タ 間 の 距 離 に 基 づ い て 類 似 性 を 判 断 し , デ ー タ の 分 類 を 行 う 手 法 で あ る . 近 年 で は テ キ ス ト デ ー タ に 対 す る ク ラ ス タ リ ン グ に つ い て の 研 究 が 行 わ れ て い る [4]. し か し , 自 然 言 語 を デ ー タ と し て 利 用 す る 際 に は , 1 単 語 を 1 次 元 と す る 高 次 元 空 間 と し て 扱 う 必 要 が あ り , そ の よ う な 空 間 で テ キ ス ト デ ー タ は ス パ ー ス と な る 問 題 点 が あ る . ス パ ー ス な 空 間 で は , デ ー タ 間 の 正 確 な 類 似 度 評 価 が 難 し く , 精 度 の 高 い ク ラ ス タ リ ン グ は 容 易 で は な い . そ こ で , 提 案 す る 手 法 で は 密 ベ ク ト ル 化 の 処 理 と iDF を 用 い た 単 語 の フ ィ ル タ リ ン グ を 行 う こ と で , ク ラ ス タ リ ン グ 精 度 の 向 上 を 目 指 す . 具 体 的 に は , 以 下 の ス テ ッ プ に よ り ク ラ ス タ リ ン グ 精 度 を 向 上 さ せ る . 1)類 似 単 語 辞 書 の 作 成 : Yahoo 知 恵 袋 に 投 稿 さ れ た 認 知 症 に 関 連 す る 記 事 を 形 態 素 解 析 し て , 各 単 語 を そ れ ぞ れ の 類 似 単 語 を 用 い て ベ ク ト ル 表 現 す る こ と で , 類 似 単 語 辞 書 を 作 成 す る . 2)文 書 の 密 ベ ク ト ル 化 : ク ラ ス タ リ ン グ 対 象 で あ る「 BPSD」に 関 す る 情 報 を 形 態 素 解 析 す る こ と で 文 書 を 単 語 ベ ク ト ル に 変 換 し , 1)で 作 成 し た 類 似 単 語 辞 書 を 用 い て 密 ベ ク ト ル 化 す る . 3)iDF を 用 い た フ ィ ル タ リ ン グ : 特 徴 的 で は な い 単 語 が ク ラ ス タ リ ン グ に 与 え る 影 響 を 小 さ く す る . 4)文 書 集 合 の ク ラ ス タ リ ン グ : 密 ベ ク ト ル 化 し た 文 書 を ク ラ ス タ リ ン グ す る . 本 稿 の 構 成 は 次 の 通 り で あ る . 2 章 で は 「 認 知 症 ち え の わ net」に つ い て 述 べ ,3 章 で は 前 提 知 識 に つ い て 述 べ る .4 章 で は 提 案 手 法 に つ い て 述 べ ,5 章 で は 実 験 お よ び 評 価 を 行 う .6 章 で は 関 連 研 究 に つ い て 述 べ ,7 章 で 結 論 を 述 べ る .
2. 認 知 症 ち え の わ net
「 認 知 症 ち え の わ net」 は , 認 知 症 ケ ア に 関 す る 情 報 提 供・情 報 共 有 を 目 的 と す る web サ イ ト で あ る .日 本 だ け で な く , 世 界 中 に 認 知 症 ケ ア あ る い は 介 護 に 関 す る web サ イ ト が あ り [5][6][7], 多 く の サ イ ト で は , 専 門 家 が 回 答 し て く れ る Q&A コ ー ナ ー な ど を 設 け て 認 知 症 ケ ア に 関 す る 情 報 が 提 供・共 有 さ れ て い る .「 認 知 症 ち え の わ net」 は , そ れ ら の サ イ ト と は 異 な る 認 知 症 ケ ア に 関 す る 情 報 提 供 ・ 共 有 を 目 指 し て お り , そ の 最 大 の 特 徴 は , 実 際 に 行 っ た ケ ア 情 報 を 集 積 し , そ れ に 基 づ い て 奏 功 確 率 を 計 算 し , 奏 功 確 率 の 高 い ケ ア 情 報 を グ ッ ド プ ラ ク テ ィ ス と し て , 奏 功 確 率 と 共 に 公 開 す る 点 で あ る . こ れ に よ っ て , こ れ ま で 試 行 錯 誤 し な が ら ケ ア を し て き た 介 護 者 が , 奏 功 確 率 の 高 い ケ ア 方 法 か ら 試 す こ と が で き る よ う に な り , 介 護 負 担 が 大 き く 軽 減 さ れ る こ と が 期 待 さ れ て い る . 「 認 知 症 ち え の わ net」 で は , 認 知 症 ケ ア に 関 わ る 人 ( 医 師 , 看 護 師 , 介 護 士 , 家 族 な ど ) か ら , 認 知 症 ケ ア に 関 す る 情 報 ( 体 験 談 ) を 広 く 収 集 し , テ キ ス ト マ イ ニ ン グ 技 術 を 適 用 し て ,1) 多 く の 認 知 症 患 者 に と っ て , あ る い は 2) 特 定 の 属 性 ( 性 別 , 地 域 別 , 重 症 度 別 な ど ) を 持 つ 認 知 症 患 者 に と っ て , 有 効 な ケ ア 方 法 を 自 動 抽 出 し て 公 開 す る こ と を 目 指 し て い る . 「 認 知 症 ち え の わ net」 を 利 用 す る 場 合 は , ま ず 最 初 に 利 用 者 登 録 を し て も ら い , 自 身 の 認 知 症 ケ ア に 関 す る 情 報( 認 知 症 ケ ア 歴 ,認 知 症 ケ ア に 関 係 す る 資 格 の 有 無 , な ど ) を 入 力 し て も ら う . 次 に , 利 用 者 自 身 が ケ ア し て い る 認 知 症 の ご 本 人 ( 複 数 可 ) に 関 す る 情 報 , た と え ば , 疾 患 名 ( ア ル ツ ハ イ マ ー 病 な ど ) や , 要 介 護 度 な ど を 入 力 し て も ら う . こ こ ま で が , 実 際 に ケ ア 情 報 を 入 力 す る た め の 準 備 で あ る . ケ ア 情 報 は , 登 録 し た 認 知 症 の ご 本 人 を 特 定 し て 入 力 す る . た と え ば , 認 知 症 の ご 本 人 と し て ,A,B,C の 3 名 を 登 録 し て い る 利 用 者 は ,ケ ア 情 報 を 入 力 す る 場 合 は ,A,B,C の う ち の ,誰 に 関 す る ケ ア 情 報 を 入 力 す る か を 特 定 し た 上 で , 実 際 に ど の よ う な BPSD が 発 生 し , そ れ に 対 し て ど の よ う な 対 応 を 行 っ た の か , 結 果 , そ れ は う ま く い っ た の か ど う か , を ケ ア 情 報 と し て 入 力 す る . ま た BPSD が 発 生 し た 場 所 ( 屋 内 , 屋 外 な ど ) や , 発 生 し た 時 間 な ど も 補 助 情 報 と し て 入 力 し て も ら い , 全 部 合 わ せ て 1 件 の ケ ア 情 報 と し て 保 存 す る . 「 認 知 症 ち え の わ net」 に お け る ケ ア 情 報 の 処 理 フ ロ ー を 図 1 に 示 す . ケ ア 情 報 を , BPSD と 対 応 方 法 の 組 と し て 体 系 化 す る た め に , BPSD と そ の 対 応 方 法 の 観 点 の 2 段 階 の カ テ ゴ ラ イ ズ を 行 う . す な わ ち , 収 集 さ れ た ケ ア 情 報 を BPSD ご と に カ テ ゴ ラ イ ズ し た 後 ( 図 1 の 2) , 各 カ テ ゴ リ に 属 す る 対 応 方 法 ご と に さ ら に カ テ ゴ ラ イ ズ す る ( 図 1 の 3) . そ の 上 で , 対 応 方 法 ご と に , そ の 対 応 方 法 が 有 効 で あ っ た か 否 か の 件 数 を そ れ ぞ れ 算 出 し , そ の 対 応 方 法 の 奏 功 確 率 を 計 算 す る ( 図 1 の 4) . 最 終 的 に は , 対 応 方 法 に 関 し て 医 師 が 確 認 し た 上 で , 奏 功 確 率 が 高 い ケ ア 情 報 を グ ッ ド プ ラ ク テ ィ ス と し て 「 認 知 症 ち え の わ net」 で 奏 功 確 率 と 共 に 公 開 す る ( 図 1 の 6) . 図 1 「 認 知 症 ち え の わ net」 に お け る ケ ア 情 報 の 処 理 フ ロ ー3. 事 前 知 識
3.1. ク ラ ス タ リ ン グ
ク ラ ス タ リ ン グ は 似 た よ う な 内 容 の デ ー タ を グ ル ー プ 化 し て ま と め る こ と で , 一 つ の 大 き な デ ー タ の 集 合 を よ り 少 数 の デ ー タ か ら な る 複 数 の 集 合 に 自 動 的 に 分 け る こ と で あ る . 本 稿 で は , k-means 法 と EM ア ル ゴ リ ズ ム に つ い て 述 べ る .3.1.1. k -means 法
非 階 層 型 ク ラ ス タ リ ン グ の ア ル ゴ リ ズ ム の こ と で あ る . 異 な る 性 質 を も っ た 集 団 か ら , 似 た 性 質 を 持 つ も の を 集 め ク ラ ス タ を 作 る 方 法 の 1 つ で あ り , サ ン プ ル 数 の 大 き い ビ ッ グ デ ー タ の 分 析 に 適 し て い る . し か し , 種 子 点 に よ っ て ク ラ ス タ リ ン グ 精 度 が 異 な る と い う 問 題 点 が あ る . ま た , k-means 法 で は ク ラ ス タ 中 の 対 象 数 が 等 し い こ と を 暗 黙 の う ち に 仮 定 し て い る た め , こ の 仮 定 に 反 す る 構 造 の 抽 出 は 困 難 で あ る [2].3.1.2. EM ア ル ゴ リ ズ ム
統 計 学 に お い て , 確 率 モ デ ル の パ ラ メ ー タ を 最 尤 推 定 す る 手 法 の 一 つ で あ り , 観 測 不 可 能 な 潜 在 変 数 に 確 率 モ デ ル が 依 存 す る 場 合 に 用 い ら れ る . そ の 一 般 性 の 高 さ か ら , 機 械 学 習 , 音 声 認 識 , 因 子 分 析 な ど , 広 汎 な 応 用 が あ る . EM ア ル ゴ リ ズ ム は 反 復 法 の 一 種 で あ り ,E(期 待 値 )ス テ ッ プ と M(最 大 化 )ス テ ッ プ を 交 互 に 繰 り 返 す こ と で 計 算 が 進 行 す る . E ス テ ッ プ で は , 現 在 推 定 さ れ て い る 潜 在 変 数 の 分 布 に 基 づ い て , モ デ ル の 尤 度 の 期 待 値 を 計 算 す る .M ス テ ッ プ で は ,E ス テ ッ プ で 求 ま っ た 尤 度 の 期 待 値 を 最 大 化 す る よ う な パ ラ メ ー タ を 求 め る .M ス テ ッ プ で 求 ま っ た パ ラ メ ー タ は , 次 の E ス テ ッ プ で 使 わ れ る 潜 在 変 数 の 分 布 を 決 定 す る た め に 用 い ら れ る .3.2. Skip-gram with Negative Sampling(SGNS)
SGNS[8] は 単 語 に 密 な 分 散 表 現 を 割 り 当 て る モ デ ル で あ る . 着 目 語 に 対 し て , 前 後 の 数 単 語 以 内 に 出 現 す る 単 語 の 生 起 確 率 を 最 大 化 す る よ う に パ ラ メ ー タ を 調 整 す る .こ の モ デ ル は Google 研 究 所 に よ っ て 提 案 さ れ た word2vec に 使 わ れ て い る [9][10][11]. SGNS に よ っ て 作 ら れ た 単 語 ベ ク ト ル 空 間 で は , 意 味 的 に 似 た 単 語 ベ ク ト ル は 近 く , 離 れ た 意 味 の 単 語 ベ ク ト ル は 遠 く へ 配 置 さ れ る と い う 性 質 が あ る . ま た , 単 語 の 概 念 の 関 係 も 捉 え ら れ て お り , 単 語 ベ ク ト ル 同 士 の 線 形 演 算 を 行 う こ と も 可 能 で あ る .
3.3. ラ ン ド 指 数 (RI: Rand Index)
ラ ン ド 指 数 (RI)[12]は ,同 一 の 分 類 対 象 を 持 つ 2 つ の 分 類 方 式 の 類 似 性 を 表 す 尺 度 で あ り , 双 方 の 分 類 結 果 に 対 す る 一 致 度 を 評 価 す る 指 標 で あ る . 結 果 が 1 に 近 づ く ほ ど よ り 高 い 一 致 度 が あ る こ と を 示 す . 一 方 に 正 解 デ ー タ を 用 い る こ と に よ り , ク ラ ス タ リ ン グ の 精 度 評 価 を 行 う こ と が 可 能 で あ る . 以 下 の 式 に よ っ て 求 め る . 𝑅𝐼 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 こ こ で , 𝑇𝑃:同 じ カ テ ゴ リ に 属 す る ,同 じ ク ラ ス タ の ペ ア 数 𝑇𝑁:別 の カ テ ゴ リ に 属 す る ,別 の ク ラ ス タ の ペ ア 数 𝐹𝑃:同 じ カ テ ゴ リ に 属 す る ,別 の ク ラ ス タ の ペ ア 数 𝐹𝑁:別 の カ テ ゴ リ に 属 す る ,同 じ ク ラ ス タ の ペ ア 数 で あ る .
3.4.
逆 文 書 頻 度(iDF:
Inverse
Document
Frequency)
情 報 検 索 や 文 書 推 薦 な ど で 幅 広 く 利 用 さ れ て い る 文 書 中 の 単 語 に 関 す る 重 み の 一 つ で あ り , 一 般 語 フ ィ ル タ と し て 働 き , 多 く の 文 書 に 出 現 す る 単 語 は 重 要 度 が 下 が り , 特 定 の 文 書 に し か 出 現 し な い 単 語 の 重 要 度 を 上 げ る 役 割 を 果 た す . 以 下 の 式 に よ り 求 め ら れ る . 𝑖𝐷𝐹(𝑡) = 𝑙𝑜𝑔 (|{𝑑 + 1: 𝑑 ∈ 𝐷 | 𝑡 ∈ 𝐵𝑜𝑊(𝑑)}||𝐷| ) |𝐷|は 総 文 書 数 で あ り , 𝑑は 𝐷の う ち 単 語 𝑡を 含 む 文 書 数 で あ る . ま た ,𝐵𝑜𝑊は Bag of Words の こ と で あ り , 𝑡は Bag of Words に 含 ま れ る 単 語 で あ る .4. 提 案 手 法
図 2 に 提 案 手 法 の 処 理 の 流 れ を 示 す .提 案 手 法 で は , 分 析 対 象 と な る 文 書 群 に ,以 下 の 手 順 で 処 理 を 行 っ た . 1) 認 知 症 に 関 す る コ ー パ ス を 用 い て , 形 態 素 解 析 を し た 後 , 各 単 語 を 単 語 ベ ク ト ル と し て 表 現 し , 単 語 間 の 意 味 的 な 類 似 性 の 情 報 を 得 る ( 図 2 の ② , ③ ) . 2) 分 析 対 象 と な る 文 書 に つ い て も , 形 態 素 解 析 を 行 い , 各 文 書 を 単 語 ベ ク ト ル と し て 表 現 す る こ と で , 文 書 と 単 語 の 関 係 を 得 る ( 図 2 の ④ , ⑤ ) . 3) 単 語 間 の 類 似 性 を 用 い て , 文 書 と 単 語 の 関 係 を 展 開 す る こ と で , 文 書 の 単 語 ベ ク ト ル を 密 ベ ク ト ル 化 す る ( 図 2 の ⑥ , ⑦ , ⑧ ) . 4)各 単 語 が 出 現 す る 単 語 構 成 文 の 数 を 求 め ,iDF を 算 出 し , 単 語 に 重 み を 付 加 す る (図 2 の ⑨ ). 5)得 ら れ た 文 書 群 を ク ラ ス タ リ ン グ す る (図 2 の ⑩ , ⑪ ). こ れ ら の 各 処 理 に つ い て 以 降 の 節 で 詳 述 す る .4.1. 単 語 の ベ ク ト ル 化
単 語 ベ ク ト ル 空 間 は , SGNS に よ っ て 導 出 さ れ る 単 語 間 の 類 似 性 を 基 に し た 単 語 ベ ク ト ル で 構 成 さ れ る . コ ー パ ス の 形 態 素 解 析 を 行 っ た 後 の 各 単 語 の ベ ク ト ル 表 現 を𝑣(𝑡)と す る . こ の と き 単 語 A の ベ ク ト ル 𝑣(𝑡𝑎)と 単 語 B の ベ ク ト ル 𝑣(𝑡𝑏)の 関 係 は 以 下 の よ う に 表 せ る . 𝑣(𝑡𝑎) = 𝑠(𝑡) ∙ 𝑣(𝑡𝑏) 但 し ,𝑠(𝑡)は 𝑣(𝑡𝑎)に 対 す る 𝑣(𝑡𝑏)の 類 似 度 で あ り ,コ サ イ ン 類 似 度 な ど を 用 い る こ と が で き る .4.2. 文 書 の 密 ベ ク ト ル 化
文 書𝑑の ベ ク ト ル 表 現 を 𝑣(𝑑)と し ,以 下 の よ う に 密 ベ ク ト ル 化 す る . 𝑣(𝑑) = ∑ 𝑣(𝑡′) 𝑡′∈𝑑但 し ,𝑣(𝑑)は 単 語 𝑣(𝑡′)に よ っ て 構 成 さ れ た 文 書 で あ る . 𝑣(𝑡′)は 文 書 𝑑を 形 態 素 解 析 し て 得 ら れ た 単 語 お よ び ,そ れ ら の 類 似 単 語 か ら な る . こ う し て 得 ら れ た𝑣(𝑑)を 構 成 す る 単 語 ベ ク ト ル 𝑣(𝑡′) に , 類 似 度𝑠(𝑡′)を 付 加 す る . 𝑣′(𝑑) = ∑ 𝑠(𝑡′)𝑣(𝑡′) 𝑡′∈𝑑 密 ベ ク ト ル 化 は , 文 書 を 構 成 す る 各 単 語 を , そ の 単 語 と 類 似 単 語 の 単 語 ベ ク ト ル で 書 き 換 え る 操 作 で あ る . 文 書 を 構 成 す る 単 語 を 意 味 的 に 展 開 す る 操 作 に 相 当 す る .
4.3. 適 用 例
例 え ば ,文 書 と し て「 昨 日 ,一 人 で 外 出 し て し ま い , 外 出 先 か ら 戻 れ な く な っ た . 」 を 例 に 考 え て み る . コ ー パ ス を 用 い た 単 語 の ベ ク ト ル 化 で は , 昨 日 = { 0.69・ 曜 日 , 0.68・ 朝 食 , 0.68・ 前 日 , … } と い う よ う に , 「 昨 日 」 に 対 し て 類 似 度 の 高 い 単 語 群 で 表 す こ と が で き る . 次 に , 文 書 の ベ ク ト ル 化 を 行 う . 例 文 の 形 態 素 解 析 行 っ た 結 果 𝑑 = (昨 日 , 一 , 人 , 外 出 , す る , し ま う , 外 出 , 先 , 戻 る , な る ) と い う 単 語 に よ っ て 構 成 さ れ た 文 書 が 得 ら れ る . こ の 文 書 の 各 単 語 に 対 し て 類 似 単 語 を 付 加 し た 単 語 構 成 文 は 以 下 の よ う に な る . 𝑣(𝑑) = ∑ 𝑣(𝑡′) = 𝑡′∈𝑑 昨 日 + 曜 日 + 一 + 二 + ⋯ + 外 出 + 頻 繁 + ⋯ + な る + 気 の 毒 ⋯ 最 後 に ,𝑣(𝑡′)に お け る 類 似 度 𝑠(𝑡′)を そ れ ぞ れ 付 加 す る こ と で 以 下 の よ う な 類 似 度 を 持 っ た 単 語 構 成 文 を 得 る . 𝑣′(𝑑) = ∑ 𝑠(𝑡′)𝑣(𝑡′) 𝑡′∈𝑑 = 1 昨 日 + 0.69 曜 日 + 1 一 + 0.45 二 + ⋯ + 1 外 出 + 0.70 頻 繁 + ⋯ + 1 な る + 0.42 気 の 毒 ⋯ こ の と き , 元 の 文 書𝑑を 構 成 す る 9 単 語 そ れ ぞ れ に 対 し て , 類 似 単 語 と 類 似 度 を 5 個 ず つ 付 加 し た 場 合 , 文 書𝑑は 45 単 語 に 展 開 す る こ と に な る .4.4. iDF を 用 い た 単 語 の フ ィ ル タ リ ン グ
出 現 す る 全 て の 単 語 に つ い て , iDF を 算 出 す る .得 ら れ た iDF を 用 い て 以 下 の よ う に 単 語 の 重 み𝑤(𝑡)を 求 め る . 𝑤(𝑡′) = 𝑠(𝑡′) × 𝑙𝑜𝑔 (|{𝑑 + 1: 𝑑 ∈ 𝐷 | 𝑡′ ∈ 𝐵𝑜𝑊(𝑑)}||𝐷| ) 類 似 度𝑠(𝑡)に iDF を 乗 算 し た 重 み 𝑤(𝑡)を 用 い る こ と に よ り , 出 現 文 書 数 の 多 い 特 徴 的 で な い 単 語 が ク ラ ス 図 2 ケ ア 情 報 の ク ラ ス タ リ ン グ表 1 ケ ア 情 報 の 例 カ テ ゴ リ BPSD 対 応 方 法 奏 功 結 果 1)物 忘 れ 食 べ た 後 す ぐ に , ま だ 食 べ て な い と い い , 食 事 を 要 求 し た . 食 事 の 後 片 づ け は し ば ら く せ ず に 団 ら ん し た . う ま く い っ た 5) 徘 徊 ・ 道 迷 い 家 の 中 で ト イ レ に 迷 う 定 期 的 に ト イ レ に 誘 う う ま く い っ た 2) 幻 覚 ・ 妄 想 「 虫 な ど の 実 際 は 存 在 し な い 物 が 見 え る 」 と い い , 怖 が っ て い た 「 今 薬 を ま い た か ら , す ぐ い な く な り ま す よ 」 と 答 え た り , 実 際 に 消 臭 ス プ レ ー の よ う な 無 害 な も の を ま い て み た . う ま く い っ た 表 2 ラ ン ド 指 数 (RI) 付 加 し た 類 似 単 語・ 類 似 度 の 件 数 0 件 5 件 10 件 15 件 20 件 25 件 30 件 35 件 40 件 密 ベ ク ト ル 化 EM 0.50721 0.52472 0.57456 0.56341 0.52162 0.50291 0.47950 0.57328 0.54956 k-means 0.30595 0.16026 0.17045 0.14577 0.13630 0.14577 0.19385 0.17475 0.22793 密 ベ ク ト ル 化 + iDF EM 0.69262 0.64796 0.63530 0.68856 0.62479 0.69063 0.68713 0.71579 0.71722 タ リ ン グ に 与 え る 影 響 を 小 さ く す る .
5. 実 験 ・ 評 価
本 章 で は , 提 案 手 法 を 用 い た ク ラ ス タ リ ン グ の 精 度 評 価 を 行 う .評 価 指 標 に は ,ラ ン ド 指 数 (RI)を 用 い る . ク ラ ス タ リ ン グ に は , weka(注 1)を 用 い る .5.1. 実 験 デ ー タ に つ い て
本 実 験 で は , 医 師 に よ っ て 正 解 カ テ ゴ リ が 特 定 さ れ て い る ケ ア 情 報 , 159 件 を 用 い る . 表 1 に ケ ア 情 報 の 例 を 示 す . 本 稿 で は カ テ ゴ リ と BPSD の み を 用 い る . 正 解 カ テ ゴ リ は , 現 状 で は , 発 生 頻 度 や 対 応 の 困 難 さ を 踏 ま え て ,以 下 の 10 カ テ ゴ リ を 用 意 し て い る .1) 物 忘 れ , 2) 幻 覚 ・ 妄 想 , 3) 怒 り っ ぽ い ・ 興 奮 ・ 暴 力 , 4) 睡 眠 障 害 ,5) 徘 徊・道 迷 い ,6) 自 発 性 低 下・う つ , 7) 拒 絶 ・ 拒 否 , 8) 落 ち 着 か な い 行 動 ・ 不 安 ・ 焦 燥 , 9) 食 事 ・ 排 泄 ・ 入 浴 の 問 題 , 10) そ の 他 .ま た , 本 稿 (注 1) http://www.cs.waikato.ac.nz/ml/weka/ で は ,認 知 症 に 関 す る コ ー パ ス と し て Yahoo 知 恵 袋 の 認 知 症 に 関 連 す る 記 事 を 抽 出 し た も の を 使 用 し た .5.2. 実 験 結 果
5.2.1. 密 ベ ク ト ル 化 に つ い て
類 似 単 語 お よ び 類 似 度 を 0~ 40 件 (5 件 毎 )付 加 し ,密 ベ ク ト ル 化 を 行 っ た . ク ラ ス タ リ ン グ 手 法 は , EM ア ル ゴ リ ズ ム と k-means 法 を 使 用 し た . そ れ ぞ れ の ク ラ ス タ リ ン グ 結 果 に お け る RI を 表 2 お よ び 図 3 に 示 す . 全 て の 場 合 で k-means 法 を 用 い た ク ラ ス タ リ ン グ よ り も , EM ア ル ゴ リ ズ ム を 用 い た ク ラ ス タ リ ン グ の 方 が 、 RI が 高 い 結 果 と な っ た . ま た , EM ア ル ゴ リ ズ ム の 結 果 に お い て ,RI が 最 も 高 値 を 示 し た の は ,類 似 単 語 ・ 類 似 度 を 10 件 付 加 し た 場 合 の 0.57456 で あ っ た .5.2.2. iDF を 用 い た 場 合 に つ い て
5.2.1 に お い て , RI が 高 値 を 示 し た EM ア ル ゴ リ ズ ム を 使 用 し た 場 合 に つ い て ,さ ら に iDF を 用 い て ク ラ 0.0 0.2 0.4 0.6 0.8 1.0 0件 5件 10件 15件 20件 25件 30件 35件 40件 RI 付加した類似単語・類似度の件数 EM k-means EM(iDFを用いた場合) 図3 ランド指数(RI)ス タ リ ン グ を 行 っ た . 類 似 単 語 お よ び 類 似 度 は 0~ 40 件 (5 件 毎 )付 加 し ,密 ベ ク ト ル 化 を 行 っ た .結 果 を 表 2 お よ び 図 3 に 示 す . 全 て の 結 果 で RI の 向 上 が 見 ら れ た .RI が 最 も 高 値 を 示 し た の は ,類 似 単 語・類 似 度 を 40 件 付 加 し た 場 合 の 0.71722 で あ っ た .
5.3. ク ラ ス タ リ ン グ 結 果 の 分 析
以 下 で は ,iDF の 有 無 に よ る RI の 値 の 差 が 最 も 小 さ い 結 果 と な っ た 類 似 単 語・類 似 度 を 10 件 付 加 し た 場 合 の ク ラ ス タ リ ン グ 結 果 に つ い て 分 析 を 行 う .5.3.1. 分 割 表 (Contingency Table)
iDF を 用 い た ク ラ ス タ リ ン グ 結 果 に つ い て 分 割 表 を 作 成 し た (表 3).こ の 分 割 表 で は ,各 ク ラ ス タ に 分 類 さ れ た BPSD の う ち , 正 解 集 の カ テ ゴ リ に 含 ま れ る 件 数 を 表 し て い る . た と え ば , ク ラ ス タ 6 に 分 類 さ れ た カ テ ゴ リ 9 の BPSD は 19 件 で あ る . 表 3 iDF を 用 い た 場 合 の 分 割 表 (類 似 単 語 ・ 類 似 度 10 件 ) ク ラ ス タ リ ン グ 結 果 0 1 2 3 4 5 6 7 8 9 計 正 解 カ テ ゴ リ 1 1 2 10 3 18 9 3 46 2 3 1 4 1 9 3 1 3 4 4 1 2 2 5 5 4 8 1 13 6 1 1 4 3 1 10 7 1 5 2 8 8 2 4 2 1 9 9 4 3 7 19 33 10 8 8 5 1 22 計 18 2 1 20 3 56 50 1 1 7 159 表 3 よ り , ク ラ ス タ 5 お よ び ク ラ ス タ 6 に , そ れ ぞ れ 全 体 の お よ そ 3 分 の 1 に あ た る 50 件 以 上 の BPSD が ク ラ ス タ リ ン グ さ れ て い た . し か し , ク ラ ス タ 2 お よ び ク ラ ス タ 7, ク ラ ス タ 8 で は 1 件 し か ク ラ ス タ リ ン グ さ れ て い な か っ た .5.3.2. 頻 出 単 語 の 比 較
カ テ ゴ リ 9(食 事・排 泄・入 浴 の 問 題 )が 最 も 多 く ク ラ ス タ リ ン グ さ れ て い た ク ラ ス タ 6 を 用 い て , 頻 出 単 語 に つ い て 分 析 す る . 表 4 に ク ラ ス タ 6 に 分 類 さ れ た 文 書 に 出 現 す る 単 語 (類 似 単 語 を 含 む )の 出 現 回 数 上 位 5 件 を 示 す . 表 4 ク ラ ス タ 6 の 頻 出 単 語 出 現 単 語 出 現 回 数 iDF し れ る 34 0.24235 の 32 0.16397 よ う 27 0.26689 言 う 26 0.32058 思 う 24 0.28231 ク ラ ス タ 6 で は , 「 し れ る 」 や , 「 の 」 の よ う な 特 徴 の な い 単 語 が 上 位 に 多 く 現 れ て い た . ま た , こ れ ら の 単 語 に お け る iDF は 低 値 を 示 す こ と が 分 か る .一 方 , ク ラ ス タ 6 に 分 類 さ れ た 文 書 の 出 現 単 語 に 対 し て iDF の 値 が 1.5 以 上 で フ ィ ル タ リ ン グ し た 後 の , 上 位 5 件 を 表 5 に 示 す . 表 5 iDF で フ ィ ル タ リ ン グ し た 結 果 出 現 単 語 出 現 回 数 iDF 虫 5 1.59934 ラ ー メ ン 4 1.50243 納 豆 3 1.59934 体 操 3 1.50243 離 せ る 3 1.50243 iDF で の フ ィ ル タ リ ン グ に よ っ て 「 虫 」 や , 「 ラ ー メ ン 」 な ど 特 徴 的 な 単 語 が 上 位 と な っ て い る こ と が 分 か る .ま た ,正 解 カ テ ゴ リ 9 の 中 の 食 事 に 関 す る BPSD に 関 係 す る と 思 わ れ る 単 語 「 ラ ー メ ン 」 や 「 納 豆 」 も 現 れ た .5.3.3. 原 文 を 用 い た 分 析
iDF で の フ ィ ル タ リ ン グ 後 に 1 位 と な っ た 「 虫 」 に 着 目 し て 分 析 を 進 め る . ク ラ ス タ 6 に 分 類 さ れ た 文 書 の 中 で 「 虫 」 が 出 現 す る 文 書 は 3 件 の み で あ っ た . ま た , 他 の ク ラ ス タ に お け る 「 虫 」 を 含 む 文 書 は 0 件 で あ り ,正 解 集 で は 全 て カ テ ゴ リ 2(幻 覚・妄 想 )で あ っ た . 類 似 単 語 が ク ラ ス タ リ ン グ に 与 え る 影 響 を 考 察 す る た め に , 「 虫 」 が 原 文 に あ る 単 語 か , 類 似 単 語 に よ っ て 出 現 し た も の か を 調 査 す る . 「 虫 」 を 含 む 文 書 の 原 文 と 単 語 の 出 現 状 態 を 表 6 に 示 す . 本 稿 で は , 原 文 に 出 現 し て い る 場 合 を 元 単 語 と 表 現 す る . 表 6 「 虫 」 を 含 む 文 書 の 原 文 原 文 出 現 状 態 夜 に 幽 霊 が 見 え る と お び え る 類 似 単 語 「 虫 な ど の 実 際 は 存 在 し な い 物 が 見 え る 」 と い い 、 怖 が っ て い た 元 単 語 類 似 単 語 壁 の シ ミ な ど を 虫 に 見 え る と い い 怖 が っ て い た 元 単 語 類 似 単 語「 虫 」 は 「 見 え る 」 の み の 類 似 単 語 で あ っ た . 「 見 え る 」 が 含 ま れ る 原 文 は カ テ ゴ リ 2(幻 覚 ・ 妄 想 )の 3 件 の み で あ っ た . す な わ ち , 全 て ク ラ ス タ 6 に ク ラ ス タ リ ン グ さ れ て い る の で , 類 似 単 語 で あ る 「 虫 」 は , ク ラ ス タ リ ン グ 精 度 に 良 い 影 響 を 及 ぼ し た と 考 え ら れ る . し か し , 「 虫 」 が 別 の 元 単 語 の 類 似 単 語 と し て 存 在 し た 場 合 に は , ク ラ ス タ リ ン グ 精 度 を 低 下 さ せ る 要 因 と な る 可 能 性 も あ る . 実 際 に , 正 解 カ テ ゴ リ の 異 な る 文 書 の う ち , い く つ か の 特 徴 的 な 類 似 単 語 を 共 通 に 持 つ 文 書 が 存 在 し た . こ の 類 似 単 語 を 持 つ 元 単 語 は 複 数 あ っ た た め , 少 な か ら ず ク ラ ス タ リ ン グ 精 度 に 悪 い 影 響 を 与 え た と 考 え ら れ る .
5.4. 考 察
本 稿 の 実 験 結 果 よ り , iDF は ク ラ ス タ リ ン グ 精 度 の 向 上 に 有 効 で あ っ た と 言 え る . し か し , 密 ベ ク ト ル 化 で は 必 ず し も 有 効 で あ る と い う 結 果 は 得 ら れ な か っ た . ク ラ ス タ リ ン グ 結 果 の 分 析 を 基 に 1) iDF が 有 効 に 働 い た 理 由 と ,2)密 ベ ク ト ル 化 の 有 効 性 が 確 認 で き な か っ た 理 由 に つ い て 考 察 す る . iDF が 有 効 だ っ た 理 由 と し て , 特 徴 的 で な い 単 語 が ク ラ ス タ リ ン グ 結 果 に 影 響 を 及 ぼ さ な く な っ た こ と が 考 え ら れ る . iDF を 用 い た 場 合 に は , 出 現 回 数 の 多 い 特 徴 的 で な い 単 語 を 持 つ 文 書 が 同 じ ク ラ ス タ に 分 類 さ れ て い た . iDF を 用 い る こ と に よ っ て , 出 現 回 数 の 少 な い 単 語 の 重 み が 増 す た め , 特 徴 的 な 単 語 を 持 つ 文 書 は 同 一 の ク ラ ス タ へ 分 類 さ れ る よ う に な っ た と 考 え ら れ る . 密 ベ ク ト ル 化 の 有 効 性 が 確 認 で き な か っ た 理 由 と し て は , 類 似 単 語 を 付 加 し た こ と に よ り , ク ラ ス タ リ ン グ に お け る 特 徴 的 な 単 語 の 影 響 力 が 弱 ま っ た と 考 え ら れ る . 実 際 に 類 似 単 語 を 付 加 す る こ と で , よ り 多 く の 文 書 に 出 現 す る よ う に な っ た 単 語 が 存 在 し た . iDF は 出 現 文 書 数 に よ り 値 が 変 化 す る た め , 特 徴 的 で あ る 単 語 の iDF が 下 が っ て し ま う 結 果 と な っ た . iDF を 用 い な か っ た 場 合 に お い て も , 特 定 の 単 語 は , 複 数 の 単 語 の 類 似 単 語 で あ る た め , ど の 文 書 の 文 意 も 近 く な っ て し ま っ た と 考 え ら れ る . 原 文 を 用 い た 分 析 の 結 果 , 使 用 し た デ ー タ に も 問 題 が あ る こ と が 考 え ら れ た . 「 元 気 が な く な っ た 」 や , 「 便 秘 」な ど 短 い 文 章 や 単 語 の み の BPSD が 存 在 し た . 原 文 が 短 い 場 合 , 判 断 材 料 と な る 情 報 が 極 端 に 少 な い た め , 分 類 さ れ て い る 件 数 の 多 い ク ラ ス タ へ 分 類 さ れ た と 考 え ら れ る .6. 関 連 研 究
大 量 の 情 報 を カ テ ゴ ラ イ ズ す る 手 法 の 1 つ に テ キ ス ト マ イ ニ ン グ が あ る . テ キ ス ト マ イ ニ ン グ と は , 文 字 列 を 対 象 と し た デ ー タ マ イ ニ ン グ の こ と で あ る . 大 量 の 文 書 デ ー タ を 自 然 言 語 処 理 の 手 法 を 用 い て 単 語 や 文 節 で 区 切 り , そ れ ら の 出 現 の 頻 度 や 共 出 現 の 相 関 , 出 現 傾 向 , 時 系 列 な ど を 解 析 す る こ と に よ っ て 有 用 な 情 報 を 取 り 出 す テ キ ス ト デ ー タ の 分 析 方 法 で あ る . 日 本 語 に よ る デ ー タ を 扱 う 際 に は 分 か ち 書 き を 行 う 必 要 が あ り ,特 に 数 値 化 や 定 型 化 す る こ と が 難 し い が , 近 年 の 自 然 言 語 処 理 の 発 展 に よ り 実 用 的 な 水 準 の 分 析 が 可 能 と な っ た . テ キ ス ト マ イ ニ ン グ な ど に 使 わ れ る 分 類 整 理 の 技 術 は , あ ら か じ め 設 定 さ れ た 分 類 ク ラ ス も し く は 分 類 カ テ ゴ リ に 個 々 の 文 書 デ ー タ を 振 り 分 け る ク ラ シ フ ィ ケ ー シ ョ ン と , 似 た よ う な 内 容 の 文 書 デ ー タ を グ ル ー プ 化 し て ま と め あ げ る こ と で , 一 つ の 大 き な 文 書 デ ー タ の 集 合 を よ り 少 数 の 文 書 デ ー タ か ら な る 複 数 の 集 合 (ク ラ ス タ )に 自 動 的 に 分 け る ク ラ ス タ リ ン グ に 大 別 さ れ る [13]. テ キ ス ト 情 報 に 対 す る ク ラ ス タ リ ン グ に お い て 精 度 向 上 を 実 現 す る た め の 手 法 と し て は , 本 稿 で 用 い た 密 ベ ク ト ル 化 の 手 法 の 他 に , 次 元 縮 退 に よ る 手 法 が あ る [4][14].次 元 縮 退 の 手 法 に は ,主 成 分 分 析 を 利 用 し , 文 書 集 合 を 逐 次 的 に 分 割 し て い く PDDP(Principal Direction Divisive Partitioning)ア ル ゴ リ ズ ム や ,特 異 値分 解 に よ り 文 書 空 間 の 次 元 を 圧 縮 す る LSI(Latent Semantic Indexing)法 な ど が あ る . ま た , 次 元 縮 退 は テ キ ス ト 情 報 の ク ラ ス タ リ ン グ に お け る 精 度 向 上 の み で な く , ク ラ ス タ リ ン グ の 高 速 化 を 行 う 手 法 と し て も 用 い ら れ て い る [15].
7. 結 論
本 稿 で は , テ キ ス ト デ ー タ に 対 す る ク ラ ス タ リ ン グ の 精 度 向 上 を 目 指 す た め の 手 法 を 提 案 し た . 提 案 手 法 で は 形 態 素 解 析 を 行 っ た コ ー パ ス か ら 作 成 し た 類 似 単 語 辞 書 を 用 い る こ と で , 密 ベ ク ト ル 化 を 行 っ た . そ の 後 , iDF を 用 い て 単 語 の フ ィ ル タ リ ン グ を 行 っ た . 実 験 結 果 か ら , iDF を 用 い た 場 合 に ク ラ ス タ リ ン グ 精 度 の 向 上 が 見 ら れ た . 特 徴 的 で な い 単 語 が ク ラ ス タ リ ン グ 結 果 に 影 響 を 及 ぼ さ な く な っ た こ と が 要 因 と 考 え ら れ る . し か し , 密 ベ ク ト ル 化 は 精 度 向 上 に 有 効 で あ る と 確 認 で き な か っ た . 類 似 単 語 を 付 加 し た こ と に よ り , 特 徴 的 な 単 語 の ク ラ ス タ リ ン グ に お け る 影 響 力 が 弱 ま っ た こ と が 要 因 と し て 考 え ら れ る . ま た , 使 用 し た デ ー タ に も 問 題 が あ る こ と が 考 え ら れ た . 短 い 文 章 や , 専 門 性 の 高 い 判 断 が 求 め ら れ る デ ー タ な ど も , ク ラ ス タ リ ン グ 精 度 を 低 下 さ せ る 一 因 と な っ た 可 能 性 が 大 き い . 今 後 は , 本 稿 の ク ラ ス タ リ ン グ 結 果 の 分 析 を 進 め , ク ラ ス タ リ ン グ 精 度 の 向 上 を 目 指 す . 認 知 症 の BPSD は , 複 数 の 症 状 や 問 題 が 併 発 す る た め . 複 数 の カ テ ゴ リ に 属 す る 場 合 が 多 い . ま た , 「 食 べ た 後 す ぐ に , まだ 食 べ て な い と い い , 食 事 を 要 求 し た . 」 の よ う に , 一 般 的 に は 食 事 に 関 す る 問 題 と 思 わ れ る BPSD で あ っ て も , 医 師 な ど の 専 門 職 に と っ て は 物 忘 れ に 関 す る BPSD で あ る と さ れ る も の も あ る . よ っ て , ソ フ ト ク ラ ス タ リ ン グ の 手 法 を 検 討 す る 必 要 が あ る と 考 え ら れ る . さ ら に , カ テ ゴ リ 辞 書 (「 物 忘 れ 」 の 辞 書 な ど )を 作 成 し , BPSD と 各 カ テ ゴ リ 辞 書 と の 類 似 度 を 判 定 す る こ と で BPSD を 分 類 す る 手 法 な ど も 検 討 す る 必 要 が あ る .
謝 辞
本 研 究 は 国 立 研 究 開 発 法 人 日 本 医 療 研 究 開 発 機 構 ( AMED) の 認 知 症 研 究 開 発 事 業 の 支 援 に よ っ て 行 わ れ た . ま た , Yahoo 知 恵 袋 の デ ー タ 使 用 に あ た っ て , 大 阪 大 学 大 学 院 情 報 科 学 研 究 科 の 荒 瀬 由 紀 准 教 授 に ご 協 力 頂 い た .参 考 文 献
[1] N. Kosugi, M. Onizuka, H. Kazui, and M. Ikeda,"Ninchisho Chienowa-net: a website to share good dementia care techniques", Proc. of the 17th International Conference on Information Integrationand Web-based Applications & Services, pp. 77-81, 2015. [2] 神 嶌 敏 弘 , “デ ー タ マ イ ニ ン グ 分 野 の ク ラ ス タ リ ン グ 手 法(1) − ク ラ ス タ リ ン グ を 使 っ て み よ う ! −”, 人 工 知 能 学 会 誌 , vol.18, no.1, pp.59-65, 2003. [3] 神 嶌 敏 弘 , “デ ー タ マ イ ニ ン グ 分 野 の ク ラ ス タ リ ン グ 手 法(2) − 大 規 模 デ ー タ へ の 挑 戦 と 次 元 の 呪 い の 克 服 −”, 人 工 知 能 学 会 誌 , vol.18, no.2, pp.170-176, 2003. [4] 岸 田 和 明 , “文 書 ク ラ ス タ リ ン グ の 手 法 :文 献 レ ビ ュ ー”, 三 田 図 書 館 ・ 情 報 学 会 誌 , no.49, 2003. [5] 安 心 介 護 , http://ansinkaigo.jp/ [6] 認 知 症 ね っ と , https://info.ninchisho.net/ [7] 相 談 e-65.net, http://sodan.e-65.net/ [8] 林 佑 明 ,酒 井 哲 也 ,“言 語 の 分 散 表 現 に よ る 文 脈 情 報 を 利 用 し た 言 語 横 断 情 報 検 索”, DEIM Forum, 2015
[9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean,”Efficient Estimation of Word Representations in Vector Space”, In Proceedings of Workshop at ICLR, 2013.
[10] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean ,”Distributed Representations of Words and Phrases and their Compositionality”, In Proceedings of NIPS, 2013. [11] Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig,
“Linguistic RegulRIties in Continuous Space Word Representations”, In Proceedings of NAACL HLT, 2013. [12] 小 形 英 史 , 鈴 村 豊 太 郎 , “大 規 模 ネ ッ ト ワ ー ク 解 析 の た め の ス ペ ク ト ラ ル ク ラ ス タ リ ン グ”, 情 報 処 理 学 会 研 究 報 告 , 2013 [13] 那 須 川 哲 哉 , “ テ キ ス ト マ イ ニ ン グ を 使 う 技 術 / 作 る 技 術 : 基 礎 技 術 と 適 用 事 例 か ら 導 く 本 質 と 活 用 法”, 東 京 電 機 大 学 出 版 局 , 2006. [14] 佐 々 木 稔 , 松 本 良 太 , 新 納 浩 幸 , “類 似 性 の 不 明 な デ ー タ を 手 が か り と し て 与 え る ク ラ ス タ リ ン グ 手 法”, DEIM Forum, 2009. [15] 堀 田 政 二 , 浦 浜 喜 一 , “次 元 圧 縮 と ク ラ ス タ リ ン グ に 基 づ く 画 像 の 近 似 kNN 検 索 ”, 映 像 情 報 メ デ ィ ア 学 会 , 2001.