The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
タ
構造化
支援
対
的
ニン
Interactive text-mining system for structuring high dimensional text data
根本啓一
*1
大西健司
*1
増
博
*1
Keiichi Nemoto Takeshi Onishi Hiroshi Masuichi
*1
富士
ッ
株式会社
研究技術開
本部
ニ
ン技術研究所
Communication Technology Laboratory, Research & Development Group, Fuji Xerox Co., Ltd.
The advancement of Information Technology and social media increases the massive amount of unstructured data in enterprises. Many systems have been developed so that enterprises can take advantage of such big data. In this paper, we focus on text as unstructured data and propose a text mining system, which supports making unstructured data into structured data in order to handle it with other quantitative data. We employ an interactive user interface in the system so that analysts can explore optimal structuring level. In addition, the proposed system enables multiple analysts to explore the data simultaneously in order to analyze the data from multiple perspectives.
1.
はじめに
近年,ICT 達や 頭 ,大量
タ 顧 客 や 場 要 望 , 課 題 抽 出
ニン 研究 注目さ い .
ニ ン 研 究 , 予 定 類 体 系
従 類 手 法[Sebastiani 2002]や , 集
タ ン 集 約 [Iwayama 1995], 集
ッ 特 定 手 法[Blei 2003] , 類
構 造 化 様 々 手 法 開 さ い . 一
般 , 類 ,構造化 後 ,要望,課題 特徴
的 題 ニン 結果 抽出 処理 実施 .
大 量 タ 一 例 あ 顧 客 声 Voice of
Customer: VOC ,自 記述 ,5段階評価 結果
や顧客 年齢等 ン タ(数値 タ) 蓄積さ
. う タ ン タ 両者 利用
析 , ン 数 値 タ 統 計 的 得
結果 補足 人手 込 や,
ニン 得 要 望 や 課 題 ン
, ン タ 利 用 い 方 法 行 わ い .
例え ,あ 要望 30代 男性 多く見 い う ,
以 外 ン 情 報 対 応 付 意 味 推 定
や く . ,特定 ン 現 い 題 ,
タ 見 難 い . う ,
タ 有 用 題 抽 出 ,
ン 情報 参照 ニン 行う 有用 あ .
, ン 相 互 行 来
類 , 構 造 化 ニ ン 方 法 研 究 十 行
わ い い.
本 稿 ,VOC う タ ン
タ 両者 含 タ 対 , ン ン ン
,さ 時間軸 3 軸 整理 提案 .
軸 , 対 的 ン タ 類 体
系 変 更 能 , 最 適 類 体 系 見
目 的 . さ , う 多 人 数 実 施
能 , 広 い 観 点 類 , 構 造 化 実 施
実現 目指 .
2.
関連研究
本 稿 提 案 ニ ン 関 連 研 究 ,
2.1 節 対 的 ンタ 入 研究 い ,
2.2節 多人数 協調的 行わ ニン 手法 い
述 .
2.1 対話的ヅヺタマイニンギ
従来 多く ニン 手法 ,事前 決
類 体 系 従 類 , 構 造 化 , ニ ン 行 う .
, 類体系 事前 決 難 い や, 類体
系 特 定 自 体 試 行 錯 誤 あ , 研 究 者 く ,
タ 扱 う現 場 知 識 必 要 場 多 い . ,近 年
ニ ン 視 化 ン ン
逐 次 的 析 進 , 知 識 見 支 援 対
的 組 入 考案さ い . う
手法 , 析者 類 記述 タ 付
行 う 方 法[楠 村 2008]や , 側 タ ン や 多 次
元 尺 度 構 成 法 ッ 手 法 類 ,
対 析 者 タ 付 与 い 方 法 検 討 さ
い [ 淵 2009].
う , 対 的 積 極 的 タ 析 者
入 ,機 械 頼 く人 機 械 協 調
ニン 能 .
2.2 多人数ヅヺタマイニンギ
知 識 見 多 人 数 行 う 組 行 わ い .
ManyEyes[Viegas 2007]や sense.us[Heer 2007] ,
タ 視化 通 ,多人数 掲示板 議
論 , 知 識 見 行 う 組 提 供 さ い . ,
者 見 新 析 視 点 得 能
. ,WeFold[Khoury 2014] , 次 元 タンパ 質 折
畳 構造 いう複雑 問題 多人数 解決 組
入 , 並 行 課 題 解 決 進 組 提 供
い .
ニ ン い , 有 用 類 特 定 作 業
記 例 様 複雑 タ あ , ,結果 定量化
難 い , 計 算 機 自 動 化 難 い タ あ .
WeFold う 多人数 異 問題空間 探索
連 絡先 :根 本啓 一,富 士 ッ 株 研 究技 術開 本 部,
c . @ x r x.c .
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
, 大 規 模 対 有 用 類 見 進
考え .
さ ,VOC ニ ン 有 用 類 見
, ニン 対 象 背 景 知 識 必 要 あ .個 々 課
題 対 背 景 知 識 持 析 者 , 個 々 観 点 タ
掘 , 類 組 必要 あ 考え .
3.
ツキステマイニンギプロセス
3.1 コンツンテヹコンツキステヹ時間軸
従 来 ニ ン , ン ン ( タ)
着目 , ニン 結果 あ 題 抽出 行わ い
. ,局 所 的 生 題 ,例 え 特 定 ン
や,特定 時間 生 題 抽出 困難 あ .
本稿 , ン ン 軸, ン 軸, び時間軸
3 軸 基 い , タ 類,構造化 ニン
提 案 1 . 存 在 題 ,
3 軸 定 義 さ 空 間 あ 局 所 点 探 索 .
以 ,各軸 細 記述 .
1 ン ン 軸 ン 軸 時間軸 ニン
(1) コンツンテ軸
ン ン , タ 内 容 表 軸 あ
.大量 集 あ 場 , あ 類似度 基
, 類 構造化 , タ 集計 能 ,
定 量 タ 扱 う . 類 方 法 様 々
手法 存在 , 類 , 類体系 方 応 無
限 存在 . う 類体系 類 析者 経
験 や 視 点 依 存 . え , 郎 犬 飼 い .
次 郎 猫 好 . い 文 あ , 前 者 犬 い う
類,後者 猫 いう 類 ,両者 ッ い
う 類 . う , う 類体系
得 結 果 大 く 異 . 類 体 系 析 者
析意 や, ン 軸 時間軸 参照 決
必要 あ .
(2) コンツキステ軸
ン ,各 持 背景情報 あ . ン ン
自 身 推 定 さ 文 章 ン , ン ン 主 体
推 定 さ 主 体 属 性 ン , , ン ン
状 況 推 定 さ 状 況 ン 大 . 文 章 ン
例 , 自体 内容 ネ
内 容 示 極 性 情 報 あ . 主 体 属 性
ン ,40 代男性 い 年齢,性 情
報 あ .状 況 ン ,例 え 一 連
利 用 者 ン 結果 あ , 利用 時
あ い 情報 あ .
(3) 時間軸
多 く タ 時 間 情 報 保 持 ,
タ 抽出さ 題 時間 変化 い [Cui 2011].
, 時 間 軸 設 , あ 特 定 時 間 い
存 在 一 過 性 題 や , 時 間 軸 通 常 存 在 題
個 抽出 能 .
3.2 マイニンギプロセス
ン ン ン 関 性 わ 解釈
さ . 析 者 , ン ン ン 価 値 あ 組
わ 得 作 業 , 多 次 元 構 成 さ 問 題 空 間 探
索 . う 対 的 ンタ
提 供 さ ,結 果 適 時 確 最 適 類 見
目指 1 青丸や赤丸 .
, う 見 的 多 人 数 実 施 ,
広範 空間 探索 , ニン .
4.
提案サスツム
4.1 サスツム構成
提案 , ン ン 軸, ン 軸,時間軸
い , 類 実施 適時実行 構
成 2 . 類 , 構 造 化 再 帰 的 実 行 能
組 入 , 任 意 粒 度 題 利 用 者 抽 出 能
. 時 間 軸 , 時 系 列 変 化 算 出 組 入
,特異点 抽出 能 .
2 構成
4.2 ユヺゴインタフェヺス
3 ンタ 示 . 析者 , 左
ン 部 , 析 対 象 タ 絞 込 . 次 , う
類 利用 , ン ン 類 ,構造化 決定
.さ , う ン 着目 選択 ,
中央 ン部 ン ン ン 2軸 集計さ
ッ 表 示 さ . ッ 各 ッ ,
ン部 類さ 表示さ .
対 更 類 操 作 行 う 能 あ , ン タ
操 作 繰 返 . 例 え , 類 さ
特 定 ッ チ ッ , 新 タ 設 定
, 位 類 作成 .中央 ン 部 ,選
択 類 当 数 時系列変化 表示 ,時間軸
変化 視化 .
Web$U/I$
03)
(5%,5$
$
"3'3)$ .#/52 0$%
13!
"3'$)$ .#/52
$ .#/52
444
0$% 13!
444 444
6 (5%.#/52 Web$U/I$
03)
Web$U/I$
03)
$
(5%,5$
2
1 3
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 3 -
3 ンタ
4.3 ツキステ構造化手法
本 , タ 構 造 化 手 法 , 既
存 様々 類手法 入 ,新 構造化手法 容
易 追 加 う 設 計 さ い . 以 ,
入 代表的 類手法 記述 .
• 単語 類: 析者 指定 単語 含 否
条件 類
• 関 基 く 類 : 単 語 関
考 慮 , 指 定 さ 単 語 関 含 否
条件 類
• タ ン 基 く 類 : 各 種 タ ン 手 法 や
LDA 等 ッ ン 手法 , ッ 類
似 部 集 抽出 , 類
• 教師あ 機械学習 類: 析者 文集 選択
, 一 類 ,類 似
集 抽出 , 類
4.4 ユヺスクヺス
本 節 , あ ハ
関 VOC タ 析 記述 .VOC
タ , 利用 関 タ 加え ,表
1 示 属性 タ 保存さ い .
表 1 VOC タ構成例
軸 属性 例
時間軸 入力日 2014-02-28 14:30:10
ン ン 軸
対象商品 ***
*** 出力 際 ,
崩 生
ン 軸
業種 製造業
規模 300人
利用期間 120日
所 大阪府***
析者 あ 対象 期間や ン 絞 込
状 態 析 . 例 え , 析 者 製 造 業
中 手 場 関 心 い 場 , 従 業 員 規 模 10
100 製造業 タ 対象 い 操作 あ .
次 , ン ン 軸 類 試 . ,複 数 析 者
異 視 点 個 析 行 う 能 あ . 例 え 析
者 A 関 析 行い, 析者 B ハ
関 析 行 う場 ,個 々 析 者 , 特 定 商
品 類 作成 . 時 ,着目 い幾
ン 類 作成 .例え ,地域毎 比較 行う
, 首 都 圏 , 関 西 圏 い 類 作 成 , 自 体
極性 , ネ 割 表
属性 作成 い 形 類 作成 .
次 , 析者 ン ン 軸 新 構造化 試
行 . 析者 A , タ ン 手法 類さ 5
タ内 参 照 ,
利 用 毎 タ 類 さ い 確
. 例 え , 作 成 録 , ワ
録 , 録 ,
共 有 , 出 力
5 類 あ . , 当 件 数 見 ,
出力 件数 多い 知 . ,次
う 機能 用い 出力 い 知 ,出力
機 能 毎 類 . 機 能 毎 人 手 類 タ
付 行 い , 教 師 あ 機 械 学 習 タ 付 さ
類似 類 行う. ,あ 機能 X 用い
出力 関 VOC件数 首都圏 ,機能 Y 用い 出力
関 VOC件数 関西圏 , 多い .
様 構造化 ハ VOC 対象 行 い
析者 B 結果 ,機械 連携さ
ン 関 VOC件数 多く,関東圏 機械P,関西
圏 機械 Q う ,件数 機械 種類 異
.
析者A B , 出力機能 視点 作
成 類 , ハ ン 関 視 点 作 成
類 対 象 ,時 間 軸 変 化 見 ,両 者 件 数
増 加 傾 向 一 . , 類 統 新
類 作成 ,機能 X 機械P ン ,機能
Y 機械Q ン 組 わ 時 , 極性
ネ 大 く 偏 , 顕 在 化 い 課
題 明 .
今回 ,ネ 度 大 い
題 抽 出 試 , 様 々 要 因 含 い ,
本 見 う 特 定 機 能 関
抽出 困難 あ . 析者 , 類仮 立 ,
対 的 類 行 い , 実 際 類 さ 持 ン
,今回 例 首都圏 関西圏 偏 頼 構造
化 い く や , 時 間 軸 変 化 見 , 局 所 的 あ
有用 情報 ニン 行え .
さ , う , 類 ,構 造 化
析対象 知識 必須 あ .
ハ 析 異 担 当 者 行 う ,
個々 仮 生成 適 構造化 能 .多人数
析 支 援 提 案 う 組 ,試 行 錯 誤
課題 見 いう目的 対 有用 あ 考え .
5.
まとめ
本稿 ,VOC タ う , ン ン ン 両
者 含 タ 集 , 有 用 題 抽 出
ニ ン 提 案 . 従 来 , ン ン 対 象
題 抽 出 組 存 在 い , ン や 時
間 軸 加え 局所的 題 抽出 行う 困難 あ .
, 多 次 元 わ 問 題 空 間 探 索 , 抽 出 定 量
的 化 難 く , , 抽 出 処 理 自 動 化
難 . ,背 景 知 識 持 現 場 析 者 対 的
93
5-nbfVm
j[fVm
<dlgXYU
<<ry`$4
<<wy]lvy$4
<<acfo1
<<lTWt
<<<<(X <<<<(Y <kyhXYU
<<_xgvys
<<<<P <<<<Q <<2
_xfxg
_xf\cg
dlgXYU%
kyhXYU
2013/4/1%%2013/10/1
'z,0
=10100
(X _xgvys
t
VOC
93 %
5-
: / %
/
***MFP6M= uWUXgNQA #!FP; e^
$4EQI>P ry`A***M+& EQL> (XJS*? K=xxxK>?Zsy AJP NQA(
YJ)C.BP
PN"7 AOP
(YSH@RG% FPDKA >
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 4 -
析 行う 能 ,複数 析者 並行 探索
組 提案 .
今 後 , 具 体 的 タ 適 用 実 証 実 験 通 ,
有用性や課題 明 い い.
参考文献
[楠村 2008] 楠村幸貴, 神谷俊之: 対 的 ニン
タ 付 用 検 索 基 盤 , 情 報 処 理 学 会 研 究 報 告 ,
2008.
[砂山 2011] 砂山渡, 高間康 , BOLLEGALA:
タ ニ ン 統 環 境 ―TETDM ― ,
電子情報通信学会技術研究報告,2011.
[大塚 2004] 大塚 裕子,内山 将 ,井 原 均: 自 回答
ン 要求意 定基準,言語処理学会,11(2),
21-66, 2004.
[ 淵 2009] 淵 郎, 鍜治伸裕, 永直樹. 大規模コーパス
らの語義のマイニング. 日本データベース学 会 論 文 ,
Vol. 8, No. 1, pp. 77–82, 2009.
[Blei 2003] Blei, D., Ng, A, and Jordan, M.: Latent dirichlet allocation, The Journal of Machine Learning Research, 3, p.993-1022, 2003.
[Boley 2013] Boley, M., Mampaey, M., Tokmakov, P., and Wrobel, S.: One Click Mining—Interactive Local Pattern Discovery through Implicit Preference and Performance Learning,IDEA’13, August 11th, 2013.
[Cui 2011] Cui, W., et al: TextFlow: Towards Better Understanding of Evolving Topics in Text, IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 17, NO. 12, DECEMBER 2011.
[Heer 2007] Heer, J., Viegas, F., and Wattenberg, M.: Voyagers and Voyeurs: Supporting Asynchronous Collaborative Information Visualization, In Proc. of the SIGCHI Conference on Human Factors in Computing Systems (CHI '07).
[Iwayama 1995] Iwayama, M., Tokunaga, T.: Cluster-based text categorization: a comparison of category search strategies, Proc. of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, p.273-280, July 09-13, 1995.
[Khoury 2014] Khoury, G., Liwo, A., et al: WeFold: A Coopetition for Protein Structure Prediction, Proteins: Structure, Function, and Bioinformatics, 2014.
[Sebastiani 2002] Sebastiani, F.: Machine learning in automated text categorization, ACM Computing Survey, 34(1), 1-47, 2002.