PDFファイル 1A2 「自然言語処理」

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

タ

構造化

支援

対

的

ニン

Interactive text-mining system for structuring high dimensional text data

根本啓一

*1

大西健司

*1

増

博

*1

Keiichi Nemoto Takeshi Onishi Hiroshi Masuichi

*1

富士

ッ

株式会社

研究技術開

本部

ニ

ン技術研究所

Communication Technology Laboratory, Research & Development Group, Fuji Xerox Co., Ltd.

The advancement of Information Technology and social media increases the massive amount of unstructured data in enterprises. Many systems have been developed so that enterprises can take advantage of such big data. In this paper, we focus on text as unstructured data and propose a text mining system, which supports making unstructured data into structured data in order to handle it with other quantitative data. We employ an interactive user interface in the system so that analysts can explore optimal structuring level. In addition, the proposed system enables multiple analysts to explore the data simultaneously in order to analyze the data from multiple perspectives.

1. はじめに

近年，ICT 達や頭，大量

タ顧客や場要望，課題抽出

ニン研究注目さい．

ニン研究，予定類体系

従類手法[Sebastiani 2002]や，集

タン集約 [Iwayama 1995]，集

ッ特定手法[Blei 2003] ，類

構造化様々手法開さい．一

般，類，構造化後，要望，課題特徴

的題ニン結果抽出処理実施．

大量タ一例あ顧客声 Voice of

Customer: VOC ，自記述，5段階評価結果

や顧客年齢等ンタ(数値タ) 蓄積さ

．うタンタ両者利用

析，ン数値タ統計的得

結果補足人手込や，

ニン得要望や課題ン

，ンタ利用い方法行わい．

例え，あ要望 30代男性多く見いう，

以外ン情報対応付意味推定

やく．，特定ン現い題，

タ見難い．う，

タ有用題抽出，

ン情報参照ニン行う有用あ．

，ン相互行来

類，構造化ニン方法研究十行

わいい．

本稿，VOC うタン

タ両者含タ対，ンンン

，さ時間軸 3 軸整理提案．

軸，対的ンタ類体

系変更能，最適類体系見

目的．さ，う多人数実施

能，広い観点類，構造化実施

実現目指．

2.

3. ツキステマイニンギプロセス

3.1 コンツンテヹコンツキステヹ時間軸

従来ニン，ンン ( タ)

着目，ニン結果あ題抽出行わい

．，局所的生題，例え特定ン

や，特定時間生題抽出困難あ．

本稿，ンン軸，ン軸，び時間軸

3 軸基い，タ類，構造化ニン

提案 1 ．存在題，

3 軸定義さ空間あ局所点探索．

以，各軸細記述．

1 ンン軸ン軸時間軸ニン

(1) コンツンテ軸

ンン，タ内容表軸あ

．大量集あ場，あ類似度基

，類構造化，タ集計能，

定量タ扱う．類方法様々

手法存在，類，類体系方応無

限存在．う類体系類析者経

験や視点依存．え，郎犬飼い．

次郎猫好．い文あ，前者犬いう

類，後者猫いう類，両者ッい

う類．う，う類体系

得結果大く異．類体系析者

析意や，ン軸時間軸参照決

必要あ．

(2) コンツキステ軸

ン，各持背景情報あ．ンン

自身推定さ文章ン，ンン主体

推定さ主体属性ン，，ンン

状況推定さ状況ン大．文章ン

例，自体内容ネ

内容示極性情報あ．主体属性

ン，40 代男性い年齢，性情

報あ．状況ン，例え一連

利用者ン結果あ，利用時

あい情報あ．

(3) 時間軸

多くタ時間情報保持，

タ抽出さ題時間変化い [Cui 2011]．

，時間軸設，あ特定時間い

存在一過性題や，時間軸通常存在題

個抽出能．

3.2 マイニンギプロセス

ンンン関性わ解釈

さ．析者，ンンン価値あ組

わ得作業，多次元構成さ問題空間探

索．う対的ンタ

提供さ，結果適時確最適類見

目指 1 青丸や赤丸．

，う見的多人数実施，

広範空間探索，ニン．

4. 提案サスツム

4.1 サスツム構成

提案，ンン軸，ン軸，時間軸

い，類実施適時実行構

成 2 ．類，構造化再帰的実行能

組入，任意粒度題利用者抽出能

．時間軸，時系列変化算出組入

，特異点抽出能．

2 構成

4.2 ユヺゴインタフェヺス

3 ンタ示．析者，左

ン部，析対象タ絞込．次，う

類利用，ンン類，構造化決定

．さ，うン着目選択，

中央ン部ンンン 2軸集計さ

ッ表示さ．ッ各ッ，

ン部類さ表示さ．

対更類操作行う能あ，ンタ

操作繰返．例え，類さ

特定ッチッ，新タ設定

，位類作成．中央ン部，選

択類当数時系列変化表示，時間軸

変化視化．

Web$U/I$

03)

(5%,5$

$

"3'3)$ .#/52 0$%

13!

"3'$)$ .#/52

$ .#/52

444

0$% 13!

444 444

6 (5%.#/52 Web$U/I$

03)

Web$U/I$

03)

$

(5%,5$

2

1 3

(3)

- 3 -

3 ンタ

4.3 ツキステ構造化手法

本，タ構造化手法，既

存様々類手法入，新構造化手法容

易追加う設計さい．以，

入代表的類手法記述．

• 単語類：析者指定単語含否

条件類

• 関基く類：単語関

考慮，指定さ単語関含否

条件類

• タン基く類：各種タン手法や

LDA 等ッン手法，ッ類

似部集抽出，類

• 教師あ機械学習類：析者文集選択

，一類，類似

集抽出，類

4.4 ユヺスクヺス

本節，あハ

関 VOC タ析記述．VOC

タ，利用関タ加え，表

1 示属性タ保存さい．

表 1 VOC タ構成例

軸属性例

時間軸入力日 2014-02-28 14:30:10

ンン軸

対象商品 ***

*** 出力際，

崩生

ン軸

業種製造業

規模 300人

利用期間 120日

所大阪府***

析者あ対象期間やン絞込

状態析．例え，析者製造業

中手場関心い場，従業員規模 10

100 製造業タ対象い操作あ．

次，ンン軸類試．，複数析者

異視点個析行う能あ．例え析

者 A 関析行い，析者 B ハ

関析行う場，個々析者，特定商

品類作成．時，着目い幾

ン類作成．例え，地域毎比較行う

，首都圏，関西圏い類作成，自体

極性，ネ割表

属性作成い形類作成．

次，析者ンン軸新構造化試

行．析者 A ，タン手法類さ 5

タ内参照，

利用毎タ類さい確

．例え，作成録，ワ

録，録，

共有，出力

5 類あ．，当件数見，

出力件数多い知．，次

う機能用い出力い知，出力

機能毎類．機能毎人手類タ

付行い，教師あ機械学習タ付さ

類似類行う．，あ機能 X 用い

出力関ＶＯＣ件数首都圏，機能 Y 用い出力

関 VOC件数関西圏，多い．

様構造化ハ VOC 対象行い

析者 B 結果，機械連携さ

ン関 VOC件数多く，関東圏機械P，関西

圏機械 Q う，件数機械種類異

．

析者A B ，出力機能視点作

成類，ハン関視点作成

類対象，時間軸変化見，両者件数

増加傾向一．，類統新

類作成，機能 X 機械P ン，機能

Ｙ機械Q ン組わ時，極性

ネ大く偏，顕在化い課

題明．

今回，ネ度大い

題抽出試，様々要因含い，

本見う特定機能関

抽出困難あ．析者，類仮立，

対的類行い，実際類さ持ン

，今回例首都圏関西圏偏頼構造

化いくや，時間軸変化見，局所的あ

有用情報ニン行え．

さ，う，類，構造化

析対象知識必須あ．

ハ析異担当者行う，

個々仮生成適構造化能．多人数

析支援提案う組，試行錯誤

課題見いう目的対有用あ考え．

5. まとめ

本稿，VOC タう，ンンン両

者含タ集，有用題抽出

ニン提案．従来，ンン対象

題抽出組存在い，ンや時

間軸加え局所的題抽出行う困難あ．

，多次元わ問題空間探索，抽出定量

的化難く，，抽出処理自動化

難．，背景知識持現場析者対的

93

5-nbfVm

j[fVm

<dlgXYU

<<ry`$4

<<wy]lvy$4

<<acfo1

<<lTWt

<<<<(X <<<<(Y <kyhXYU

<<_xgvys

<<<<P <<<<Q <<2

_xfxg

_xf\cg

dlgXYU%

kyhXYU

2013/4/1%%2013/10/1

'z,0

=10100

(X _xgvys

t

VOC

93 %

5-

: / %

/

***MFP6M= uWUXgNQA #!FP; e^

$4EQI>P ry`A***M+& EQL> (XJS*? K=xxxK>?Zsy AJP NQA(

YJ)C.BP

PN"7 AOP

(YSH@RG% FPDKA >

(4)

- 4 -

析行う能，複数析者並行探索

組提案．

今後，具体的タ適用実証実験通，

有用性や課題明いい．

参考文献

[楠村 2008] 楠村幸貴, 神谷俊之: 対的ニン

タ付用検索基盤，情報処理学会研究報告，

2008．

[砂山 2011] 砂山渡, 高間康 , BOLLEGALA:

タニン統環境 ―TETDM ― ，

電子情報通信学会技術研究報告，2011．

[大塚 2004] 大塚裕子，内山将，井原均: 自回答

ン要求意定基準，言語処理学会，11(2),

21-66, 2004．

[ 淵 2009] 淵郎, 鍜治伸裕, 永直樹. 大規模コーパス

らの語義のマイニング. 日本データベース学会論文 ,

Vol. 8, No. 1, pp. 77–82, 2009.

[Blei 2003] Blei, D., Ng, A, and Jordan, M.: Latent dirichlet allocation, The Journal of Machine Learning Research, 3, p.993-1022, 2003.

[Boley 2013] Boley, M., Mampaey, M., Tokmakov, P., and Wrobel, S.: One Click Mining—Interactive Local Pattern Discovery through Implicit Preference and Performance Learning，IDEA’13, August 11th, 2013.

[Cui 2011] Cui, W., et al: TextFlow: Towards Better Understanding of Evolving Topics in Text, IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, VOL. 17, NO. 12, DECEMBER 2011.

[Heer 2007] Heer, J., Viegas, F., and Wattenberg, M.: Voyagers and Voyeurs: Supporting Asynchronous Collaborative Information Visualization, In Proc. of the SIGCHI Conference on Human Factors in Computing Systems (CHI '07).

[Iwayama 1995] Iwayama, M., Tokunaga, T.: Cluster-based text categorization: a comparison of category search strategies, Proc. of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, p.273-280, July 09-13, 1995.

[Khoury 2014] Khoury, G., Liwo, A., et al: WeFold: A Coopetition for Protein Structure Prediction, Proteins: Structure, Function, and Bioinformatics, 2014.

[Sebastiani 2002] Sebastiani, F.: Machine learning in automated text categorization, ACM Computing Survey, 34(1), 1-47, 2002.

PDFファイル 1A2 「自然言語処理」

タ

構造化

支援

対

的

ニン

Interactive text-mining system for structuring high dimensional text data

根本啓一

大西健司

増

博

富士

ッ

株式会社

研究技術開

本部

ニ

ン技術研究所

1.

はじめに

2.

関連研究

3.

ツキステマイニンギプロセス

4.

提案サスツム

5.

まとめ