• 検索結果がありません。

PDFファイル 1A3 「テキストマイニング」

N/A
N/A
Protected

Academic year: 2018

シェア "PDFファイル 1A3 「テキストマイニング」"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 1 -

習慣行動抽出手法

評価

Evaluation of Habitual Behavior Extraction Methods with Topics

鈴木信雄

*1

津田和彦

*2

Nobuo SUZUKI Kazuhiko TSUDA

*1

(

)KDDI

研究所

*2

筑波大学大学院

KDDI R&D Laboratories Inc. University of Tsukuba

This study has proposed the habitual behavior information extraction method from the data on Internet to build effective behavioral change support system so far. It is well known that habitual behavior improvement is important to avoid risk behaviors for a safety driving and a health improvement. It used Latent Dirichlet Allocation approach and already evaluated by using communication behaviors in Question and answering Web sites. This paper describes another evaluation by using travel behavior information. The dependency relation is often used to extract valuable information from text data. This paper also shows the comparative evaluation between our proposed method and the dependency relation method. It is realized the proposed method is more accurate than the dependency relation method according to the result of the evaluation.

1.

はじめに

ンタ ネ 上 SNSや質問応答 ,大量

キ ス 日 々 書 込 い . 著 者 , 安 全 運 転 や 健 康

維持 効果的 行動変容を支援 ス ム 構築を目的

, タ 行 動 情 報 を 抽 出 手 法 を 提 案

[Suzuki 2013].禁煙 健康改善や運転中 携帯電 利

用 危険行動 回避を対象 行動変容 対 ,特

習 慣 的 行 動 改 善 重 要 あ 知 い

[Kukkonen 2010].そ ,本研究 習慣行動 注目

情報抽出を試 .

具 体 的 習 慣 行 動 抽 出 手 法 , あ

潜 在 的 割 当 法 LDA(Latent Dirichlet Allocation)を

用い キス 含 潜在的 を推定 ,そ

含 複数 単語候補 中 相互情報量

PMI(Point-wise Mutual Information) 習慣行動 適 単語を 定

い 提案手法 呼ぶ .本稿 ,提案手法 行

質問応答 通信 関 行動 情報 通信行

動 呼ぶ を使 評価 加え ,交通機関を使 移動 関

情 報 交 通行 動 呼 ぶ 評価 実験 を 行 結 果を

報告 .一方, キス タ 情報を抽出 手法

関 を 利 用 多 く 使 わ い . 今 回 , 提

案手法 評価実験 用い タを使い,提案手

法 関 を使 手法 手法 呼ぶ を比較評

価 . 比 較 評価 結 果 , 提 案手 法 方 手 法

高い 解率を得 わ .

2.

潜在トピックと

PMI

を使った行動情報抽出

2.1

抽出手法

提案手法 ,次 う LDA PMIを使 習慣行動情報

抽出手法 あ . ,習慣行動を歯磨 や睡眠 生理

的 習慣 限 ,高い頻度 現 人間 行動全般

定義 .そ ,行動 要素 ,動作,対象,周期的 頻

度情報を習慣行動 . わ ,習慣行動HBを式(1) 組

わ 定義 .

HB = {頻度, 動作, 対象} … (1)

次 , 一 あ LDAを用い 習慣行動を

抽出 . 特徴 ,一 文書 複数

混 表現さ あ ,高い精度 文書を

示 さ い [Canini 2009]. , 周 期表 現

頻繁 使わ く 毎 い をキ ワ 準

備 , 単 語 を含 文 を ンタ ネ 抽 出 . 抽

出 文 対 形 態 素 解 析 を行 い , 頻 度 , 動 作 , 対 象

使わ や い形容詞,動詞, 詞,副詞を bag-of-words

選択 ,LDA 処理を行う.そ 結果,複数 単語 構成さ

抽出さ ,そ 中 周期表現を持

を抽出 . ,抽出さ 各 中 周

期表現 習慣行動を表わ 思わ 動作 対象 候補

多く 単語 含 い . , 抽出さ

習慣行動以外 単語 多く含 い ,

高 精 度 習 慣 行 動 を 抽 出 い . そ ,

単語 対 PMIを指標 習慣行動 関連 単語

を推定 .次 ,習慣行動 頻度 対 キ ワ 単

語 をあ . 動作 対 , 動 詞-自立 , 詞- 変接

続, 詞-副詞可能 各品詞 あ 単語 い 周期表

現 キ ワ 間 PMIを計算 ,上 2 単語を 動

作 を 示 単 語 抽 出 . 対 象 , 動 作 選 択 さ

詞- 変 接 続 を 含 詞-非自 立 を除 い 詞 対

周期表現 キ ワ 間 PMIを計算 上 3 単

語を選択 . ,PMI 式(2) (3) う 表さ ,単語間

結び 強さを表わ 指標 あ ,周期表現

単 語 対 動 作 対 象 を 示 単 語 関 連 性 強 さ を

示 い .

… (2)

… (3)

連絡先:鈴木信雄,株KDDI 研究所,nu suzu @ dd s p

1A3-5

)

(

)

(

)

,

(

log

)

,

(

2

y

p

x

p

y

x

p

y

x

PMI

=

N y x f y x p N

y f y p N

x f x

(2)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 2 -

2.2

交通行動における評価

先 研究 い ,通信事業者 質問応答 キス

タ8,953文を使い,通信行動 本手法 評価を行

.そ 結果,20 抽出さ ,そ 中 18

く習慣行動を抽出 断 , 解率 90% .

今回 ,通信行動以外 交通 行動 い 評価を実施

.渋 緩和や地球温暖 対策 マ カ く公

共 交 通 機 関 利 用 を 進 う 行 動 変 容 求

,行動変容支援 対象 .交通 関 質問応答 中

,人 移動 関 習慣行動 多く含 い .交通

関 質 問 応答 キ ス タ 習 慣 行動 を 抽 出 , そ

情報 を行動 変 容 活用 考え え . 今回,交 通 関

質問応答 6,627 文 発言を収集 ,そ 中 通

信 行 動 周期 表 現 キ ワ を含 文 を抽 出 .

抽出さ 文 521文 , 対 形態素解析

を行 . 次 , 形容 詞, 動詞, 詞 , 副 詞 各 品 詞 単 語を

抽出 発言毎 LDA あ LDA-Cを使 を

抽出 [Blei 2003].結果 50個 を得 .得

例を表1 示 . 周期表現 キ

ワ を持 を選択 16個 得 .

表1 質問応答 例 交通行動

単語(品詞)

Topic 000

い (副 詞-一 般),あ (動 詞-自 立),バ ス(

詞-一 般),い(動 詞-非 自 立), (動 詞-自 立),

( 詞-接 尾-助 数 詞),料 金( 詞-一 般),日(

詞-接尾-助数詞),利用( 詞- 変接続),長原

( 詞-固有 詞-人 -姓)

Topic 026

く(副 詞-一 般), ( 詞-非 自 立-一 般),バ ス

( 詞-一 般), ベ ン チ ワ ( 詞

-一 般), (動 詞-自 立),日( 詞-接 尾-助 数

詞),目( 詞-接 尾-一 般), (動 詞-自 立),時 間

( 詞-副詞可能),朝( 詞-副詞可能)

各 い PMI 候補選択を行い,習慣

行動 適 単語を抽出 .結果 一部を表2 示 .

表2 選択 習慣行動 例 交通行動

頻度 動作 対象 習慣行動 解釈

Topic 000

い あ バス

利用

い バ ス を 利 用

Topic 026

時間 バス

ベンチ

く , 朝 時 間

バ ス ベ ン チ

ワ 行

く.

い ,全 い 提案手法 求 単語

習慣行 動を表 現 い う を手 動 確 認 .そ 結 果,

16 中12 く習慣行動を抽出 断 ,

解率 75% .

評価実験 ,4 い 抽出さ 単語

習慣行動を得 .そ 例を表3 示 .

不 解 い , 全 動 作 や 対 象

い単語を抽出 い .姓や 義 交通

関連 い 思わ 単語 出現 , タを調査

,交通 関連 無い 含 い .日本 姓 大

半 地 単 語 を使 用 い 単

語 含 い 要因 考え .例えば, 小淵沢 いう単

語 地 あ 姓 あ . そ , 義 い う 単 語

関連 姓 適用さ 考え ,移動 視点 地

あ 期待さ . を文脈 地 姓

を 組 を 入 必要 あ .

い , タ 前 処 理 , 単 語 頻 度 情 報 交 通

関連性 い発言を削除 う 対策 考え . ,

移 動 い 時 間 場 所 情 報 重 要 あ . 対 象 単 語

時 間 や 場 所 当 単 語 含 い 場 、 そ

を優先的 選択 処理 必要 あ .

表3 不 解 例 交通行動

頻度 動作 対象 不 解 原因

Topic 011

く 京都

青島

海道

動 作 抽 出 不

解.

単語 解 .

Topic 035

く 割引

行く

( ) 対 象 抽 出 不

解.

単語 解 .

Topic 049

く あ 小淵沢

対 象 抽 出 不

解.移動 義

関連 い い.

3.

係り受け関係を用いた習慣行動情報抽出

3.1

抽出手法

キス タ 特定 情報を抽出 手法 一

関 を用い あ .伊藤 , を対象 行動

興味 時系列推移を抽出 [Itoh 2011],遠藤 ,感情

表現 抽出を行 い [Endo 2006].さ ,池田 ,

関 を 用 い 有 害 情 報 検出 提 案 い [Ikeda 2010].

う 情 報抽 出 有 効 手 法 あ , 関

を 用 い 習 慣行 動 情報 抽出を実 現 , 提案手 法 比較 評価

を行 .

今回実現 関 を用い 抽出手法を図 1 示 .

, キス タ 中 2項 示 周期表

現を含 文を選択 . 周期表現 キ ワ を 頻度

.次 構文解析処理を行い,各文節 関 を求

.求 関 ,周期表現 先 文節 先

文節 呼ぶ 中 現 動詞を 動作 .周期表現 最初

出 現 文 節 先 文 節 間 , く 先 文 節

文節中 詞を習慣行動 対象 . ,動作や対

象 当 文節 複数あ 場 ,最初 文節を抽出 対

(3)

The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014

- 3 -

図1 関 を使 習慣行動 抽出

3.2

評価

手法 評価 ,提案手法 評価 時 タ

を使い,通信行動 関連 タ 交通行動 関 タ

2種類 い 評価を行 . 関 解析

CaboChaを利用 [Kudo 2002].

, 通 信 事 業 者 質 問 応 答 キ ス タ 8,953

文を使い,通信行動 手法 評価を行 .そ

結果,153個 習慣行動 抽出さ ,そ 中 63個 く

抽出 断 , 解率 41.2% .表 4 解

例を表5 不 解 例を示 .

表4 関 を用い 解例 通信行動

頻度 動作 対象 習慣行動 解釈

く 相手 く相手

い 使う 定 い 定 を使う

く 間違え BCC く BCC を 間 違

表5 関 を用い 不 解例 通信行動

頻度 動作 対象 不 解 原因

く 画素 動作 情報 不十分

毎 様々 動作 情報 不十分

い 助 対象 不

次 ,提案手法 評価時 く交通 関 質問応答

6,627文を使い,通信行動 周期表現キ ワ を含

521文を抽出 .交通行動 手法 評価を

行 結果,86個 習慣行動 抽出さ .そ 中 29個

く抽出 断 , 解率 33.7% ,表6

解 例を表7 不 解 例を示 .

表6 関 を用い 解例 交通行動

頻度 動作 対象 習慣行動 解釈

い 乗 バス い バス 乗

く 近隣 く近隣

く 調 電車 く電車を調

表7 関 を用い 不 解例 交通行動

頻度 動作 対象 不 解 原因

い 百 対象 抽出 不

く わ 方 対象 抽出 不

く いく 対象 抽出 不

不 解 原因 動作 対象 い 意味

い単語を抽出 ,単語辞書や固有 詞抽出

併 用 必 要 い . 一 方 , 手 法 提 案 手

法 間 解率を比較 ,通信行動 交通行動 両方

い 提案手法 方 抽出精度 向上 い わ .

, 手法 比 ,提案手法 方 有効 手法

あ わ . , 両方 手法 共通 課 ,

情報 容 充実 不足 い あ .例えば, い バ

ス 乗 いう習慣行動 両手法 抽出さ い ,い ,

, 誰 い う 情 報 不 足 い . さ , 行 動 変 容

行 動 条 件 必 要 あ . い , 習

慣行動 定義を拡張 , ム 情報抽出を使う

対応 考え .

4.

おわりに

本 稿 , 提 案 い 潜 在 相 互 情

報量を用い 習慣行動 抽出手法 関 評価 い 報告

. 通信行動 評価 あ ,交通行動

関 タ 加 え 評 価 を 行 い , 高 い 解 率 を 確 認 . さ

, キス タ 情報抽出 多く使わ い

関 を用い 手法 比較評価を行 .そ 結果,通信行

動 交通行動 両方 い ,提案手法 方 高い 解率

得 わ .

今 後 , 抽 出 情 報 容 充 実 を 図 共 , 健 康 改 善 行 動

領 域 を 広 , 本 手 法 習 慣 行 動 情 報 収 集 を 進

予定 あ .

参考文献

[Blei 2003] David M. Blei, Andrew. Y. Ng and Michael I. Jordan: Latent Dirichlet Allocation, Journal of Machine Learning Research, Vol. 3, pp.993-1022, 2003.

[Canini 2009] Kevin R. Canini, Lei Shi and Thomas L. Griths: Online Inference of Topics with Latent Dirichlet Allocation, Proceeding of the 12th International Conference on Artificial Intelligence and Statistics, 2009.

[Endo 2006] 遠藤, 齊藤, 山本: 関 を利用 感情生

起表現 抽 出, 言語処 理学会 第 12回年次 大会,

pp.947-950, 2006

[Ikeda 2010] 池田, 柳原, 松本, 嶋: 関 基 く違

法 有害情報 高精度検出方式 提案, DEIM Forum 2010,

C9-5, 2010

[Itoh 2011] 伊藤, 永, 豊田, 喜連川: ユ 行動 興

味 関 時 系 列 推 移 3 次 元 可 視 ス ム, DEIM

Forum 2011, E7-5, 2011

[Kudo 2002] Taku Kudo and Yuji Matsumoto: Japanese Dependency Analysis using Cascaded Chunking, CONLL 2002

[Kukkonen 2010] Harri Oinas Kukkonen: Behavior Change Support Systems: The Next Frontier for Web Science, Proceedings of the Second International Web Science Conference (WebSci10), 2010.

参照

関連したドキュメント

We have formulated and discussed our main results for scalar equations where the solutions remain of a single sign. This restriction has enabled us to achieve sharp results on

Finally, in Section 7 we illustrate numerically how the results of the fractional integration significantly depends on the definition we choose, and moreover we illustrate the

A monotone iteration scheme for traveling waves based on ordered upper and lower solutions is derived for a class of nonlocal dispersal system with delay.. Such system can be used

Turmetov; On solvability of a boundary value problem for a nonhomogeneous biharmonic equation with a boundary operator of a fractional order, Acta Mathematica Scientia.. Bjorstad;

It is well known that the inverse problems for the parabolic equations are ill- posed apart from this the inverse problems considered here are not easy to handle due to the

We give another global upper bound for Jensen’s discrete inequal- ity which is better than already existing ones.. For instance, we determine a new converses for generalized A–G and

There is a robust collection of local existence results, including [7], in which Kato proves the existence of local solutions to the Navier-Stokes equation with initial data in L n (

discrete ill-posed problems, Krylov projection methods, Tikhonov regularization, Lanczos bidiago- nalization, nonsymmetric Lanczos process, Arnoldi algorithm, discrepancy