• 検索結果がありません。

異粒度データ分析のための非負値行列分解に基づく確率モデル

N/A
N/A
Protected

Academic year: 2021

シェア "異粒度データ分析のための非負値行列分解に基づく確率モデル"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

論 文

異粒度データ分析のための非負値行列分解に基づく確率モデル

幸島 匡宏

a)

松林 達史

澤田 宏

Probabilistic Models Based on Non-Negative Matrix Factorization for Inconsistent Resolution Dataset Analysis

Masahiro KOHJIMA

†a)

, Tatsushi MATSUBAYASHI

, and Hiroshi SAWADA

あらまし 近年,網羅的なデータ収集の困難さや個人情報保護の観点から,ユーザ個人を単位とする粒度の細 かいデータと年代・性別などの属性情報でまとめられたユーザ集団を単位とする粒度の粗いデータといった,異 なる粒度のデータを扱う機会が増えている.本研究では,個人単位・集団単位のデータの組のように,粒度の異 なる複数のデータを組み合わせて分析するための新たな手法を提案する.提案手法は,非負値行列分解に基づく 新たな確率モデルである.このモデルは粒度の粗い方のデータの背後に存在するデータを潜在変数として導入す ることで導かれる.実購買履歴を用いた実験を通して,提案手法は既存手法を上回る性能を示したこと,低解像 度のデータ数が増えるに従い性能向上が達成されることを確認した.更に上記提案手法に基づく拡張手法を導出 することで,提案手法が様々な異粒度データ分析問題を考える際の基盤的アプローチとなりうることを示す.

キーワード 異粒度データ,確率モデル,非負値行列分解,集合行列分解

1.

ま え が き

近年データ分析を駆使して成功を収めた企業が注目 を集め,数多くの企業がデータ収集・分析に関する取 り組みを加速させている.多様なデータ収集や分析を 行う取組みが報告される情勢の中,データを網羅的に 収集する困難さや個人情報保護等の観点から,粒度の 異なる複数のデータ,例えば

あるユーザがあるお店 を何回訪問したか

というユーザ個人のデータと

あ る同一年代のユーザ集団にある商品が計何個購入され た

というユーザ集団のデータの組を分析する機会が 増えている.本研究では,上記の個人単位・集団単位 のデータの組のように,粒度の異なる複数のデータを 組み合わせて分析するという問題を考える.なお粒度 の細かい方に対応するデータは,より詳細に訪問や購 買などの起こった事象を捉えていることから,以後こ れを高解像度データと呼ぶこととする.同様に粒度の 粗い方のデータを低解像度データと呼ぶ.先ほどの例

日本電信電話株式会社 NTTサービスエボリューション研究所,

横須賀市

NTT Service Evolution Laboratories, NTT Corporation, 1–1 Hikarinooka, Yokosuka-shi, 239–0847 Japan

a) E-mail: [email protected] DOI:10.14923/transinfj.2016DEP0012

では,ユーザ個人のデータが高解像度データ,ユーザ 集団のデータが低解像度データである.

異粒度データ分析が必要となる設定は例えば次の二 つが挙げられる.例の一つ目は小売業で収集される データの分析である

(

1 (a))

.現在多くの小売店で は会員カードを利用者に発行することで,会員ユーザ の購買履歴を収集している.しかしながら,会員カー ドをもたない利用者も存在することから,網羅的な データ収集は困難であり,購買履歴の一部は会員カー ドの識別情報

(ID)

をもたず,店舗スタッフが会計時 に外見から推定して入力した利用者の性別や年代の情 報しか含まない.したがって収集されるデータはユー ザ個人のデータとユーザ集団のデータから成ることと なる.よって,会員ユーザの購買履歴が十分収集され ていないときには,非会員ユーザの購買履歴を利用し 補うという,異粒度データ分析のアプローチが有用と なる.例の二つ目は自社・他社のデータを組み合わせ たデータの分析である

(

1 (b))

.位置情報サービス を提供する

foursquare

(注1)

Yelp

(注2)などのソーシャ ルデータでは,個人情報保護の観点からユーザ個人の

(注1http://gnip.com/sources/foursquare/

(注2http://www.yelp.com/dataset challenge

(2)

1 異粒度データ分析の適用例

Fig. 1 Application examples of inconsistent resolution dataset analysis.

店舗訪問履歴は非公開であり,ユーザ集団の店舗訪問 履歴,例えばある店舗を

女性

が何人訪問している か,という履歴のみが公開されている.したがって,

自社でもつ自社サービス利用者の個人のデータと上記 のソーシャルデータを組み合わせて分析する場合,異 粒度データ分析が必要となる.

本研究では,異粒度データ分析のための新たな手法 を提案する(注3).提案する異粒度データ分析手法は,

多様な研究分野でその有効性が確認されている,非負 値行列分解

(NMF: Non-negative Matrix Factoriza- tion) [2]

[4]

を拡張することで構築する.まずはじめ に異粒度データ分析の基本的な設定として,

(A1)

共 通ユーザ集合,

(A2)

独立同分布という二つの仮定が 満たされる状況に注目する.これらの仮定

(A1)(A2)

NMF

の定式化を用いることで,高解像度・低解像 度データを同時に分析する手法,確率的非負値異粒 度集合行列分解

( pNimf : probabilistic non-negative inconsistent-resolution matrices factorization)

を提 案する.この手法により,単独のデータのみを利用す る場合よりも正確にデータを分析することが可能とな る.例えば,前述した会員・非会員の購買履歴への適 用では,行列中の欠損値補完の精度を向上させること で,より正確に会員・非会員の商品購入量を予測する ことが可能となる.また,会員と非会員両方の購買傾 向を反映した購買パターンの抽出が可能となる.

提案手法

pNimf

は低解像度行列の背後に潜在的に 存在する潜在高解像度データを含めたデータ生成過程 を考えることで導かれる数理的な正当性をもつ手法 である.仮定

(A1)

から潜在高解像度データを定義で き,仮定

(A2)

より高解像度データと低解像度データ の間に関係性が導入できる.仮定

(A1)(A2)

は異粒度 データ分析における全ての問題において成り立つこと

(注3:本論文は国際会議予稿論文[1]の内容を発展させたものである.

が想定できるわけではないが,この関係性を用いたア プローチはより一般的な問題を解く際の基盤となりう る.本論文では,上記二つの仮定とは異なる状況,異 なる仮定が必要となる際の提案手法

pNimf

の拡張方 法についても示す.

本論文の構成は次のとおりである.

2.

で関連研究,

3.

で提案手法について述べる.

4.

で提案手法の有効 性を実験的に検証し,

5.

で提案手法の拡張例を示す.

6.

がまとめである.

2.

関 連 研 究

非負値行列分解

(NMF) [2], [3]

は入力となる行列を 要素が非負の行列の積へ因子分解する手法である.因 子分解の結果を利用することでソフトクラスタリン グや行列中の欠損値の補完に利用することができる ことが知られている.

NMF

は多様な損失関数を取り 扱うことが可能であるため,適切な損失関数を選ぶこ とで映画の評価ログや文書集合,購買履歴など多様 な種類のデータに適用することが可能である

[4]

.加 えて,損失関数として一般化カルバック

ライブラー ダイバージェンスを用いる際には

NMF

は確率的潜 在意味解析

(PLSI: probabilistic latent semantic in- dexing) [5]

と呼ばれる潜在的ディリクレ配分法

(LDA:

latent Dirichlet allocation) [6]

の基となった情報検索 における著名な手法と等価であることも示されてい る

[7]

.これらの事実から,

NMF

は機械学習における 核となる技術の一つであると考えられるため,我々は

NMF

を拡張することで提案手法の構築を行うことを 考えた.

近年,複数のデータを統合して分析する手法として 集合的行列分解

(CMF: Collective Matrix Factoriza-

tion)

または複合行列分解

(MMF: Multiple Matrix

Factorization)

などと呼ばれる複数の行列を同時に分 解する技術が提案されている

[8]

NMF

における同種

(3)

の拡張もなされており

[9], [10]

Non-negative Multi- ple Matrix Factorization (NMMF)

と呼ばれる技術 が存在する

[10]

.これらの手法は複数の行列,すなわ ち複数のデータの情報を組み合わせることで,単一の 行列のみの利用と比べて性能が改善することが報告さ れている.しかしながら,これらの手法はデータ間の 解像度の違いを考慮して設計されてはいない.また,

集合的行列分解とは別の文脈で,相本らは行列分解時 に集約データ

(

本論文における低解像度行列に相当

)

の 情報を組み合わせる手法の提案を行っている

[11]

.し かしながら,その手法は粒度の異なるデータが厳密に 同一のデータを表現している状況に特化したもので あり,異粒度データ分析の基礎手法としては適切では ない.

3.

提 案 手 法

3. 1

定 式 化

この章では,

(A1)

共通ユーザ集合,

(A2)

独立同分 布という二つの仮定が満たされる状況における異粒 度データ分析の問題に注目する.これらの仮定の厳密 な説明の前に,まず直感的な説明を与える.あるスー パーマーケットで会員カードを

12

月から発行し,そ れ以後はその店舗の全利用者は利用時に会員カードを 提示しなければならなくなったとしよう.すると,

11

月の時点では会員カードが存在していないため,図

2

に示すように,

11

月の購買履歴は低解像度データ,

12

月の購買履歴は高解像度データとして表現される.な お,

11

月の購買履歴に性別や年代などのユーザ属性 情報が記録されているのは,利用者の会計時に店舗ス タッフが外見から推定して入力していることを想定し

2 観測データと非観測データの例 Fig. 2 Example of observed and unobserved data.

ている.この例においては,仮定

(A1)

11

月と

12

月の全店舗利用者の集合は等しいこと

(

何らかの商品 を購入したか否かは問わない

)

,仮定

(A2)

11

月と

12

月で各ユーザの商品購入確率は一定であるとする こと,に相当する.以後我々はこの購買履歴解析の例 を用いて説明し,記号の定義はこの例に従う.ただし,

我々の研究はこの例のみに限られることはなく,より 一般的な状況についても

3. 4

で説明する.

記号の定義:

I

J

K

をそれぞれユーザ,商品,ユー ザ属性の総数とする.行列

X

をその要素

x

ij

12

月 におけるユーザ

i

による商品

j

の購入数,行列

Y

を その要素

y

kj

11

月におけるユーザ属性

k

による商 品

j

の購入数を表す行列であるとする.行列

X

が高 解像度行列,行列

Y

が低解像度行列に対応する.こ れに加えてユーザのユーザ属性に関する情報も利用可 能であるとする.会員カードを作る際に性別や年代な どのユーザ属性を入力することは通常要求されるため,

この仮定は決して強いものではない.このユーザ属性 情報を行列

V = { v

ik

}

i,kI,K=1で表す.要素

v

ik

∈ { 0, 1 }

は,ユーザ

i

がユーザ属性

k

であるときに

1

,そうで なければ

0

をとるものである.

潜在高解像度行列:続いて,潜在高解像度行列

Z

を 定義する.この行列は提案モデルを構築するにあたり 重要な役割を果たす.行列

Z

は,「もしも

11

月に会員 カードが発行されていたら」収集されたはずの

11

月 の高解像度データを表す行列として定義する.すなわ ち行列

Z

は,低解像度データの背後に存在する隠れ た高解像度データを表す.しかしながら,行列

Z

に対 応する潜在高解像度データに含まれるユーザは観測不 可能であるため,行列

Z

を表現するのに必要な行数 がわからない.そのために仮定

(A1)

を利用すること でこの問題を回避する.すなわち仮定

(A1)

のフォー マルな定義は次のとおりである.「高解像度行列

X

潜在高解像度行列

Z

におけるユーザ集合は同一であ る」これによって行列

Z

の行数は行列

X

と等しい

I

行とできる.すなわち,各要素

z

ijはユーザ

i

による 商品

j

11

月における購入数を表すとできる.非常 に重要なことに,この定義によって行列

Y

Z

の間 には

Y = V

T

Z

という関係が導入される.これは

y

kj の値は定義から,ユーザ属性

k

であるユーザ

i

の購入 量

z

ijを足し合わせたもの,

y

kj

=

i

v

ik

z

ijであるこ とを考えれば明らかである.

3. 2

確率モデル

こ の 節 で 提 案 す る 確 率 モ デ ル に つ い て 述 べ る .

(4)

ユ ー ザ 因 子 行 列 と 商 品 因 子 行 列 を そ れ ぞ れ 行 列

A := {a

ir

}

I,Ri,r=1

B := {b

jr

}

J,Rj,r=1で定義する.

R

は 因子数を表す.各因子行列は,ベクトル

(a

i1

, · · · , a

iR

)

(b

j1

, · · · , b

jR

)

がそれぞれユーザ

i,

商品

j

の潜在的な 特徴を表し,購買傾向の観点で類似するユーザまたは商 品が類似するベクトルとなる.加えて,因子行列の積を

X ˆ = AB

Tで定義する.行列要素は

ˆ x

ij

=

r

a

ir

b

jr で与えられる.購買データの分析では,一般的に購買 数をポアソン分布によりモデル化することが多い

[12]

. よって本論文では,ポアソン分布を用いた確率モデル の構築を行う.ポアソン分布

PO

の密度関数は以下の ように書き下せる.

PO(x

ij

x

ij

)

= exp {− x ˆ

ij

+ x

ij

log(ˆ x

ij

) log Γ(x

ij

+ 1) } .

ポアソン分布を用いた

NMF

のモデルでは,行列

X

の生成確率を次の式で定義する.

p( X|A , B ) =

I,J i,j=1

PO (x

ij

| x ˆ

ij

). (1)

なお,入力行列の要素がユーザの商品に対する評価値 などを表すときには,正規分布を用いたモデル化を行 う場合もあるが,以後の議論は正規分布を用いた確率 モデルでもほぼ同様に成り立つ.

我々は次の三つのステップにより,提案する確率モ デルを構築する.

(Step-1)

行列

X

Z

を生成する確 率分布を定める.前述のようにここではポアソン分布 に従うとする.

(Step-2)

仮定

(A2)

独立同分布,を利 用する.ここでこの仮定

(A2)

の厳密な定義を与える.

それは,「行列

X

Z

の同じ添え字の要素

x

ij

z

ij は同一の確率分布

(

今回の場合,パラメタ

x ˆ

ijのポアソ ン分布

)

に従い,それらは相互に独立である」というも のである.仮定

(A2)

は購買データを得た月には依存 しない因子を得ることを助ける効果がある.

(Step-3)

前の章で述べた潜在高解像度行列

Z

と低解像度行列

Y

の関係

(y

kj

=

i

v

ik

z

ij

)

を利用する.これらを全 てまとめると,行列

X

Z

Y

の生成確率は

p( X , Z , Y |A , B , V ) (2)

=

i,j

PO (x

ij

| x ˆ

ij

) PO (z

ij

| x ˆ

ij

)

×

k,j

δ

y

kj

i

v

ik

z

ij

,

と表現される.ただし,

δ(·)

はデルタ関数である.

3 (a)

は上記の提案手法におけるデータ生成過程の

グラフィカルモデル表現を表す.潜在高解像度行列

Z

を導入することで,全データの生成確率を自然に定義 することができている.しかしながら,行列

Z

I

J

列というサイズの大きい行列であり,より取り扱い の容易な形式に変換することがパラメタ推定を考える うえでは重要である.

ここで鍵となるものが,ポアソン分布の性質「ポア ソン分布に従う確率変数の和はポアソン分布に従う」

というものである.我々のモデルにおいては

z

ijはポ アソン分布に従う確率変数であり

y

kjはその和として 定義されている.これを使うと式

(2)

より行列

Z

を周 辺消去することが可能であり,次のような提案モデル の等価な表現を導くことができる.

p( X , Y |A , B , V ) =

p( X , Z , Y |A , B , V )d Z

=

i,j

PO(x

ij

x

ij

)

k,j

PO(y

kj

y

kj

), (3)

where y ˆ

kj

=

R r=1

c

kr

b

jr

and c

kr

=

I i=1

v

ik

a

ir

. (4)

3 (b)

がこの表現におけるグラフィカルモデルを表

す.行列

C := {c

kr

}

K,Rk,r=1がユーザ属性の因子行列を 表すとみなすことで,式

(3)

は高解像度行列と低解像度 行列を因子行列

A

C

がユーザ属性行列

V

を用いた 線形制約

C = V

T

A

を満たすという条件を課したもと で同時に因子分解した手法であるとみなすことができ る

(

4)

.よって我々はこの提案手法を

Probabilistic Non-negative Inconsistent-resolution Matrices Fac- torization ( pNimf )

と呼ぶこととする.なお,因子行 列間の線形制約

C = V

T

A

を除くと提案手法

pNimf

は既存の集合行列分解手法の一つである

(NMMF) [10]

と一致する.よって,

pNimf

NMMF

の拡張手法で あるとみなすこともできる.

3. 3

推定アルゴリズム

提案手法

pNimf

のパラメタ推定アルゴリズムは

NMF

における導出とほぼ同様の手続きにより導くこ とができる.式

(3)

に対数をとったものを目的関数,

(4)

は線形制約であるとみなす.

A

B

C

が推定 対象となる変数である.アルゴリズムの方針は,目的 関数を直接最大化するのではなく,目的関数の下界の 最大化を通して間接的に最大化を行うというものであ

(5)

3 提案手法のグラフィカルモデル.影付きのノードが観測変数を表す.図(a)が式(2) で表現される提案手法のデータ生成過程,図(b)が式(2)から潜在高解像度行列Z を周辺消去した,式(3)(4)で表現されるデータ生成過程を表す.図(c)は,3. 4 で述べる複数の低解像度行列・高解像度行列が利用できる一般化した設定における 提案手法のデータ生成過程である.

Fig. 3 Graphical models. Shaded nodes indicate observed variables. Figure (a) represents the original definition of the proposed model described in Eq. (2). By marginalizing out Z, Fig. (b) which is described in Eq. (3) is obtained. Figure (c) represents generalized model stated in3. 4.

4 提案モデルの図3 (b)の表現に対応する因子分解形 Fig. 4 Factorization form which corresponds to

Fig. 3 (b).

る.目的関数の下界

F

はイェンセンの不等式を適用す ることで導出することができる.

F =

i,j

R

r=1

a

ir

b

jr

+ x

ij

R r=1

s

ijr

log a

ir

b

jr

s

ijr

+

k,j

R

r=1

c

kr

b

jr

+ y

kj

R r=1

t

kjr

log c

kr

b

jr

t

kjr

,

ただし,

{ s

ijr

}

{ t

kjr

}

は補助変数,等号成立条件は 次のとおりである.

s

ijr

= a

ir

b

jr

R

r=1

a

ir

b

jr

, t

kjr

= c

kr

b

jr

R

r=1

c

kr

b

jr

. (5)

下界

F

を微分して

0

とおき

(

∂a∂F

ir

= 0)

,補助変数の

値を式

(5)

のそれへと置き換えることで

a

irの更新式 が導かれる.

b

jrの更新式も同様に導かれ,

c

krの更新 式は線形制約の式そのものである.更新式は次のとお りである.

a

newir

a

ir j

xij

xˆij

b

jr

+

k

j

v

ikyyˆkj

kj

b

jr

j

b

jr

+

k

j

v

ik

b

jr

, (6)

b

newjr

b

jr i

xij

xˆij

a

ir

+

kykj yˆkj

c

kr

i

a

ir

+

k

c

kr

, (7)

c

newkr

i

v

ik

a

ir

. (8)

なお,本論文では観測データを表す行列中に欠損値が ある場合の扱いは省略したが,通常の

NMF

における 欠損値の取り扱いとほぼ同様に適用可能である.

3. 4

一 般 化

最後に提案手法

pNimf

がより一般的な異粒度データ 解析の設定においても適用可能であることについて述 べる.

3. 1

で我々は高解像度データと低解像度データ がそれぞれ

1

ヶ月分の購買履歴であるという例を示し た.しかし,仮定

(A1)

(A2)

が満たされているか ぎり,提案手法は任意の設定に対して適用可能であ る.例えば,複数個の高解像度データと低解像度デー タが利用可能であることを考える.この場合におい ても

pNimf

は若干の修正を加えることでそのまま適 用することができる.

M

を高解像度データの個数,

X

m

= { x

mij

}

m

番目の高解像度データを表す行列 であるとする.同様に,

N

を低解像度データの個数,

(6)

Y

n

= {y

nkj

}

n

番目の低解像度データを表す行列で あるとする.各

m

n

は必ずしもデータが収集され た日・週・月などの時間に対応する必要はなく,県・

国などの場所に対応するものであってもよい.図

3 (a)

で表現されていた提案手法のデータ生成過程を図

3 (c)

の示すものへと拡張することで,式

(6)(7)

を修正した 次のパラメタ更新式が求まる.

a

newir

a

ir

M

j x¯ij

xˆij

b

jr

+N

k

j

v

ikyy¯ˆkj

kj

b

jr

M

j

b

jr

+N

k

j

v

ik

b

jr

, (9)

b

newjr

b

jr

M

i x¯ij

xˆij

a

ir

+ N

k y¯kj yˆkj

c

kr

M

i

a

ir

+ N

k

c

kr

, (10)

ただし,

x ¯

ij

=

M1

M

m=1

x

mij

y ¯

kj

=

N1

N

n=1

y

nkjで ある.

4.

実 験

4. 1

実 験 設 定

この章では,人工データと実購買データを用いて提 案手法の有効性を確認する.

人工データ:人工データは,式

(2)

の確率モデルを 用いてサイズが

I = 100

J = 100

K = 10

である 高解像度行列と低解像度行列を作成した.ユーザ属性 行列

V

は,

I/K = 10

行ずつ異なる値となるよう,要 素

v

ikの値を

i/K

の商が

k

であるとき

v

ik

= 1

,そ うでなければ

v

ik

= 0

と設定した.データを生成す る際の因子行列

A

B

の値はガンマ分布から生成し たランダムな値を利用した.データ生成の際の因子数

R = 5, 10, 20

ごとにガンマ分布のパラメタを調節する ことで,確率モデルから生成される高解像度行列

X

のスパースネス

(

行列中の値がゼロとなる要素の割合

)

の異なるデータを作成した.作成した高解像度行列

X

のスパースネスは約

50%

90%

99%

であり,それら に対応する低解像度行列

Y

のスパースネスは約

10%

40%

80%

である.

実購買データ:実購買データには株式会社インテー ジの消費者パネルデータ

“SCI”

を利用する.特に我々 は

2013.1.1

から

2013.12.31

までの期間の牛乳,コー ヒー菓子類などの日用品項目に関する購買履歴を用い る.これらの項目は各月で繰り返し購買される商品で あることから,仮定

(A2)

の独立同分布という仮定は 満たされていると期待できる.このデータにはユーザ

の年齢と性別の属性情報も含まれている.我々はこの データから,

Two-month

データと

Four-month

データ の

2

種類の実験用データを作成する.

Two-month

2

で示したように

11

月と

12

月の購買データを用い て作成する.なお作成するうえでは,仮定

(A1)

が満 たされるケースを取り扱うため,両方の月で

10

回以 上購買を行うユーザの履歴を用い,商品は購買履歴中 に

10

回以上現れたものを用いた.作成した行列のサ イズは

I = 1589

J = 3164

K = 34

となり,行列

X

Dec

Y

Novのスパースネスはそれぞれ,

99.15%

54.4%

となった.この手続きを

1

月と

2

月のデータに 対しても適用する.得られた行列のサイズとスパース ネスは

11

月と

12

月のデータから作成したものとほぼ 同様である.

Four-month

データの作成も

9

月,

10

月,

11

月,

12

月のデータを用いて同様に作成する.

12

月 の購買履歴を表す高解像度行列

X

Decとそれ以外の各 月の低解像度行列

Y

Nov

Y

Oct及び

Y

Sepを作成し た.得られた行列のサイズは

I = 1288

J = 4842

K = 34

となった.

評価指標:この実験ではテストデータに対する対数 ゆう度を評価尺度として利用する.行列

X

の要素を 学習用データとテスト用データに分割し,学習用の データのみを用いて推定した因子行列を用いて,テス トデータの生成確率を正しく表現できているかを評 価する.テストデータとされた要素は学習時には欠損 要素として扱う.テストデータに対する対数ゆう度は

1

|T |

(i,j)∈T

log PO x

ij

x ˆ

ij

として定義される.た だし,

T

はテストデータとされた行列要素の添え字全 体を表し,

| · |

で集合中の要素数を表す.行列要素中か ら

5%

の非ゼロ要素をランダムに抽出することで,学 習・テストデータの組を

10

組作成して実験を行った.

比 較 手 法:比 較 手 法 に は 次 の 二 つ を 利 用 し た .

(1) NMF [2]

,単一の行列を因子分解する手法.高 解像度行列

X

のみを因子分解して学習結果を得る.

(2) NMMF [10]

NMF

を複数の行列を同時に分解で きるよう発展させた拡張手法.

X

Y

を同時に因子 分解することで学習結果を得る.内部の行列

Y

に関す る重要度を定める重みパラメタには,

α = 0.1, 0.5, 1.0

という候補の中でもっとも優れた値を示した

α = 1.0

を利用する.

4. 2

実 験 結 果

まず人工データを用いた実験結果を表

1

に示す.行 列

X

のスパースネス

50%

,因子数

R = 5, 10

におけ る結果に着目すると,

3

手法はほぼ同等程度の性能を

(7)

1 人工データを用いた実験結果:行列Xのスパース ネスと生成時の因子数Rの異なる各設定における テストデータに対する対数ゆう度を表す.学習時に 利用した因子数は生成時の因子数と同一のものを利 用した.表中の値が平均と標準偏差を表す.平均値 が大きいほど良い.スパースネス99%の設定では平 均と標準偏差ともに10で割った値を示す.

Table 1 Result ofsyntheticdata: test log-likelihood forX determined with different sparseness values. Average and standard deviation are shown. Larger values are better. Scores and standard deviation are divided by ten in the 99% sparseness setting.

Sparseness R NMF NMMF pNimf

X: 50%

Y: 10%

5 −2.77(±0.17)−2.71(±0.10)−2.66(±0.09) 10−2.72(±0.18)−2.54(±0.09)−2.42(±0.04) 2016.7(±20.1)3.11(±0.18)−3.09(±0.21) X: 90%

Y: 40%

5 −6.71(±2.13)−4.11(±0.97)−3.48(±0.69) 105.26(±0.92)3.28(±0.45)−2.96(±0.23) 2021.5(±4.38)7.57(±1.28)−5.72(±0.48) X: 99%

Y: 80%

5 −5.44(±1.82)−3.62(±1.73)−2.04(±1.12) 106.64(±3.52)7.05(±2.62)−4.59(±1.67) 2017.0(±32.7)7.43(±3.37)−6.64(±3.13)

2 Two-monthデータを用いた実験結果:各因子数R

におけるテストデータに対する対数ゆう度を表す.

表中の値が平均と標準偏差を表す.平均値が大きい ほど良い.

Table 2 Result ofTwo-monthdata: test set log- likelihood varying the number of fac- tors,R. Average and standard devia- tions are presented. Larger values are better.

Data R NMF NMMF pNimf

SCI XFeb&

YJan

10 13.3±0.63 7.89±0.38 −7.84±0.17 20 −18.7±1.95 −9.14±0.48 −8.81±0.20 50 −32.7±2.15 −11.8±0.48 −10.4±0.33 SCI

XDec&

YNov

10 −13.9±0.99 −8.24±0.59 −7.83±0.23 20 −14.4±0.73 −8.95±0.37 −8.68±0.27 50 −32.59±2.17 −12.32±0.50 −10.45±0.30

発揮していることが確かめられる.しかし,スパース ネスが更に上がり,

90%

の設定では

NMMF

と提案手 法が

NMF

を上回り,更に

99%

の設定では提案手法が

NMMF

より優れた性能を示している.この結果から,

提案手法は入力行列がよりスパースである場合に,既 存手法よりも優れた性能を発揮すると考えられる.

次に実データである

Two-month

データを利用した 結果を表

2

に示す.提案手法

pNimf

NMMF

が因 子数の値によらず

NMF

を上回る性能を示しているこ とが分かる.この結果は低解像度行列を利用すること が性能向上をもたらすことを示している.加えて,提 案手法の性能は

NMMF

よりも優れたものとなってい る.また,その差は因子数の値が大きいときに,より 大きくなり,提案手法が因子数の設定に対してロバス

5 Four-monthデータを用いた実験結果:各低解像度行 列の数N におけるテストデータに対する対数ゆう 度を表す.ヒストグラムの高さとエラーバーが平均 と標準偏差を表す.平均値が大きいほど良い.

Fig. 5 Result ofFour-monthdata: test set log-likelihood varying the number of low-resolution data,N.

トであることも確認できる.これは提案手法が,因子 行列間の線形制約を導入することによって,行列間の 粒度の違いを考慮しながら因子分解を行うことができ ることに由来する効果であると考えられる(注4)

最後に

Four-month

データを用いて,低解像度行列 の数が性能に与える影響について調べる.提案手法の 因子数

R = 10

と設定し,学習時に利用する低解像度 行列の数

N

を変えて因子分解を行い評価を行う.図

5

にその結果を示す.利用する低解像度行列の数が増え るにつれて提案手法の性能が向上していることが分か る.修正したデータ生成過程により提案手法は複数の 低解像度行列が存在する状況でも適用できることから,

各行列の数が異なる状況でも因子分解を行うことが可 能であることが確かめられた.

5.

提案技術の拡張例

これまでの章で,二つの仮定

(A1)(A2)

が満たされ る異粒度データ解析問題に注目し,新たな確率モデル を提案・その有効性を検証した.ここで注意しなけれ ばならない点は,高解像度行列と低解像度行列の間に 導入することができる関係性は問題設定に応じて変わ りうるため,提案した確率モデルが異粒度データ解析 の全ての問題に対する妥当なモデリングになるとは限 らない,ということである.しかし,この手法を基礎 に据えた拡張を考えることで,多くの異粒度データ解 析の問題が解決可能になると我々は考えている.そこ で本論文の最後に,提案モデルの拡張によりどのよう に新たな技術を創出することができるかの例を示す.

(注4:この結果は,人工データの結果と整合性がとれている.Two- monthデータのスパースネスは(X99.15%Y54.4%)であり,低 解像度行列のスパースネスの値から,人工データの設定(X99%Y 80%)(X90%Y40%)の中間的な設定に相当する.

(8)

5. 1

定 式 化

ここでは,会員・非会員購買履歴という異粒度デー タが

3. 1

で示したものとは違ったプロセスで作られ た状況を考える.

3. 1

の例では,

12

月から会員カー ドが発行・提示が必要とされる状況を考えたため,

11

月の利用者と

12

月の利用者が同一であるという仮定

(A1)

共通ユーザ集合を置くことができた.しかしな がら,コンビニエンスストアなど,非会員ユーザも利 用することが可能な店舗で収集されるデータは,会員 ユーザと非会員ユーザが常に混在し,またそれぞれ異 なるユーザ群に対応するため,これまで用いた仮定

(A1)

共通ユーザ集合を利用することは一般には適切 ではない.その理由を図

6

を用いて説明する.

6

は会員と非会員のユーザ群が異なる場合に起こ りうる状況の例である.図

(a)(b)

の違いは,会員と非 会員における各属性ごとの人数がほぼ同一であるか,

それとも大きく異なるかにある.図

6 (a)

の設定にお いては,

3.

で示した提案手法に一定の妥当性がある が,

(b)

の設定の場合は妥当性を失う.なぜなら,提 案手法でおいた仮定

(A1)(A2)

は,結果的に「各属性 ごとの各商品の総購買量が会員・非会員で同程度であ る」ことを想定している.これは図

(a)

の状況ではお おむね適当であるのに対し,図

(b)

の設定では明らか に不適当なためである.

そこでここでは新たな仮定として,「同一属性の会 員購買履歴と非会員購買履歴はおおよそ比例する」と いう新たな仮定

(A3)

属性購買数比例,を導入したア プローチを考える.会員購買履歴を表す

(

高解像度

)

6 会員と非会員のユーザ群が異なる状況の例.(a)の設定では3.で示した提案手法を 適用することは妥当性が保たれる一方,(b)の設定では会員と非会員の属性ごとの 人数の違いから総購買量が大きく異なりうるため,手法の拡張が必要となる.

Fig. 6 An example where a user set of members and that of non-members are different. Proposed method shown in3.can be applied to the case of (a).

However, it is not appropriate in the case of (b) since the purchase volume of members and that of non-members are greatly different.

行列を

X,

非会員購買履歴を表す

(

低解像度

)

行列を

Y

と書く.属性

k

の会員購買履歴は

I

i=1

v

ik

x

i,非 会員購買履歴は

y

kで与えられるから,仮定

(A3)

の 比例関係は数式

y

k

I

i=1

v

ik

x

iで表現できる.属 性

k

の会員が一定数存在するならば,この仮定を置く ことはきわめて自然であると考えられる.したがって 我々はこの比例関係が因子行列を用いて再構成する行 列

X ˆ

Y ˆ

に成り立つ因子分解形を考える.対角行列

D := diag( { d

k

}

kK=1

)

をその要素

d

kが属性

k

の比例 定数を表すとすると,比例関係が成り立つには

Y ˆ = DV

T

X ˆ (11)

が満たされれば良い.行列

X ˆ

の因子分解形には

NMF

と同じ

X ˆ = AB

Tという形を用いることとし,式

(11)

に代入すると,行列

Y

の因子分解形は以下とすれば よいことがわかる.

Y ˆ = DCB

T

, C = V

T

A . (12)

これをまとめると,次のような確率モデルを考えれ ば良いことがわかる.

p(X, Y |A, B, C, D, V )

=

i,j

PO (x

ij

| x ˆ

ij

)

k,j

PO (βy

kj

| β y ˆ

kj

),

where y ˆ

kj

=

R r=1

d

k

c

kr

b

jr

and c

kr

=

I i=1

v

ik

a

ir

.

ただし

β

は重みパラメタであり,データ量の違いによ

(9)

7 拡張した提案モデルの因子分解形 Fig. 7 Factorization form of the extended method.

り非会員データが目的関数で支配的にならないように コントロールするものである.この確率モデルに対応 する行列分解形は図

7

で与えられる.

3.

の図

4

で示 した行列分解形と比較すると,対角行列

D

が新たに 導入されている点が異なり,拡張された定式化である ことがわかる.パラメタ更新アルゴリズムの導出を行 うと,行列要素

a

ir

b

jr

c

kr

d

kの更新式は次のよ うに与えられる.

a

newir

a

ir j

xij

xˆij

b

jr

+ β

k

d

k

v

ik

jykj yˆkj

b

jr

j

b

jr

+ β

k

d

k

v

ik

j

b

jr

, b

newjr

b

jr i

xij

xˆij

a

ir

+ β

kykj yˆkj

d

k

c

kr

i

a

ir

+ β

k

d

k

c

kr

, c

newkr

i

v

ik

a

ir

, d

newk

j

y

kj

r

c

kr

(

j

b

jr

) .

5. 2

実 験

実験には,

4.

と同じく株式会社インテージの

“SCI”

データを利用する.ただしデータ作成方法は前回とは 異なり,購買データを月別に分けるのではなく,データ 中のユーザからランダムに抽出した

5%

10%

20%

40%

を会員,残りを非会員として取り扱い,会員購買 履歴より行列

X

,非会員購買履歴より行列

Y

を作成 する.ここで,解析対象とするユーザ・商品はそれぞ れ

50

回以上,

30

回以上購買履歴中に存在するユー ザ・商品に限定した.作成したユーザ

(

会員と非会員 両方を含む

)

と商品の総数はそれぞれ

5000

7000

と なった.

比較手法と評価指標は

4.

の実験と同一のものを 利用する.なお,

NMMF

と提案手法の重みパラメ タ の 値 は ,会 員 購 買 履 歴 と 非 会 員 購 買 履 歴 を 対 等 に扱うよう人数の比率

(

会員数

/

非会員数

)

を用い,

β = 0.05, 0.11, 0.25, 0.66

と設定した.

8

に実験結果を示す.会員比率によらず提案手法 と

NMMF

NMF

より優れた結果が得られている.

8 各会員ユーザ比率におけるテストデータに対する対 数ゆう度を表す.青,赤,緑色のヒストグラムがそ

れぞれNMF, NMMF,拡張した提案手法の結果を

示す.

Fig. 8 Test set log-likelihood varying the ratio of members and non-members. Blue, red and green histogram represent a result of NMF, NMMF and proposed method.

これは,非会員購買履歴の利用が性能向上に寄与する ことを示すといえる.その寄与の度合いに注目すると,

会員数が十分多い会員比率

40%

のときには効果が小さ く,会員数の少ない会員比率

5%

10%

20%

のとき に,より大きな性能向上がもたらされていることがわ かる.提案手法と

NMMF

の結果を比較すると,会員 比率

10%

20%

40%

のときにはほぼ同等の結果が得 られている.しかし,会員数の非常に少ない会員比率

5%

のときには,提案手法は

NMMF

を上回る結果を 示している.ここから,属性間の購買数の比例関係を 明示的に導入することで,会員数が少なくデータが十 分でない場合に,提案手法はより有効に非会員購買履 歴を統合した因子分解が可能であると読み取れる.

6.

む す び

本論文では,異粒度データ分析のための新たな手法 を提案した.はじめに

(A1)

ユーザ共通,

(A2)

独立 同分布という二つの仮定が満たされる状況に着目し,

潜在高解像度行列を用いたデータ生成過程を考える ことで,異粒度データ分析のための新たな確率モデル

pNimf

を提案した.更にこの拡張により,上記とは別 の仮定を要する状況で用いる手法が構築可能であるこ とも示した.これらの結果は提案手法が異粒度データ 分析問題を考える際の基盤的アプローチになりうるこ とを示すと考える.

残された研究課題には,季節性などを導入すること によるモデルの更なる拡張や,提案技術の性能の理論 的解明が挙げられる.低解像度行列を用いることによ る性能向上の度合いは高解像度行列と低解像度行列の 粒度の違い

(

行数の違い

)

の大きさに影響すると考え られ,その理論的解析は今後の課題である.

(10)

文 献

[1] M. Kohjima, T. Matsubayashi, and H. Sawada,

“Probabilistic non-negative inconsistent-resolution matrices factorization,” Proc. 24th ACM Interna- tional Conference on Information and Knowledge Management, pp.1855–1858, 2015.

[2] D.D. Lee and H.S. Seung, “Learning the parts of ob- jects by non-negative matrix factorization,” Nature, vol.401, no.6755, pp.788–791, 1999.

[3] D.D. Lee and H.S. Seung, “Algorithms for non- negative matrix factorization,” Advances in Neural Information Processing Systems, pp.556–562, 2001.

[4] A. Cichocki, R. Zdunek, A.H. Phan, and S. Amari, Nonnegative matrix and tensor factorizations: Appli- cations to exploratory multi-way data analysis and blind source separation, John Wiley & Sons, 2009.

[5] T. Hofmann, “Probabilistic latent semantic index- ing,” Proc. 22nd Annual International ACM SIGIR Conference on Research and Development in Infor- mation Retrieval, pp.50–57, 1999.

[6] D.M. Blei, A.Y. Ng, and M.I. Jordan, “Latent Dirichlet allocation,” J. Machine Learning Research, vol.3, pp.993–1022, 2003.

[7] C. Ding, T. Li, and W. Peng, “On the equivalence between non-negative matrix factorization and prob- abilistic latent semantic indexing,” Computational Statistics & Data Analysis, vol.52, no.8, pp.3913–

3927, 2008.

[8] A.P. Singh and G.J. Gordon, “Relational learn- ing via collective matrix factorization,” Proc. 14th ACM SIGKDD International Conference on Knowl- edge Discovery and Data Mining, pp.650–658, 2008.

[9] H. Lee and S. Choi, “Group nonnegative matrix factorization for EEG classification,” International Conference on Artificial Intelligence and Statistics, pp.320–327, 2009.

[10] K. Takeuchi, K. Ishiguro, A. Kimura, and H. Sawada,

“Non-negative multiple matrix factorization,” Proc.

23rd International Joint Conference on Artificial In- telligence, pp.1713–1720, 2013.

[11] Y. Aimoto and H. Kashima, “Matrix factoriza- tion with aggregated observations,” Advances in Knowledge Discovery and Data Mining, pp.521–532, Springer, 2013.

[12] 阿部 誠,近藤文代,マーケティングの科学—POSデー タの解析—,朝倉書店,2005.

(平成28627日受付,117日再受付,

2916日早期公開)

幸島 匡宏

2009年,東京工業大学工学部情報工学 科卒業.2012年,同大学院総合理工学研究 科知能システム科学専攻修士課程修了.同 年,日本電信電話株式会社入社.以来NTT サービスエボリューション研究所にて,機 械学習の研究に従事.

松林 達史

2000年,京都大学理学部物理学科卒業.

200210月より2年半,理化学研究所 非常勤研究員.2005年,東京工業大学大 学院理工学研究科地球惑星科学専攻博士課 程修了.同年,日本電信電話株式会社入社.

以来,NTTコミュニケーション科学基礎 研究所,NTTサービスエボリューション研究所にて,グラフ 可視化及び機械学習の研究開発に従事.博士(理学).情報処理 学会会員.

澤田 宏 (正員)

1991年,京都大学工学部情報工学科卒 業.1993年,同工学研究科情報工学専攻 修士課程修了.2001年,京都大学博士(情 報学). 1993年,日本電信電話株式会社

(NTT)入社.以来,同社コミュニケーショ

ン科学基礎研究所及びサービスエボリュー ション研究所において,VLSI設計技術及び計算機アーキテ クチャ,信号処理技術(音響信号の分離技術),機械学習技術

(多次元データ分析技術)の研究に従事.現在,NTTコミュニ ケーション科学基礎研究所協創情報研究部部長.日本音響学会,

IEEE各会員.

図 1 異粒度データ分析の適用例
図 3 提案手法のグラフィカルモデル.影付きのノードが観測変数を表す.図 (a) が式 (2) で表現される提案手法のデータ生成過程,図 (b) が式 (2) から潜在高解像度行列 Z を周辺消去した,式 (3)(4) で表現されるデータ生成過程を表す.図 (c) は, 3
表 1 人工データを用いた実験結果:行列 X のスパース ネスと生成時の因子数 R の異なる各設定における テストデータに対する対数ゆう度を表す.学習時に 利用した因子数は生成時の因子数と同一のものを利 用した.表中の値が平均と標準偏差を表す.平均値 が大きいほど良い.スパースネス 99%の設定では平 均と標準偏差ともに 10 で割った値を示す.
Fig. 6 An example where a user set of members and that of non-members are different. Proposed method shown in 3
+2

参照

関連したドキュメント

せん断帯の数値解析は、材料の非線形性だけでなく初期形状の非対称性や材料の非均質性

の応力分布状況は異なり、K30 値が小さいほど応力の分 散がはかられることがわかる。また、解析モデルの条件の場合、 現行設計での路盤圧力は約

25 法)によって行わ れる.すなわち,プロスキー変法では,試料を耐熱性 α -アミラーゼ,プロテ

重回帰分析,相関分析の結果を参考に,初期モデル

 毒性の強いC1. tetaniは生物状試験でグルコース 分解陰性となるのがつねであるが,一面グルコース分

非自明な和として分解できない結び目を 素な結び目 と いう... 定理 (

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク