異粒度データ分析のための非負値行列分解に基づく確率モデル

(1)

論文

異粒度データ分析のための非負値行列分解に基づく確率モデル

幸島匡宏

^†^a)

松林達史

^†

澤田宏

^†

Probabilistic Models Based on Non-Negative Matrix Factorization for Inconsistent Resolution Dataset Analysis

Masahiro KOHJIMA

^†a)

, Tatsushi MATSUBAYASHI

^†

, and Hiroshi SAWADA

^†

あらまし近年，網羅的なデータ収集の困難さや個人情報保護の観点から，ユーザ個人を単位とする粒度の細かいデータと年代・性別などの属性情報でまとめられたユーザ集団を単位とする粒度の粗いデータといった，異なる粒度のデータを扱う機会が増えている．本研究では，個人単位・集団単位のデータの組のように，粒度の異なる複数のデータを組み合わせて分析するための新たな手法を提案する．提案手法は，非負値行列分解に基づく新たな確率モデルである．このモデルは粒度の粗い方のデータの背後に存在するデータを潜在変数として導入することで導かれる．実購買履歴を用いた実験を通して，提案手法は既存手法を上回る性能を示したこと，低解像度のデータ数が増えるに従い性能向上が達成されることを確認した．更に上記提案手法に基づく拡張手法を導出することで，提案手法が様々な異粒度データ分析問題を考える際の基盤的アプローチとなりうることを示す．

キーワード異粒度データ，確率モデル，非負値行列分解，集合行列分解

1.

^{まえがき}

近年データ分析を駆使して成功を収めた企業が注目を集め，数多くの企業がデータ収集・分析に関する取り組みを加速させている．多様なデータ収集や分析を行う取組みが報告される情勢の中，データを網羅的に収集する困難さや個人情報保護等の観点から，粒度の異なる複数のデータ，例えば

“

あるユーザがあるお店を何回訪問したか

”

というユーザ個人のデータと

“

ある同一年代のユーザ集団にある商品が計何個購入された

”

というユーザ集団のデータの組を分析する機会が増えている．本研究では，上記の個人単位・集団単位のデータの組のように，粒度の異なる複数のデータを組み合わせて分析するという問題を考える．なお粒度の細かい方に対応するデータは，より詳細に訪問や購買などの起こった事象を捉えていることから，以後これを高解像度データと呼ぶこととする．同様に粒度の粗い方のデータを低解像度データと呼ぶ．先ほどの例

†日本電信電話株式会社 NTTサービスエボリューション研究所，

横須賀市

NTT Service Evolution Laboratories, NTT Corporation, 1–1 Hikarinooka, Yokosuka-shi, 239–0847 Japan

a) E-mail: [email protected] DOI:10.14923/transinfj.2016DEP0012

では，ユーザ個人のデータが高解像度データ，ユーザ集団のデータが低解像度データである．

異粒度データ分析が必要となる設定は例えば次の二つが挙げられる．例の一つ目は小売業で収集されるデータの分析である

(

図

1 (a))

．現在多くの小売店では会員カードを利用者に発行することで，会員ユーザの購買履歴を収集している．しかしながら，会員カードをもたない利用者も存在することから，網羅的なデータ収集は困難であり，購買履歴の一部は会員カードの識別情報

(ID)

をもたず，店舗スタッフが会計時に外見から推定して入力した利用者の性別や年代の情報しか含まない．したがって収集されるデータはユーザ個人のデータとユーザ集団のデータから成ることとなる．よって，会員ユーザの購買履歴が十分収集されていないときには，非会員ユーザの購買履歴を利用し補うという，異粒度データ分析のアプローチが有用となる．例の二つ目は自社・他社のデータを組み合わせたデータの分析である

(

図

1 (b))

．位置情報サービスを提供する

foursquare

^（注1）や

Yelp

^（注2）などのソーシャルデータでは，個人情報保護の観点からユーザ個人の

（注1）：http://gnip.com/sources/foursquare/

（注2）：http://www.yelp.com/dataset challenge

(2)

図1 異粒度データ分析の適用例

Fig. 1 Application examples of inconsistent resolution dataset analysis.

店舗訪問履歴は非公開であり，ユーザ集団の店舗訪問履歴，例えばある店舗を

“

女性

”

が何人訪問しているか，という履歴のみが公開されている．したがって，

自社でもつ自社サービス利用者の個人のデータと上記のソーシャルデータを組み合わせて分析する場合，異粒度データ分析が必要となる．

本研究では，異粒度データ分析のための新たな手法を提案する^（注3）．提案する異粒度データ分析手法は，

多様な研究分野でその有効性が確認されている，非負値行列分解

(NMF: Non-negative Matrix Factoriza- tion) [2]

〜

[4]

を拡張することで構築する．まずはじめに異粒度データ分析の基本的な設定として，

(A1)

共通ユーザ集合，

(A2)

独立同分布という二つの仮定が満たされる状況に注目する．これらの仮定

(A1)(A2)

と

NMF

の定式化を用いることで，高解像度・低解像度データを同時に分析する手法，確率的非負値異粒度集合行列分解

( pNimf : probabilistic non-negative inconsistent-resolution matrices factorization)

を提案する．この手法により，単独のデータのみを利用する場合よりも正確にデータを分析することが可能となる．例えば，前述した会員・非会員の購買履歴への適用では，行列中の欠損値補完の精度を向上させることで，より正確に会員・非会員の商品購入量を予測することが可能となる．また，会員と非会員両方の購買傾向を反映した購買パターンの抽出が可能となる．

提案手法

pNimf

は低解像度行列の背後に潜在的に存在する潜在高解像度データを含めたデータ生成過程を考えることで導かれる数理的な正当性をもつ手法である．仮定

(A1)

から潜在高解像度データを定義でき，仮定

(A2)

より高解像度データと低解像度データの間に関係性が導入できる．仮定

(A1)(A2)

は異粒度データ分析における全ての問題において成り立つこと

（注3）：本論文は国際会議予稿論文[1]の内容を発展させたものである．

が想定できるわけではないが，この関係性を用いたアプローチはより一般的な問題を解く際の基盤となりうる．本論文では，上記二つの仮定とは異なる状況，異なる仮定が必要となる際の提案手法

pNimf

の拡張方法についても示す．

本論文の構成は次のとおりである．

2.

^{で関連研究，}

3.

で提案手法について述べる．

4.

^{で提案手法の有効} 性を実験的に検証し，

5.

で提案手法の拡張例を示す．

6.

がまとめである．

2.

^{関連研究}

非負値行列分解

(NMF) [2], [3]

は入力となる行列を要素が非負の行列の積へ因子分解する手法である．因子分解の結果を利用することでソフトクラスタリングや行列中の欠損値の補完に利用することができることが知られている．

NMF

は多様な損失関数を取り扱うことが可能であるため，適切な損失関数を選ぶことで映画の評価ログや文書集合，購買履歴など多様な種類のデータに適用することが可能である

[4]

．加えて，損失関数として一般化カルバック

–

ライブラーダイバージェンスを用いる際には

NMF

は確率的潜在意味解析

(PLSI: probabilistic latent semantic in- dexing) [5]

と呼ばれる潜在的ディリクレ配分法

(LDA:

latent Dirichlet allocation) [6]

の基となった情報検索における著名な手法と等価であることも示されている

[7]

．これらの事実から，

NMF

は機械学習における核となる技術の一つであると考えられるため，我々は

NMF

を拡張することで提案手法の構築を行うことを考えた．

近年，複数のデータを統合して分析する手法として集合的行列分解

(CMF: Collective Matrix Factoriza-

tion)

または複合行列分解

(MMF: Multiple Matrix

Factorization)

などと呼ばれる複数の行列を同時に分解する技術が提案されている

[8]

．

NMF

における同種

(3)

の拡張もなされており

[9], [10]

，

Non-negative Multi- ple Matrix Factorization (NMMF)

と呼ばれる技術が存在する

[10]

．これらの手法は複数の行列，すなわち複数のデータの情報を組み合わせることで，単一の行列のみの利用と比べて性能が改善することが報告されている．しかしながら，これらの手法はデータ間の解像度の違いを考慮して設計されてはいない．また，

集合的行列分解とは別の文脈で，相本らは行列分解時に集約データ

(

本論文における低解像度行列に相当

)

の情報を組み合わせる手法の提案を行っている

[11]

．しかしながら，その手法は粒度の異なるデータが厳密に同一のデータを表現している状況に特化したものであり，異粒度データ分析の基礎手法としては適切ではない．

3.

提案手法

3. 1

定式化

この章では，

(A1)

共通ユーザ集合，

(A2)

独立同分布という二つの仮定が満たされる状況における異粒度データ分析の問題に注目する．これらの仮定の厳密な説明の前に，まず直感的な説明を与える．あるスーパーマーケットで会員カードを

12

月から発行し，それ以後はその店舗の全利用者は利用時に会員カードを提示しなければならなくなったとしよう．すると，

11

月の時点では会員カードが存在していないため，図

2

に示すように，

11

月の購買履歴は低解像度データ，

12

月の購買履歴は高解像度データとして表現される．なお，

11

月の購買履歴に性別や年代などのユーザ属性情報が記録されているのは，利用者の会計時に店舗スタッフが外見から推定して入力していることを想定し

図2 観測データと非観測データの例 Fig. 2 Example of observed and unobserved data.

ている．この例においては，仮定

(A1)

は

11

月と

12

月の全店舗利用者の集合は等しいこと

(

何らかの商品を購入したか否かは問わない

)

，仮定

(A2)

は

11

月と

12

月で各ユーザの商品購入確率は一定であるとすること，に相当する．以後我々はこの購買履歴解析の例を用いて説明し，記号の定義はこの例に従う．ただし，

我々の研究はこの例のみに限られることはなく，より一般的な状況についても

3. 4

^{で説明する．}

記号の定義：

I

，

J

，

K

をそれぞれユーザ，商品，ユーザ属性の総数とする．行列

X

をその要素

x

_ijが

12

月におけるユーザ

i

による商品

j

の購入数，行列

Y

をその要素

y

_kjが

11

月におけるユーザ属性

k

による商品

j

の購入数を表す行列であるとする．行列

X

^が高解像度行列，行列

Y

が低解像度行列に対応する．これに加えてユーザのユーザ属性に関する情報も利用可能であるとする．会員カードを作る際に性別や年代などのユーザ属性を入力することは通常要求されるため，

この仮定は決して強いものではない．このユーザ属性情報を行列

V = { v

_ik

}

_i,k^I,K=1で表す．要素

v

_ik

∈ { 0, 1 }

は，ユーザ

i

がユーザ属性

k

であるときに

1

，そうでなければ

0

をとるものである．

潜在高解像度行列：続いて，潜在高解像度行列

Z

を定義する．この行列は提案モデルを構築するにあたり重要な役割を果たす．行列

Z

^は，^「もしも

11

月に会員カードが発行されていたら」収集されたはずの

11

月の高解像度データを表す行列として定義する．すなわち行列

Z

は，低解像度データの背後に存在する隠れた高解像度データを表す．しかしながら，行列

Z

^に対応する潜在高解像度データに含まれるユーザは観測不可能であるため，行列

Z

を表現するのに必要な行数がわからない．そのために仮定

(A1)

を利用することでこの問題を回避する．すなわち仮定

(A1)

のフォーマルな定義は次のとおりである．「高解像度行列

X

^と潜在高解像度行列

Z

におけるユーザ集合は同一である」これによって行列

Z

の行数は行列

X

と等しい

I

行とできる．すなわち，各要素

z

_ijはユーザ

i

による商品

j

の

11

月における購入数を表すとできる．非常に重要なことに，この定義によって行列

Y

^と

Z

^の間には

Y = V

^T

Z

という関係が導入される．これは

y

_kj の値は定義から，ユーザ属性

k

であるユーザ

i

の購入量

z

_ijを足し合わせたもの，

y

_kj

=

i

v

_ik

z

_ijであることを考えれば明らかである．

3. 2

確率モデル

この節で提案する確率モデルについて述べる．

(4)

ユーザ因子行列と商品因子行列をそれぞれ行列

A := {a

ir

}

^I,R_i,r=1，

B := {b

jr

}

^J,R_j,r=1で定義する．

R

は因子数を表す．各因子行列は，ベクトル

(a

_i1

, · · · , a

_iR

)

，

(b

_j1

, · · · , b

_jR

)

がそれぞれユーザ

i,

商品

j

の潜在的な特徴を表し，購買傾向の観点で類似するユーザまたは商品が類似するベクトルとなる．加えて，因子行列の積を

X ˆ = AB

^Tで定義する．行列要素は

ˆ x

_ij

=

r

a

_ir

b

_jr で与えられる．購買データの分析では，一般的に購買数をポアソン分布によりモデル化することが多い

[12]

．よって本論文では，ポアソン分布を用いた確率モデルの構築を行う．ポアソン分布

PO

の密度関数は以下のように書き下せる．

PO(x

ij

|ˆ x

_ij

)

= exp {− x ˆ

_ij

+ x

_ij

log(ˆ x

_ij

) − log Γ(x

_ij

+ 1) } .

ポアソン分布を用いた

NMF

のモデルでは，行列

X

の生成確率を次の式で定義する．

p( X|A , B ) =

I,J i,j=1

PO (x

_ij

| x ˆ

_ij

). (1)

なお，入力行列の要素がユーザの商品に対する評価値などを表すときには，正規分布を用いたモデル化を行う場合もあるが，以後の議論は正規分布を用いた確率モデルでもほぼ同様に成り立つ．

我々は次の三つのステップにより，提案する確率モデルを構築する．

(Step-1)

行列

X

^と

Z

^{を生成する確} 率分布を定める．前述のようにここではポアソン分布に従うとする．

(Step-2)

仮定

(A2)

独立同分布，を利用する．ここでこの仮定

(A2)

の厳密な定義を与える．

それは，「行列

X

と

Z

の同じ添え字の要素

x

_ijと

z

_ij は同一の確率分布

(

今回の場合，パラメタ

x ˆ

_ijのポアソン分布

)

に従い，それらは相互に独立である」というものである．仮定

(A2)

は購買データを得た月には依存しない因子を得ることを助ける効果がある．

(Step-3)

前の章で述べた潜在高解像度行列

Z

と低解像度行列

Y

^の関係

(y

_kj

=

i

v

_ik

z

_ij

)

を利用する．これらを全てまとめると，行列

X

^，

Z

^，

Y

^{の生成確率は}

p( X , Z , Y |A , B , V ) (2)

=

i,j

PO (x

_ij

| x ˆ

_ij

) PO (z

_ij

| x ˆ

_ij

)

×

k,j

δ

y

_kj

−

i

v

_ik

z

_ij

,

と表現される．ただし，

δ(·)

はデルタ関数である．

図

3 (a)

は上記の提案手法におけるデータ生成過程の

グラフィカルモデル表現を表す．潜在高解像度行列

Z

を導入することで，全データの生成確率を自然に定義することができている．しかしながら，行列

Z

は

I

行

J

列というサイズの大きい行列であり，より取り扱いの容易な形式に変換することがパラメタ推定を考えるうえでは重要である．

ここで鍵となるものが，ポアソン分布の性質「ポアソン分布に従う確率変数の和はポアソン分布に従う」

というものである．我々のモデルにおいては

z

_ijはポアソン分布に従う確率変数であり

y

_kjはその和として定義されている．これを使うと式

(2)

より行列

Z

^を周辺消去することが可能であり，次のような提案モデルの等価な表現を導くことができる．

p( X , Y |A , B , V ) =

p( X , Z , Y |A , B , V )d Z

=

i,j

PO(x

ij

|ˆ x

_ij

)

k,j

PO(y

kj

|ˆ y

_kj

), (3)

where y ˆ

_kj

=

R r=1

c

_kr

b

_jr

and c

_kr

=

I i=1

v

_ik

a

_ir

. (4)

図

3 (b)

がこの表現におけるグラフィカルモデルを表

す．行列

C := {c

kr

}

^K,R_k,r=1がユーザ属性の因子行列を表すとみなすことで，式

(3)

は高解像度行列と低解像度行列を因子行列

A

^と

C

^{がユーザ属性行列}

V

^を用いた線形制約

C = V

^T

A

を満たすという条件を課したもとで同時に因子分解した手法であるとみなすことができる

(

図

4)

．よって我々はこの提案手法を

Probabilistic Non-negative Inconsistent-resolution Matrices Fac- torization ( pNimf )

と呼ぶこととする．なお，因子行列間の線形制約

C = V

^T

A

^{を除くと提案手法}

pNimf

は既存の集合行列分解手法の一つである

(NMMF) [10]

と一致する．よって，

pNimf

は

NMMF

の拡張手法であるとみなすこともできる．

3. 3

推定アルゴリズム

提案手法

pNimf

のパラメタ推定アルゴリズムは

NMF

における導出とほぼ同様の手続きにより導くことができる．式

(3)

に対数をとったものを目的関数，

式

(4)

は線形制約であるとみなす．

A

^，

B

^，

C

^が推定対象となる変数である．アルゴリズムの方針は，目的関数を直接最大化するのではなく，目的関数の下界の最大化を通して間接的に最大化を行うというものであ

(5)

図3 提案手法のグラフィカルモデル．影付きのノードが観測変数を表す．図(a)が式(2) で表現される提案手法のデータ生成過程，図(b)が式(2)から潜在高解像度行列Z を周辺消去した，式(3)(4)で表現されるデータ生成過程を表す．図(c)は，3. 4 で述べる複数の低解像度行列・高解像度行列が利用できる一般化した設定における提案手法のデータ生成過程である．

Fig. 3 Graphical models. Shaded nodes indicate observed variables. Figure (a) represents the original deﬁnition of the proposed model described in Eq. (2). By marginalizing out Z, Fig. (b) which is described in Eq. (3) is obtained. Figure (c) represents generalized model stated in3. 4.

図4 提案モデルの図3 (b)の表現に対応する因子分解形 Fig. 4 Factorization form which corresponds to

Fig. 3 (b).

る．目的関数の下界

F

はイェンセンの不等式を適用することで導出することができる．

F =

i,j

−

^R

r=1

a

_ir

b

_jr

+ x

_ij

R r=1

s

_ijr

log a

_ir

b

_jr

s

_ijr

+

k,j

−

^R

r=1

c

_kr

b

_jr

+ y

_kj

R r=1

t

_kjr

log c

_kr

b

_jr

t

_kjr

,

ただし，

{ s

_ijr

}

^と

{ t

_kjr

}

は補助変数，等号成立条件は次のとおりである．

s

_ijr

= a

_ir

b

_jr

_R

r=1

a

_ir

b

_jr

, t

_kjr

= c

_kr

b

_jr

_R

r=1

c

_kr

b

_jr

. (5)

下界

F

^{を微分して}

0

とおき

(

_∂a^∂F

ir

= 0)

，補助変数の

値を式

(5)

のそれへと置き換えることで

a

_irの更新式が導かれる．

b

_jrの更新式も同様に導かれ，

c

_krの更新式は線形制約の式そのものである．更新式は次のとおりである．

a

^new_ir

← a

_ir ^j

x_ij

xˆ_ij

b

_jr

+

k

j

v

_ik^y_y_ˆ^kj

kj

b

_jr

j

b

_jr

+

k

j

v

_ik

b

_jr

, (6)

b

^new_jr

← b

_jr ⁱ

x_ij

xˆ_ij

a

_ir

+

ky_kj yˆ_kj

c

_kr

i

a

_ir

+

k

c

_kr

, (7)

c

^new_kr

←

i

v

_ik

a

_ir

. (8)

なお，本論文では観測データを表す行列中に欠損値がある場合の扱いは省略したが，通常の

NMF

における欠損値の取り扱いとほぼ同様に適用可能である．

3. 4

一般化

最後に提案手法

pNimf

がより一般的な異粒度データ解析の設定においても適用可能であることについて述べる．

3. 1

で我々は高解像度データと低解像度データがそれぞれ

1

ヶ月分の購買履歴であるという例を示した．しかし，仮定

(A1)

と

(A2)

が満たされているかぎり，提案手法は任意の設定に対して適用可能である．例えば，複数個の高解像度データと低解像度データが利用可能であることを考える．この場合においても

pNimf

は若干の修正を加えることでそのまま適用することができる．

M

を高解像度データの個数，

X

^m

= { x

^m_ij

}

^を

m

番目の高解像度データを表す行列であるとする．同様に，

N

を低解像度データの個数，

(6)

Y

ⁿ

= {y

ⁿ_kj

}

を

n

番目の低解像度データを表す行列であるとする．各

m

や

n

は必ずしもデータが収集された日・週・月などの時間に対応する必要はなく，県・

国などの場所に対応するものであってもよい．図

3 (a)

で表現されていた提案手法のデータ生成過程を図

3 (c)

の示すものへと拡張することで，式

(6)(7)

を修正した次のパラメタ更新式が求まる．

a

^new_ir

← a

_ir

M

j x¯_ij

xˆ_ij

b

_jr

+N

k

j

v

_ik^y_y^¯_ˆ^kj

kj

b

_jr

M

j

b

_jr

+N

k

j

v

_ik

b

_jr

, (9)

b

^new_jr

← b

_jr

M

i x¯_ij

xˆij

a

_ir

+ N

k y¯_kj yˆkj

c

_kr

M

i

a

_ir

+ N

k

c

_kr

, (10)

ただし，

x ¯

_ij

=

_M¹

_M

m=1

x

^m_ij，

y ¯

_kj

=

_N¹

_N

n=1

y

ⁿ_kjである．

4.

実験

4. 1

実験設定

この章では，人工データと実購買データを用いて提案手法の有効性を確認する．

人工データ：人工データは，式

(2)

の確率モデルを用いてサイズが

I = 100

，

J = 100

，

K = 10

である高解像度行列と低解像度行列を作成した．ユーザ属性行列

V

^は，

I/K = 10

行ずつ異なる値となるよう，要素

v

_ikの値を

i/K

の商が

k

であるとき

v

_ik

= 1

，そうでなければ

v

_ik

= 0

と設定した．データを生成する際の因子行列

A

，

B

の値はガンマ分布から生成したランダムな値を利用した．データ生成の際の因子数

R = 5, 10, 20

ごとにガンマ分布のパラメタを調節することで，確率モデルから生成される高解像度行列

X

のスパースネス

(

行列中の値がゼロとなる要素の割合

)

の異なるデータを作成した．作成した高解像度行列

X

のスパースネスは約

50%

，

90%

，

99%

であり，それらに対応する低解像度行列

Y

^{のスパースネスは約}

10%

，

40%

，

80%

である．

実購買データ：実購買データには株式会社インテージの消費者パネルデータ

“SCI”

を利用する．特に我々は

2013.1.1

から

2013.12.31

までの期間の牛乳，コーヒー菓子類などの日用品項目に関する購買履歴を用いる．これらの項目は各月で繰り返し購買される商品であることから，仮定

(A2)

の独立同分布という仮定は満たされていると期待できる．このデータにはユーザ

の年齢と性別の属性情報も含まれている．我々はこのデータから，

Two-month

データと

Four-month

データの

2

種類の実験用データを作成する．

Two-month

^は図

2

で示したように

11

月と

12

月の購買データを用いて作成する．なお作成するうえでは，仮定

(A1)

が満たされるケースを取り扱うため，両方の月で

10

回以上購買を行うユーザの履歴を用い，商品は購買履歴中に

10

回以上現れたものを用いた．作成した行列のサイズは

I = 1589

，

J = 3164

，

K = 34

となり，行列

X

^Decと

Y

^Novのスパースネスはそれぞれ，

99.15%

，

54.4%

となった．この手続きを

1

月と

2

月のデータに対しても適用する．得られた行列のサイズとスパースネスは

11

月と

12

月のデータから作成したものとほぼ同様である．

Four-month

^{データの作成も}

9

月，

10

月，

11

月，

12

月のデータを用いて同様に作成する．

12

月の購買履歴を表す高解像度行列

X

^Decとそれ以外の各月の低解像度行列

Y

^Nov，

Y

^Oct及び

Y

^Sepを作成した．得られた行列のサイズは

I = 1288

，

J = 4842

，

K = 34

となった．

評価指標：この実験ではテストデータに対する対数ゆう度を評価尺度として利用する．行列

X

の要素を学習用データとテスト用データに分割し，学習用のデータのみを用いて推定した因子行列を用いて，テストデータの生成確率を正しく表現できているかを評価する．テストデータとされた要素は学習時には欠損要素として扱う．テストデータに対する対数ゆう度は

1

|T |

(i,j)∈T

log PO x

_ij

x ˆ

_ij

として定義される．ただし，

T

はテストデータとされた行列要素の添え字全体を表し，

| · |

で集合中の要素数を表す．行列要素中から

5%

の非ゼロ要素をランダムに抽出することで，学習・テストデータの組を

10

組作成して実験を行った．

比較手法：比較手法には次の二つを利用した．

(1) NMF [2]

，単一の行列を因子分解する手法．高解像度行列

X

のみを因子分解して学習結果を得る．

(2) NMMF [10]

，

NMF

を複数の行列を同時に分解できるよう発展させた拡張手法．

X

と

Y

を同時に因子分解することで学習結果を得る．内部の行列

Y

に関する重要度を定める重みパラメタには，

α = 0.1, 0.5, 1.0

という候補の中でもっとも優れた値を示した

α = 1.0

を利用する．

4. 2

実験結果

まず人工データを用いた実験結果を表

1

に示す．行列

X

^{のスパースネス}

50%

，因子数

R = 5, 10

における結果に着目すると，

3

手法はほぼ同等程度の性能を

(7)

表1 人工データを用いた実験結果：行列Xのスパースネスと生成時の因子数Rの異なる各設定におけるテストデータに対する対数ゆう度を表す．学習時に利用した因子数は生成時の因子数と同一のものを利用した．表中の値が平均と標準偏差を表す．平均値が大きいほど良い．スパースネス99%の設定では平均と標準偏差ともに10で割った値を示す．

Table 1 Result ofsyntheticdata: test log-likelihood forX determined with diﬀerent sparseness values. Average and standard deviation are shown. Larger values are better. Scores and standard deviation are divided by ten in the 99% sparseness setting.

Sparseness R NMF NMMF pNimf

X: 50%

Y: 10%

5 −2.77(±0.17)−2.71(±0.10)−2.66(±0.09) 10−2.72(±0.18)−2.54(±0.09)−2.42(±0.04) 20−16.7(±20.1)−3.11(±0.18)−3.09(±0.21) X: 90%

Y: 40%

5 −6.71(±2.13)−4.11(±0.97)−3.48(±0.69) 10−5.26(±0.92)−3.28(±0.45)−2.96(±0.23) 20−21.5(±4.38)−7.57(±1.28)−5.72(±0.48) X: 99%

Y: 80%

5 −5.44(±1.82)−3.62(±1.73)−2.04(±1.12) 10−6.64(±3.52)−7.05(±2.62)−4.59(±1.67) 20−17.0(±32.7)−7.43(±3.37)−6.64(±3.13)

表2 Two-monthデータを用いた実験結果：各因子数R

におけるテストデータに対する対数ゆう度を表す．

表中の値が平均と標準偏差を表す．平均値が大きいほど良い．

Table 2 Result ofTwo-monthdata: test set log- likelihood varying the number of fac- tors,R. Average and standard devia- tions are presented. Larger values are better.

Data R NMF NMMF pNimf

SCI X^Feb&

Y^Jan

10 −13.3±0.63 −7.89±0.38 −7.84±0.17 20 −18.7±1.95 −9.14±0.48 −8.81±0.20 50 −32.7±2.15 −11.8±0.48 −10.4±0.33 SCI

X^Dec&

Y^Nov

10 −13.9±0.99 −8.24±0.59 −7.83±0.23 20 −14.4±0.73 −8.95±0.37 −8.68±0.27 50 −32.59±2.17 −12.32±0.50 −10.45±0.30

発揮していることが確かめられる．しかし，スパースネスが更に上がり，

90%

の設定では

NMMF

と提案手法が

NMF

を上回り，更に

99%

の設定では提案手法が

NMMF

より優れた性能を示している．この結果から，

提案手法は入力行列がよりスパースである場合に，既存手法よりも優れた性能を発揮すると考えられる．

次に実データである

Two-month

^{データを利用した} 結果を表

2

に示す．提案手法

pNimf

と

NMMF

が因子数の値によらず

NMF

を上回る性能を示していることが分かる．この結果は低解像度行列を利用することが性能向上をもたらすことを示している．加えて，提案手法の性能は

NMMF

よりも優れたものとなっている．また，その差は因子数の値が大きいときに，より大きくなり，提案手法が因子数の設定に対してロバス

図5 Four-monthデータを用いた実験結果：各低解像度行列の数N におけるテストデータに対する対数ゆう度を表す．ヒストグラムの高さとエラーバーが平均と標準偏差を表す．平均値が大きいほど良い．

Fig. 5 Result ofFour-monthdata: test set log-likelihood varying the number of low-resolution data,N.

トであることも確認できる．これは提案手法が，因子行列間の線形制約を導入することによって，行列間の粒度の違いを考慮しながら因子分解を行うことができることに由来する効果であると考えられる^（注4）．

最後に

Four-month

データを用いて，低解像度行列の数が性能に与える影響について調べる．提案手法の因子数

R = 10

と設定し，学習時に利用する低解像度行列の数

N

を変えて因子分解を行い評価を行う．図

5

にその結果を示す．利用する低解像度行列の数が増えるにつれて提案手法の性能が向上していることが分かる．修正したデータ生成過程により提案手法は複数の低解像度行列が存在する状況でも適用できることから，

各行列の数が異なる状況でも因子分解を行うことが可能であることが確かめられた．

5.

提案技術の拡張例

これまでの章で，二つの仮定

(A1)(A2)

が満たされる異粒度データ解析問題に注目し，新たな確率モデルを提案・その有効性を検証した．ここで注意しなければならない点は，高解像度行列と低解像度行列の間に導入することができる関係性は問題設定に応じて変わりうるため，提案した確率モデルが異粒度データ解析の全ての問題に対する妥当なモデリングになるとは限らない，ということである．しかし，この手法を基礎に据えた拡張を考えることで，多くの異粒度データ解析の問題が解決可能になると我々は考えている．そこで本論文の最後に，提案モデルの拡張によりどのように新たな技術を創出することができるかの例を示す．

（注4）：この結果は，人工データの結果と整合性がとれている．Two- monthデータのスパースネスは(X：99.15%，_Y：54.4%)であり，低解像度行列のスパースネスの値から，人工データの設定(X：99%，_Y： 80%)と(X：90%，Y：40%)の中間的な設定に相当する．

(8)

5. 1

定式化

ここでは，会員・非会員購買履歴という異粒度データが

3. 1

で示したものとは違ったプロセスで作られた状況を考える．

3. 1

^{の例では，}

12

月から会員カードが発行・提示が必要とされる状況を考えたため，

11

月の利用者と

12

月の利用者が同一であるという仮定

(A1)

共通ユーザ集合を置くことができた．しかしながら，コンビニエンスストアなど，非会員ユーザも利用することが可能な店舗で収集されるデータは，会員ユーザと非会員ユーザが常に混在し，またそれぞれ異なるユーザ群に対応するため，これまで用いた仮定

(A1)

共通ユーザ集合を利用することは一般には適切ではない．その理由を図

6

を用いて説明する．

図

6

は会員と非会員のユーザ群が異なる場合に起こりうる状況の例である．図

(a)(b)

の違いは，会員と非会員における各属性ごとの人数がほぼ同一であるか，

それとも大きく異なるかにある．図

6 (a)

の設定においては，

3.

で示した提案手法に一定の妥当性があるが，

(b)

の設定の場合は妥当性を失う．なぜなら，提案手法でおいた仮定

(A1)(A2)

は，結果的に「各属性ごとの各商品の総購買量が会員・非会員で同程度である」ことを想定している．これは図

(a)

の状況ではおおむね適当であるのに対し，図

(b)

の設定では明らかに不適当なためである．

そこでここでは新たな仮定として，「同一属性の会員購買履歴と非会員購買履歴はおおよそ比例する」という新たな仮定

(A3)

属性購買数比例，を導入したアプローチを考える．会員購買履歴を表す

(

高解像度

)

図6 会員と非会員のユーザ群が異なる状況の例．(a)の設定では3.で示した提案手法を適用することは妥当性が保たれる一方，(b)の設定では会員と非会員の属性ごとの人数の違いから総購買量が大きく異なりうるため，手法の拡張が必要となる．

Fig. 6 An example where a user set of members and that of non-members are diﬀerent. Proposed method shown in3.can be applied to the case of (a).

However, it is not appropriate in the case of (b) since the purchase volume of members and that of non-members are greatly diﬀerent.

行列を

X,

非会員購買履歴を表す

(

低解像度

)

行列を

Y

と書く．属性

k

の会員購買履歴は

_I

i=1

v

_ik

x

i，非会員購買履歴は

y

kで与えられるから，仮定

(A3)

の比例関係は数式

y

k

∝

_I

i=1

v

_ik

x

iで表現できる．属性

k

の会員が一定数存在するならば，この仮定を置くことはきわめて自然であると考えられる．したがって我々はこの比例関係が因子行列を用いて再構成する行列

X ˆ

^，

Y ˆ

に成り立つ因子分解形を考える．対角行列

D := diag( { d

_k

}

_k^K=1

)

をその要素

d

_kが属性

k

の比例定数を表すとすると，比例関係が成り立つには

Y ˆ = DV

^T

X ˆ (11)

が満たされれば良い．行列

X ˆ

の因子分解形には

NMF

と同じ

X ˆ = AB

^Tという形を用いることとし，式

(11)

に代入すると，行列

Y

の因子分解形は以下とすればよいことがわかる．

Y ˆ = DCB

^T

, C = V

^T

A . (12)

これをまとめると，次のような確率モデルを考えれば良いことがわかる．

p(X, Y |A, B, C, D, V )

=

i,j

PO (x

_ij

| x ˆ

_ij

)

k,j

PO (βy

_kj

| β y ˆ

_kj

),

where y ˆ

_kj

=

R r=1

d

_k

c

_kr

b

_jr

and c

_kr

=

I i=1

v

_ik

a

_ir

.

ただし

β

は重みパラメタであり，データ量の違いによ

(9)

図7 拡張した提案モデルの因子分解形 Fig. 7 Factorization form of the extended method.

り非会員データが目的関数で支配的にならないようにコントロールするものである．この確率モデルに対応する行列分解形は図

7

で与えられる．

3.

の図

4

で示した行列分解形と比較すると，対角行列

D

^が新たに導入されている点が異なり，拡張された定式化であることがわかる．パラメタ更新アルゴリズムの導出を行うと，行列要素

a

_ir，

b

_jr，

c

_kr，

d

_kの更新式は次のように与えられる．

a

^new_ir

← a

_ir ^j

x_ij

xˆij

b

_jr

+ β

k

d

_k

v

_ik

jy_kj yˆkj

b

_jr

j

b

_jr

+ β

k

d

_k

v

_ik

j

b

_jr

, b

^new_jr

← b

_jr ⁱ

x_ij

xˆ_ij

a

_ir

+ β

ky_kj yˆ_kj

d

_k

c

_kr

i

a

_ir

+ β

k

d

_k

c

_kr

, c

^new_kr

←

i

v

_ik

a

_ir

, d

^new_k

←

j

y

_kj

r

c

_kr

(

j

b

_jr

) .

5. 2

実験

実験には，

4.

と同じく株式会社インテージの

“SCI”

データを利用する．ただしデータ作成方法は前回とは異なり，購買データを月別に分けるのではなく，データ中のユーザからランダムに抽出した

5%

，

10%

，

20%

，

40%

を会員，残りを非会員として取り扱い，会員購買履歴より行列

X

，非会員購買履歴より行列

Y

^を作成する．ここで，解析対象とするユーザ・商品はそれぞれ

50

回以上，

30

回以上購買履歴中に存在するユーザ・商品に限定した．作成したユーザ

(

会員と非会員両方を含む

)

と商品の総数はそれぞれ

5000

，

7000

となった．

比較手法と評価指標は

4.

の実験と同一のものを利用する．なお，

NMMF

と提案手法の重みパラメタの値は，会員購買履歴と非会員購買履歴を対等に扱うよう人数の比率

(

会員数

/

非会員数

)

を用い，

β = 0.05, 0.11, 0.25, 0.66

と設定した．

図

8

に実験結果を示す．会員比率によらず提案手法と

NMMF

は

NMF

より優れた結果が得られている．

図8 各会員ユーザ比率におけるテストデータに対する対数ゆう度を表す．青，赤，緑色のヒストグラムがそ

れぞれNMF, NMMF,拡張した提案手法の結果を

示す．

Fig. 8 Test set log-likelihood varying the ratio of members and non-members. Blue, red and green histogram represent a result of NMF, NMMF and proposed method.

これは，非会員購買履歴の利用が性能向上に寄与することを示すといえる．その寄与の度合いに注目すると，

会員数が十分多い会員比率

40%

のときには効果が小さく，会員数の少ない会員比率

5%

，

10%

，

20%

のときに，より大きな性能向上がもたらされていることがわかる．提案手法と

NMMF

の結果を比較すると，会員比率

10%

，

20%

，

40%

のときにはほぼ同等の結果が得られている．しかし，会員数の非常に少ない会員比率

5%

のときには，提案手法は

NMMF

を上回る結果を示している．ここから，属性間の購買数の比例関係を明示的に導入することで，会員数が少なくデータが十分でない場合に，提案手法はより有効に非会員購買履歴を統合した因子分解が可能であると読み取れる．

6.

^{むすび}

本論文では，異粒度データ分析のための新たな手法を提案した．はじめに

(A1)

ユーザ共通，

(A2)

独立同分布という二つの仮定が満たされる状況に着目し，

潜在高解像度行列を用いたデータ生成過程を考えることで，異粒度データ分析のための新たな確率モデル

pNimf

を提案した．更にこの拡張により，上記とは別の仮定を要する状況で用いる手法が構築可能であることも示した．これらの結果は提案手法が異粒度データ分析問題を考える際の基盤的アプローチになりうることを示すと考える．

残された研究課題には，季節性などを導入することによるモデルの更なる拡張や，提案技術の性能の理論的解明が挙げられる．低解像度行列を用いることによる性能向上の度合いは高解像度行列と低解像度行列の粒度の違い

(

行数の違い

)

の大きさに影響すると考えられ，その理論的解析は今後の課題である．

(10)

文献

[1] M. Kohjima, T. Matsubayashi, and H. Sawada,

“Probabilistic non-negative inconsistent-resolution matrices factorization,” Proc. 24th ACM Interna- tional Conference on Information and Knowledge Management, pp.1855–1858, 2015.

[2] D.D. Lee and H.S. Seung, “Learning the parts of ob- jects by non-negative matrix factorization,” Nature, vol.401, no.6755, pp.788–791, 1999.

[3] D.D. Lee and H.S. Seung, “Algorithms for non- negative matrix factorization,” Advances in Neural Information Processing Systems, pp.556–562, 2001.

[4] A. Cichocki, R. Zdunek, A.H. Phan, and S. Amari, Nonnegative matrix and tensor factorizations: Appli- cations to exploratory multi-way data analysis and blind source separation, John Wiley & Sons, 2009.

[5] T. Hofmann, “Probabilistic latent semantic indexing,” Proc. 22nd Annual International ACM SIGIR Conference on Research and Development in Infor- mation Retrieval, pp.50–57, 1999.

[6] D.M. Blei, A.Y. Ng, and M.I. Jordan, “Latent Dirichlet allocation,” J. Machine Learning Research, vol.3, pp.993–1022, 2003.

[7] C. Ding, T. Li, and W. Peng, “On the equivalence between non-negative matrix factorization and probabilistic latent semantic indexing,” Computational Statistics & Data Analysis, vol.52, no.8, pp.3913–

3927, 2008.

[8] A.P. Singh and G.J. Gordon, “Relational learning via collective matrix factorization,” Proc. 14th ACM SIGKDD International Conference on Knowl- edge Discovery and Data Mining, pp.650–658, 2008.

[9] H. Lee and S. Choi, “Group nonnegative matrix factorization for EEG classiﬁcation,” International Conference on Artiﬁcial Intelligence and Statistics, pp.320–327, 2009.

[10] K. Takeuchi, K. Ishiguro, A. Kimura, and H. Sawada,

“Non-negative multiple matrix factorization,” Proc.

23rd International Joint Conference on Artiﬁcial In- telligence, pp.1713–1720, 2013.

[11] Y. Aimoto and H. Kashima, “Matrix factorization with aggregated observations,” Advances in Knowledge Discovery and Data Mining, pp.521–532, Springer, 2013.

[12] 阿部誠，近藤文代，マーケティングの科学—POSデータの解析—，朝倉書店，2005.

（平成28年6月27日受付，11月7日再受付，

29年1月6日早期公開）

幸島匡宏

2009年，東京工業大学工学部情報工学科卒業．2012年，同大学院総合理工学研究科知能システム科学専攻修士課程修了．同年，日本電信電話株式会社入社．以来NTT サービスエボリューション研究所にて，機械学習の研究に従事．

松林達史

2000年，京都大学理学部物理学科卒業．

2002年10月より2年半，理化学研究所非常勤研究員．2005年，東京工業大学大学院理工学研究科地球惑星科学専攻博士課程修了．同年，日本電信電話株式会社入社．

以来，NTTコミュニケーション科学基礎研究所，NTTサービスエボリューション研究所にて，グラフ可視化及び機械学習の研究開発に従事．博士(理学)．情報処理学会会員．

澤田宏（正員）

1991年，京都大学工学部情報工学科卒業．1993年，同工学研究科情報工学専攻修士課程修了．2001年，京都大学博士(情報学). 1993年，日本電信電話株式会社

(NTT)入社．以来，同社コミュニケーショ

ン科学基礎研究所及びサービスエボリューション研究所において，VLSI設計技術及び計算機アーキテクチャ，信号処理技術（音響信号の分離技術），機械学習技術

（多次元データ分析技術）の研究に従事．現在，NTTコミュニケーション科学基礎研究所協創情報研究部部長．日本音響学会，

IEEE各会員．

異粒度データ分析のための非負値行列分解に基づく確率モデル

論 文