第 4 章 Inter PPR の実現 29
4.5 データ表現と処理フロー
4.5.1 データの表現
ID管理組織は個人情報として,ユーザの IDとプロファイルを管理している(表4.2). 商店は,ID管理組織と提携しており,履歴データとして商品を販売したユーザのIDと商 品情報を管理している(表4.3).訪問者は,自身のプロファイルを携帯端末に保持してい る(表4.4). 表4.2,表4.3,表4.4のプロファイルと商品情報は多値であるが,これらを
表4.2 ID管理組織の個人情報
ユーザID プロファイル 性別 年代
1 男性 20代
2 女性 30代
4 男性 30代
5 女性 40代
6 男性 20代
7 男性 40代
8 女性 40代
表4.3 商店の履歴データ ユーザID 商品
1 本A
2 本A
3 本A,本B
4 本B
6 本A
7 本B
表4.4 訪問者のプロファイル プロファイル
性別 年代 男性 30代
表4.5,表4.6,表4.7のように二値で表現する.
ID管理組織が保有している表 4.2 の個人情報を表4.5 のように表し,これを図4.2 の ように,ユーザIDを表すベクトルtとプロファイルを表すマトリクスXで表す.tは図
4.2(a)のように,長さN のベクトルである.ベクトルtの長さはID管理組織の個人情報
に含まれるユーザ数に等しく,図4.2(a)の場合はN = 7である.tのn番目の要素をtn
表4.5 ID管理組織の個人情報の二値表現
t X
ユーザID 性別:男性 性別:女性 年代:20代 年代:30代 年代:40代
1 1 0 1 0 0
2 0 1 0 1 0
4 1 0 0 1 0
5 0 1 0 0 1
6 1 0 1 0 0
7 1 0 0 0 1
8 0 1 0 0 1
表4.6 商店の履歴データの二値表現
u Y
ユーザID 商品:本A 商品:本B
1 1 0
2 1 0
3 1 1
4 0 1
6 1 0
7 0 1
と表す.tnはn番目のユーザのIDを表し,図4.2(a)の場合はt1 = 1, t2 = 2, ..., tN = 8
である.Xは図4.2(b)のようにN 行V 列のマトリクスである.マトリクスX の列数は,
プロファイルの値の種類数に等しく,図4.2(b)の場合はV = 5である.vはプロファイル の値の識別子であり,v= 1は男性,v= 3は20代を表す.プロファイルの項目数をW と する.表4.5の場合,プロファイルの項目数は2種類(性別と年代)であるため,W = 2で ある.プロファイルの項目の識別子をwとする.wは1または2を取りうる.マトリク スX のn行,v列の要素をxn,v と表す.xn,v = 1/0は,ユーザtnがv番目のプロファイ ルの値を有する/有しないことを表す.図4.2(b)の場合,x1,1 = 1, x2,1 = 0, ..., xN,V = 1 である.
商店が保有している表4.3の履歴データを表 4.6のように表し,これをユーザIDを表
表4.7 訪問者のプロファイルの二値表現
´ x
性別:男性 性別:女性 年代:20代 年代:30代 年代:40代
1 0 0 1 0
(1,2,4,5,6,7,8)
(a)ユーザのIDのベクトル表現t
1 0 1 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0 1 0 0 0 1 0 1 0 0 1
(b)ユーザのプロファイルのマトリクス表現X
図4.2 ID管理組織の個人情報のベクトルとマトリクスによる表現
すベクトルuと商品情報を表すマトリクスY で表す.ベクトルuの長さは履歴データ に含まれるユーザ数 M に等しく,表4.6 の場合はu = (1,2,3,4,6,7),M = 6 である.
uのm番目の要素をumと表す.umはm番目のユーザのIDを表し,表4.6 の場合は u1 = 1, u2 = 2, ..., uM = 7である.マトリクスY は,M 行L列のマトリクスである.
マトリクスY の列数は,商品の種類数に等しく,表4.6の場合はL= 2である.lは商品 の識別子であり,l = 1は本A,l= 2は本Bを表す.マトリクスY のm行,l列の要素 をym,lと表す.ym,l = 1/0は,ユーザumがl番目の商品を購入した/していないことを 表す.表4.6 の場合は,y1,1 = 1, y2,1 = 1, ...,yM,L = 1である.購入数量の値を直接扱 うことも考えられるが,外れ値による精度の低下や,ある商品を流行させるために仲間内 で多数購入するチーティングの懸念を考慮し,ここでは購入した/しないの二値のみで扱 うことにする.なお,購入数量を扱う方法としては,1個購入,2個購入,...,10個以上 購入を別の商品として扱い,各々を0/1で表すことなどが考えられる.
訪問者が保有している表4.4の訪問者のプロファイルを表4.7のように表し,これを訪 問者のプロファイルを表すベクトルx´ で表す.ベクトルx´ の長さはプロファイルの値の 種類数に等しく,表4.7の場合はx´ = (1,0,0,1,0),V = 5である.x´ のv番目の要素を
´
xv と表す.x´v = 1/0は,訪問者がv番目のプロファイルの値を有する/しないことを表 し,表4.7の場合はx´1 = 1,x´2 = 0, ...,x´V = 0である.