Publication by Year Web Intelligence and Data Mining Laboratory TAAI ICC G5

(1)

基於重複式交叉分群的廣告使用者資料分析

巫孟倫

國立中央大學資訊

工程學系

[email protected]

張嘉惠

國立中央大學資訊

工程學系

[email protected]

劉睿哲

國立中央大學資訊

工程學系

[email protected]

范凱

國立中央大學資訊

工程學系

[email protected]

摘要

分群 (clustering) 於分析工作中扮演著重要基礎的角色，可用以將相似的資料進行分組，目前被廣泛地應用於市場資料分析除常見的單向對資料矩陣中的列分群之外，共分群則同時對列及行進行雙向分群(dyadic co-clustering) 本研究主要係透過共分群機制 (co-clustering) 將廣告及使用者資料進行分群，進而得到有利於分析的資訊透過交替使用相關性質的資料對應變表中的行列進行運算，使分群的表現更好本研究提出基於重複式交叉分群 (Iterative clustering) 的方法來實現共分群的目的；問題本質在於如何利用廣告資料使用者資料及廣告使用者鏈結資料等三個矩陣，讓廣告及使用者分群的結果能反應資料的群聚現象為了有效地的評估本研究所提出的方法，我們蒐集來自於 Morgenstern 社群網站中的使用者及廣告資料，並採用決策樹 (Decision Tree) 分類器的準確率做為驗證分群的可解讀性；此外並以 KL divergence 評估群組間的變異性實驗結果顯示本研究提出的重複式交叉分群法可達到較佳的效能

關鍵詞：共分群(Co-clustering) KL divergence 決策樹(Decision tree) 分群評估

1. 前言

網路廣告是一種廣告行銷的形式，主要係透過網際網路來刊廣告 Ad$Mart 則是 Umatch 社群網站所推出的一個網路廣告服務，Umatch 是標榜奠基在經營自我的 Web3.0 基礎上的社群網路平台，以金融理財為主的內容提供者一方面透過如財經奧林匹亞全球動態資產配置創意履歷等專業競賽聚集眾多的人才；另一方面配合 Ad$Mart 社群廣告經濟平台，讓使用者主動挑選廣告放置於個人自畫像中(Self-Portrait)，做為廣告的代言人有別於 Google Adsense 所提供的 contextual advertising 行銷方式 Umatch 服務包含社群入口 Lohas 生活模式解析 Ad$Mart 廣告連線大樂透 Self-Portrait 討論區等內容

Ad$Mart 與 Google Adsense 一樣對廣告主有低簾的廣告成本，以及打破 80/20 定律的長尾經濟效益優點最大不同之處在於，透過 Ad$Mart 使用者

可以分享利潤為自帶來收益因此在個人自畫像中同時成為廣告的代言人的同時，系統會提撥總廣告一定比例金額，由代言人依社群活躍點數共同分潤由於 Ad$Mart 採取與使用者分享利潤，並且由使用者挑選廣告的方式經營，在商業模式上與目前網路的廣告收費方法有區隔，但是如何提供廣告主更具體的流量，以及提供使用者最適合的廣告，則是創造廣告主使用者與平台三贏的關鍵

本篇論文的主軸主要專注在分群實驗，一方面要將不同廣告做適當的分群，一方面也要了解使用者是否有不同族群的現象藉以針對不同廣告主提供合適的建議以吸引適當的使用者讓廣告主能夠利用最低的成本以獲得最大的廣告效益傳統的分群架構，主要針對資料矩陣中的列做單向分群，並將每行的資料視為資料屬性以廣告與使用者矩陣來說，可以對廣告做分群，或是將矩陣轉置，對使用者做分群然而這樣分別進行分群結果，無法讓我們了解相同類型廣告和相同類型使用者之間的關係，我們希望知道的是甚麼樣類型的廣告會被什麼樣類型的使用者點選，而不是僅侷限於個別使用者的點選廣告模式分析

本篇論文著重在利用分群演算法對廣告及使用者進行觀察其中資料集包括廣告特性資料 (ad main) 廣告與使用者鏈結資料 (ad-user link) 以及使用者的 lohas 生活模式解析資料 (user lohas

game) 我們藉由交替使用應變表中的行列進行運

算，加以廣告資料矩陣與使用者 lohas 資料矩陣，為廣告和使用者分別進行分群，希望共分群 (Co-clustering)效果能較單獨分群的結果呈現更好更容易解讀的結果

我們主要提出兩種不同的共分群方法：3-staged clustering 及 Iterative cross co-clustering，運用於使用者相關資料集來評估效能為有效地評估本研究所提出的方法，我們藉由分類的方法來產生分群的依據，並以 Precision, Recall 及 F-Measure 為評估度量衡此外，為使驗證方式更佳完整，我們透過 KL divergence 來評估群體之間的變異性換言之，當變異性越大，代表各群之間的差異性也就越大，表示分群出來的效果較佳我們現當依廣告資料特性分群，群的分佈主要和廣告金額的設定以及鏈結廣告的總人數相關；如果採用使用者每天鏈結廣告的資料做分群，群的分佈主要係和使用者鏈結廣告次數的多寡有關另外，使用者的個人特徵於

(2)

lohas 問卷表現出來的結果也可應用於鑑別使用者的族群

2. 相關研究

傳統的分群議題，大部分著重於單向的資料分群近幾年來，陸續有一些學者提出共分群 (Co-clustering)的概念，因為單向的資料分群，無法觀察雙維的資料關係共分群的主要議題，是可以雙向對行與列的資料同時進行分群有許多研究利用了簡單的數學模型以及最佳化的技巧，來解決共分群的問題

Dhillon[4]利用共分群來解決文件和辭彙之間的關係，透過共分群，我們可以觀察哪些類型的文件，會出現哪些辭彙，這樣的技術，有助於我們在設計搜尋系統時，為文件和關鍵字標註索引有非常大的幫助；而 Hanisch D 等人[3]，想了解什麼樣的基因分佈會對應到怎樣的資料描述，於是它們利用共分群的方式，來解決了這樣的問題

在這篇論文中，我們想透過共分群的方式，了解使用者與廣告類型的分佈，並透過分類的方式來預測我們的分群準確度

目前有許多共分群的研究[2,4]，其中以 2003 年由 Dhillon 等人提出的以資訊理論為基礎的共分群方法”Information-theoretic co-clustering”[5]，最為熱門，他們將文件和詞彙之間的關係視為一種聯合機率(joint probability distribution)的問題，並利用最小化分群前後行列兩個變數的 Mutual Information Loss，來達到共分群；隔年，他們提出利用 Bregman divergence 來取代 K-L divergence[1]，以解決資料矩陣中值為負的共分群問題，並用最佳化演算法達到共分群

本報告第三章將描述實驗所採用的資料集；第四章介紹應用的共分群演算法第五章為實驗結果，第六章則為最後的總結與未來研究方向

3. 資料描述及前處理

本研究主要涉及的資料包含 2009/05~2009/9 區間，刊於 Ad$Mart 平台上的廣告特性資料 ad main 廣告鏈結資料 ad-user link 及使用者的生活模式解析資料 (user lohas game)，我們首先針對各資料進行簡單介紹，接著描述資料前處理 1. 廣告特性資料(Ad feature matrix)

每個廣告主對於廣告的播放方式可以設定廣告播放日期(play_date) 廣告標題(ad_title) 廣告金額(M) 以及使用者活躍點數的最高與最低限制 (K_high) 活躍點數的最低限制(K_low) 廣告鏈結限制人數(L) 其中廣告金額會影響到廣告在使用者瀏覽畫面中排列的序(Order) 另外系統針對每個廣告刊之結果記錄了播放鏈結當日廣告總人數 (N) 鏈結當日廣告的總活躍點數(select_score)

由於每支廣告刊日期長短不一，每天的廣告

金額也不盡相同，因此針對廣告金額當日選擇廣告總人數以及廣告排序三種屬性，我們分別取資料的最大值(max) 最小值(min) 中位數(median) 一分位數(q1) 和三分位數(q3)，利用這些數值代表整個刊區間的指標性數值；針對排列序另外取其除以 10 的餘數加 1 來表示廣告在頁面中出現的位置

K-high 和 K-low 因為都是代表活躍點數的限制，所以我們僅需知道是否有設定即可，因此可透過 Boolean 值來描述我們同樣的將每一天的 K-high 列舉出來之後，設定只要在此時間區間當中有設定 K-high，即判斷有設定，K-low 值亦是如此接著我們再判斷這兩個數值是否有設定 (K = K-high ∪ K-low)，如果有設定則 K 值為 1，反之為 0

L 則是判斷限制人數，我們同樣以 Boolean 值來描述最後彙整後一共有 463 個廣告與 22 廣告特性，構成我們的廣告資料矩陣

2. 使用者資料矩陣(User matrix)

針對使用者，我們建立個別資料矩陣，包含的屬性主要依據使用者回答生活模式解析(LOHAS Game)的問卷所產生，其中問卷主要涉及 24 個生活模式解析問題，每個屬性均為類別型資料系統註冊的使用者雖有二萬多人，但同時有做過 LOHAS Game 及參與廣告鏈結的使用者有 1685 人

3. 廣告-使用者鏈結資料(Ad-user link matrix) 原始廣告與使用者鏈結資料包含了廣告播放日期 (play_date) 廣告代號 (ad_id) 鏈結使用者代號 (uid) 鏈結使用者活躍積分(active_score) 使用者創建廣告鏈結的時間(create_time) 我們將原始資料整理成使用者×廣告矩陣，稱為使用者-廣告鏈結矩陣 (user–ad matrix)，矩陣中的值代表使用者鏈結特定廣告的總次數其轉置矩陣則為廣告-使用者矩陣

圖 1 資料矩陣：(a)廣告資料矩陣 (b)使用者-廣告 鏈結矩陣 (c)使用者資料矩陣

4. 共分群方法

Ad_feature Ad_id Lohas

Ad A

User UxA User U

(a) (b) (c)

(3)

本篇論文主要針對廣告資料的分析為主，使用者的資料分析為輔，主要是因為廣告資料有了廣告特性的描述，以及廣告與使用者之間的鏈結關係 (Ad-user link)，這部分資料比較齊全；而使用者的部分，雖有 LOHAS 生活模式解析資料和風險承受度解析資料(RISK GAME) 然而並不是所有使用鏈結廣告的使用者皆會填寫這兩份解析問卷，而這兩份問卷，又以生活模式解析資料最多使用者填寫，風險承受度解析的使用者數量又更少了

我們希望從這些資料中，去分析哪些廣告的特性是相同的，會去被鏈結的；哪些廣告特性的設定會令鏈結這隻廣告的使用者變少同樣的針對使用者部分，我們希望藉由資料，找到是否具有相同特性的使用者，均會去鏈結相同特性的廣告，舉例來說，會去鏈結廣告金額較高的使用者，使否也會鏈結其他高金額的廣告

我們分析廣告資料的工具，是利用分群的方式，來找出相似特性的廣告和使用者傳統的分群方式主要是單向的將資料矩陣中的列或行資料進行分群，而這樣的分群方式，僅能看出其中一分群的特性，如果我們同時需要對行與列兩種資料進行分群，則為所謂的共分群

我們首先使用傳統的分群方式，分別對廣告資料矩陣使用者資料矩陣進行列資料的分群，觀察廣告資料的分群的結果以及使用者資料的分群結果接著結合使用者-廣告鏈結矩陣調整分群群結果我們提出兩種分群方式，第一種是三階段式分群 (Three-staged clustering)，第二種是重複式交叉分群 (Iterative Cross Co-clustering)，透過這兩種分群方式，我們可以同時對廣告與使用者做分群

4.1 三階段式的分群

關於三階段式的分群，我們分為兩個部分，一個為根據廣告資料的三階段式分群 (3-staged clustering ad based)，另一個為根據使用者資料的三階段式分群(3-staged clustering user based)，而三階段式的分群包含了三個步驟，每一個步驟，均使用 K-means 來分群，其疊代數 (iteration) 設為 1000 底下我們將分別介紹以廣告資料為主和以使用者資料為主的三階段式分群

3-staged clustering ad based

Step 1:

廣告資料矩陣雖在先前經過處理，然而廣告金額(M)屬性的值域與廣告排序值域(O)及鏈結總人數(N)的量仍有相當的差異，將會影響兩個廣告相似度因此我們將所有 M N 的數值取對數(log)以矮化數值，再藉由 min-max 將每個屬性正規化到 0 與 1 之間的數值經由上述方式得到新的矩陣後，做為我們分群的輸入資料，透過 K-means 分群演算

法，我們產生廣告分群的結果(Ad clusters) Step 2:

我們將第一階段分群所產生的 Ad clusters 結果做為縮減使用者廣告鏈結矩陣的依據，使用者 i 對廣告群 k 的鏈結次數為使用者 i 對廣告群 k 中所有廣告鏈結次數的總和同樣的，為了讓鏈結次數分佈較為平均，我們將相加後的總次數取 log 同樣的取 min-max 正規化後得到使用者與廣告群的鏈結矩陣接著再以縮減完的矩陣當作我們的輸入矩陣，做 K-means 分群得到使用者分群結果(User groups)

∑

∈

=

k

j ^A

Ad

L

ij

k

i

UL

ˆ

2

⁽ ⁾

log

)

,

(

₍₁₎

Step 3:

我們將使用者-廣告鏈結資料矩陣轉置成廣告- 使用者鏈結資料，計算每個廣告 Adi^{有多少個來自}

使用群 Uj的鏈結，得到得到廣告×使用者分群的鏈結矩陣，將此矩陣與第一階段的廣告資料矩陣合併後，再在對廣告進行一次 K-means 分群，最後產生最終的廣告分群結果其演算法如下：

圖 2 3-staged clustering algorithm (ad based)

3-staged clustering user based

三階段式分群，也可應用在使用者 Lohas 資料矩陣中，其輸入資料包含了 Lohas 資料矩陣使用者-廣告鏈結矩陣及廣告-使用者鏈結矩陣，其步驟如同之前的陳述，在每一個步驟的分群我們也是使用 K-means 做分群

Step 1:

我們將廣告資料矩陣以 Lohas 資料矩陣取代，對使用者分群

Step 2:

Input: Ad feature matrix (Ad) and Link matrix (User and Ad)

1. Apply K-means to Ad matrix to get initial ad clustering Â0

2. User clustering:

a. Merge the User Link matrix by Ad cluster Â0 to get UL

b. Apply K-means to UL matrix to get new user grouping Û0

3. Ad re-clustering:

a. Merge the Ad Link matrix by User grouping Û0 to get AL

b. Apply K-means to Ad+AL matrix to get new ad clustering Â’

(4)

我們參考 Step1 所產生的使用者分群，我們將廣告-使用者矩陣，依照公式(2)，產生廣告-使用者群的矩陣，並對廣告做分群

∑

∈

=

k

j ^U

User

L

ij

k

i

AL

ˆ

2

⁽ ⁾

log

)

,

(

₍₂₎

Step 3:

我們參考 Step2 所產生的廣告分群，將使用者廣告矩陣參考公式(1)，以產生我們的使用者-廣告群的矩陣，並將此矩陣與 Lohas 資料矩陣合併，對使用者分群，以產生我們最終的使用者群其演算法如下：

圖 3 3-staged clustering algorithm (user based) 4.2 重複式交叉分群

三階段的廣告分群只能夠單獨的對廣告資料及鏈結矩陣分群，或對使用者 Lohas 資料及鏈結矩陣做分群，並未同時參照廣告資料及使用者資料重複式交叉分群主要是改良三階段式的分群結果，同時考慮廣告資料及使用者 Lohas 資料矩陣，並交叉驗證分群結果在進行重複式交叉分群時，我們一樣在各個階段使用 K-means 做分群，我們分別對廣告資料矩陣與使用者 Lohas 資料矩陣做分群，分別產生廣告群及使用者群結果接著如同 3-staged clustering 方式，分別與 ad link matrix 和 user link matrix 合併，經過重複式分群，產出我們最終的廣告和使用者分群結果，細演算如圖四所示 Step 1:

在第一步驟，我們擁有的初始資料是廣告資料矩陣和使用者 Lohas 資料矩陣，首先我們先將廣告資料矩陣透過 Three-staged clustering 第一步驟的方式，進行 K-means 分群使用者 Lohas 資料矩陣，我們將使用者的問卷資料，當作是目錄(categorical) 資料，對使用者做分群，因此在這個階段我們分別得到廣告分群(ad cluster)和使用者分群(user group) 的結果

Step 2:

第二步驟，我們透過廣告-使用者鏈結矩陣，藉由使用群的結合得到廣告與使用群鏈結矩陣，再加以廣告資料矩陣，進行 K-means 分群，得到新的廣告分群

Step 3:

同理，我們透過使用者與廣告鏈結矩陣，藉由廣告群的結合得到使用者與廣告群鏈結矩陣，再加以使用者 Lohas 資料矩陣，進行 K-means 分群，得到新的使用者分群

Step 4:

重覆步驟二三，直到一個穩定的分群狀況為止，通常我們實驗時的重複次數設定為 2 次

圖 4 重複式交叉分群

圖 5 重複式交叉分群架構 Ad (1.a) K-means (1.b) K-means

Ad clusters User groups

(2.a) Ad_link By user group

(3.a) User_link By ad cluster

User

(2.b) K-means (3.b) K-means

Input: lohas matrix (User) and Link matrix (User and Ad)

1. Apply K-means to User matrix to get initial user group Û 0

2. Ad clustering:

a. Merge the Ad Link matrix by User group Û

0 to get AL

b. Apply K-means to AL matrix to get new ad cluster Â 0

3. User re-grouping:

a. Merge the User Link matrix by Ad cluster Â

0 to get UL

b. Apply K-means to User+UL matrix to get new user group Û

Iterative Cross Co-clustering Algorithm

Input: Ad feature matrix (Ad), User lohas matrix (User), and Link matrix (Link)

1. Initial clustering:

a. Apply K-means to Ad matrix to get initial ad clustering Â0

b. Apply K-means to User matrix to get initial user grouping Û0

c. t:=0; 2. Ad clustering:

a. Merge the link matrix by User groups Û_t to get AL b. Apply K-means to Ad+AL matrix to get new ad

clustering Â_t+1 3. User grouping:

a. Merge the link matrix by Ad cluster Â_t to get UL b. Apply K-means to User+UL matrix to get new user

grouping Û_t+1 4. t:=t+1; Go to Step 2;

(5)

5. 實驗結果

5.1 分群評量方法

分群研究的困難之一在於效能的評估，針對沒有標準答案的分群工作，必須找出分群背後的最終目的，提出有效的衡量方法在這篇論文中，我們提出兩種評估機制第一種是以分類準確率為依據，第二種則是以分群結果的差異度為準則

前者是以廣告特性資料及廣告使用者鏈結兩者來預測廣告類別，以分群結果做為分類標準答案，再以十次的決策樹分類平均的 F-measure 來評估不同分群方法的成效同樣地，我們也將使用者資料及使用者鏈結矩陣(user-ad link matrix)做為預測使用者類別的資料，以分類的準確率做為分群效能的判斷依據

後者則是針對共分群的特色，分別量測兩兩廣告群間的使用者群分佈差異令共分群的結果產生 Â=_α1, _α2, …_αK個廣告群與 Û=_υ1, _υ2, …, _υL^個使用

者群 p(Û|_αi)為廣告群_αi中，使用者群的分佈機率， p(Â|_υj)為使用群υj 中，廣告群的分佈機率我們可以藉由計算任兩個廣告群_α_i, _αj^{間的使用者群分佈}

機率的 KL divergence，來代表_αi, _αj,兩個 Ad cluster 之間的差異：

∑

₌ ^•

= ^L

k k i

j k i

k

j i

KL

p p p

U p U

p D

1

))

| (

)

| log( ( )

| (

)) ˆ| (

|| ) ˆ| ( (

α ν

α α ν

ν

α α

　　 ⁽³⁾

而分群結果則可透過廣告群間的平均差異與使用群間的平均差異代表共分群的效能

∑∑

= ≠

= −

+

=

L i

L i j

j i

KL User

K i

K i j

j i

KL Ad

User Ad

A p A p L D

KL L

U p U

p K D

KL K

KL KL U A KL

1 1

)) ˆ| (

|| ) ˆ| ( ) (

1 (

1

)) ˆ| (

|| ) ˆ| ( ) (

1 (

1 ˆ) ˆ, (

ν ν

α α

(4) 5.2 廣告分群評量結果

由於並非每個使用者都有參予 Lohas Game，所以我們原本鏈結矩陣的使者人數有達 7980 人，但我們取同時有鏈結廣告，且參予 Lohas Game 的使用者，如此才能夠將 Lohas 資料放進來實驗，因此，過濾後此部份使用者個數為 1685 人

我們的實驗資料主要是針對 463 個廣告，及 1685 個使用者點選廣告的鏈結矩陣，我們將比較以下三種不同的分群方法：

(1) baseline：使用 K-means 對廣告特性資料及廣告鏈結矩陣分群，其疊代數設定為 1000，並將分群結果當作標準答案

(2)三階段式分群(3-staged clustering)

(3)重複式交叉分群(Iterative cross co-clustering) 我們以廣告特性資料矩陣和廣告鏈結矩陣

(ad-user link matrix)做驗證分群的資料，意即我們結合兩份資料利用決策樹分類，與分群結果做為標準答案實驗結果如圖六所示，X 軸代表不同的 K 值， Y 軸代表相對應的 F-measure 我們看 K 設定在 2 群~5 群之間的 F-measure 由圖表得知，重複式交叉分群 (Iterative cross co-clustering) 有較佳的 F-measure，而 baseline 使用相同一份資料做分群，並拿分群結果當作標準答案，利用決策樹分類，其 F-measure 卻沒有比我們提出的重複式交叉分群結果好

Ads Classification Performance

0.700 0.800 0.900 1.000 1.100

F-measure

ICCC 1.000 0.981 0.950 0.946 3-stage 1.000 0.981 0.961 0.948 Baseline 0.998 0.926 0.899 0.835

K=2 K=3 K=4 K=5

圖 6 以廣告特性矩陣和廣告鏈結驗證 5.3 雙維共分群評量分析

我們以三個方法過程中所得到的廣告群 Â 與使用者群 Û，做為合併廣告-使用者鏈結矩陣的參考，建置出廣告群和使用者群的鏈結矩陣 (AU matrix)，其建置公式如下：

∑ ∑

_{∈ ∈}

=

i j

k l

kl

ij ^Link

AU

α ν

(5)

我們將使用者群(_υl)所有使用者所鏈結的廣告次數且屬於第_α_k個廣告群(ad cluster)的數值相加，產生我們所要的廣告群和使用者群的鏈結矩陣為了計算 KL divergence，我們將每一個廣告群 _αi^的鏈結

個數做正規化得 p(Û|_αi)，藉以計算廣告群間的平均 KL 差異 KLAd，同理也為每個使用者群_υj鏈結個數做正規化得 p(Â|_υj)，藉以計算使用群間的平均 KL 差異 KLUser

圖七呈現 K=5 時 KL divergence 的結果， X 軸分別代表 KLAd KLUser 及 KL(Â, Û)，Y 軸分別代表我們觀察在三種方法的廣告群之間的差異使用者群之間的差異及兩者加總起來的差異結果我們依照各種方法產生的廣告群和使用者群，並根據鏈結矩陣，建構廣告群鏈結使用者群的矩陣，我們固定使用者群，分別取特定兩廣告群計算其 KL-divergence，計算所有廣告群之間差異後，我們將所有差異值加總後取平均，反之，我們可以得到各個使用者群之間的差異我們可以現，各群之間變異性很大，而且 Iterative cross co-clustering 和 Three-staged clustering 的效果都比 baseline 的效果

(6)

好，所以透過我們提出的方式均能夠達到較佳的分群結果

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14

Average KL divergence

U Â Û

Evaluation by KL divergence

I 3 ag

a lin

圖 7 K-L divergence

5.4 廣告分群解析

上述各實驗結果，現在群數設定為 5 時其分群效果為最佳，我們觀察重複分群(Iterative cross co-clustering)的實驗結果並分析其分群狀況，下圖為利用重複式交叉分群，群數為 5 時，各群分群的數量如下：

圖 8 重複式交叉分群結果(廣告群分佈 K=5) 我們觀察分群結果現，在 cluster 0 的廣告群，多為分潤金額(M)較大的廣告，平均廣告金額為 800，其點選人數(N)也較多，平均點選人數佔 529 人，其廣告排序也佔較前面幾頁，平均約在第 2 頁，而且並無設定鏈結人數(L)與其個人點數(K)，比較具代表性的廣告為人工智慧導向人力資源配置與管理系統投資自明日之星就是你拼 SQIQ&LK 大獎賽鍊結廣告等等屬於品牌廣告類型

Cluster 1 的廣告其分潤金額(M)普遍偏小，平均金額為 22，其平均點選人數(N)為 21 人，平均廣告排序為 26 頁，且 L 和 K 值一樣是沒有設定的狀況，廣告多為小型商家如聯必優-讓您輕鬆擁有心中的夢幻手機洪同慶系統櫥櫃專業施工台北春風眼

科?專業雷射全視力矯正中心等等

Cluster 3 的廣告與 Cluster 1 的廣告類似，其平均分潤金額為 27，點選人數(N)為 38 人，廣告排序為 27 頁，但是和 Cluster 1 不同的是，其 L 和 K 值是有設定的狀況，比較具代表性的廣告為新賀斯國際有限公司台茶國際有限公司合鈦超硬刀具有限公司等等小型商家，且大部分皆為 ID 編號 600 以後的廣告

而 Cluster 2 和 Cluster4 則屬於較為中間層的廣告，其金額和人數大概都介於 cluster0 和 cluster3 之間，排序也大概落在 15 頁上下的位置

5.5 使用者分群評量結果

同樣的，針對 1685 個完成 Lohas Game 的使用者，及 463 點選的廣告鏈結矩陣，針對使用者分群我們比較三種分群的結果：

(1) baseline ：我們使用 K-means 對 lohas game 及 user link 進行分群，其疊代數設定為 1000，並將分群結果當作標準答案

(2) 三階段式分群(3-staged clustering)

(3) 重複式交叉分群 (Iterative cross co-clustering) 我們使用決策樹做為我們評估的方法，而我們將 lohas game 及 user link 兩份資料合併當作測試資料，並且以上各個方法所產生的分群，透過

F-measure 來評估各個方法的分群效果為何根據

實驗結果顯示(圖十)，我們現 baseline 雖然使用和測試資料相同的一份資料進行分群，並將其分群結果當作標準答案，進行分類；然而，其效果卻不如我們所提出的重複式交叉分群

User Classification Performance

0.650 0.700 0.750 0.800 0.850 0.900 0.950

F-measure

ICCC 0.886 0.844 0.776 0.786 3-stage 0.894 0.794 0.800 0.754 Baseline 0.881 0.823 0.769 0.678

K=2 K=3 K=4 K=5

圖 9 將 lohas 暨 user link 資料接合以驗證三種分 群方式的效果

從實驗結果我們現，由於 baseline 的部分只有根據每一個使用者的 lohas_game 及 user_ad link 資料去做分群，由於高維度時距離的計算會較難反應資料資間的相似性，導致分類的準確度欠佳；而我們所提出的重複式交叉分群方法，能夠重複的參考使用者和廣告等的資訊，以利找到最佳的分群

綜合以上評估方式，重複式交叉分群，不僅能

(7)

在廣告也能在使用者分群上，達到較佳的分群結果重複式交叉分群，同時考慮了廣告資訊使用者資訊以及鏈結資訊，綜合以上幾種資訊，並能夠同時對廣告和使用者進行分群，而且效果比 baseline 的效果來的好

6. 結論

傳統的分群方式，只能針對單向資料進行分群，以致於無法觀察到雙向資料之間的關係；我們提出了重複式雙維度共分群的方法，同時參照了廣告資料和使用者資料，利用單向分群的概念，來達到共分群的效果，並且也能達到較佳的分群效果，在觀察廣告分群的同時，也能同時對使用者做分群，並觀察使用者群和廣告群之間的關係

我們的評估方式是藉由預測類別的方式來驗證分群，並透過 KL-divergence 來判斷不同的分群方法之間的分群差異，經由實驗結果得知，3-staged clustering 由於同時對廣告或同時對使用者做分群，所以能夠達到較佳的分群效果，然而 Iterative cross co-clustering 因為同時考慮了廣告及使用者資料進入分群，所以雙向資料互相牽引之下，導致效果比 3-staged clustering 略差一些，但也能達到一定水準的分群效果，但 Iterative cross co-clustering 在共分群的表現上，能夠同時對廣告分群，也能同時對使用者分群，效果比單向分群的 baseline 方式好未來我們想要朝向共分群的展模式前進，希望透過較為正式的數學定義，以及演算法的理論基礎，

展一套正式的共分群方法

致謝

本論文為國科會計畫，社群網路廣告最佳配置之研究(NSC98-2622-E-008-023-CC2)與創旭知識科技應用股份有限公司產學合作研究成果

參考文獻

[1]. A. Banerjee, I. S. Dhillon, J Ghosh, S. Merugu, and D. S. Modha. “A Generalized Maximum Entropy Approach to Bregman Co-clustering and Matrix Approximation.” In KDD’ 04: Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 509-514, Seattle, Washington, USA, 2004. ACM press. [2]. Bo Long, Zhongfei Zhang, and Philip S. Yu

“Co-clustering by Block Value Decomposition.” In KDD ’05: Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, pp. 635-640, Chicago, Illinois, USA, 2005. ACM press.

[3]. Hanisch D, Zien A, Zimmer R, and Lengauer T

“Co-clustering of biological networks and gene expression data.” Institute for Algorithms and Scientific Computing (SCAI), Fraunhofer Gesellschaft, Schloss Birlinghoven, Sankt Augustin, 53754, Germany.

[4]. Inderjit S. Dhillon, “Co-clustering documents and words using bipartite spectral graph partitioning.” In KDD ’01: Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. San Francisco, California pp. 269 – 274.

[5]. I. S. Dhillon, S. Mallela, and D. S. Modha.

“Information-theoretic co-clustering.” In KDD ’03: Proceedings of the ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 89-98, New York, NY, USA, 2003. ACM Press.

Publication by Year Web Intelligence and Data Mining Laboratory TAAI ICC G5

基於重複式交叉分群的廣告使用者資料分析

巫孟倫

國立中央大學資訊

工程學系

張嘉惠

國立中央大學資訊

工程學系

劉睿哲

國立中央大學資訊

工程學系

范 凱

國立中央大學資訊

工程學系

摘要

1. 前言

2. 相關研究

3. 資料描述及前處理

4. 共分群方法

∑

=

L

k

i

UL

( )

log

)

,

(

∑

=

L

k

i

AL

( )

log

)

,

(

5. 實驗結果

∑

∑∑

∑∑

∑ ∑

5.5 使用者分群評量結果

6. 結論

致謝

參考文獻

范凱

⁽ ⁾

⁽ ⁾