• 検索結果がありません。

ブースティングを用いたスコアリングモデルの構築

N/A
N/A
Protected

Academic year: 2021

シェア "ブースティングを用いたスコアリングモデルの構築"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

望・・−≡=・ギ   田本オペレーションズ0リサーチ学会   200掘年番寧研究発表会  

ブースティングを用いたスコアリングモデルの構築   02302970 筑波大学 竹林 実 TAKEBAmSHIMinoru  

02203190 筑波大学 佐野夏樹 SANONatsuki   O1207840 筑波大学 *鈴木秀男 SUZUKIHideo  

皿。はじめに    0.適切な損央関数Cを決める.  

1.学習データの重みをwl(i)=1/Ⅳ,学習機械を    凡(Ⅹ )=0と初期化する・・ト=1,・‥,Ⅳ   2.t=1,.‥,Tに対し,  

(a)重みwtにより学習データβのリサンプリングを   

行い,それをβtとする.  

(b)晶を用いて学習し,基本学習機械力を生成する・  

(c)適切な信頼度β土を選ぶ・  

MarginBoostは(dl),MarginBoost.Llは(d2)を行う・  

(dl)学習機械を昂(Ⅹ)=鳥−1(Ⅹ)+βtム(Ⅹ)とする・  

(d2)学習機械を瑚Ⅹ)=既とする・  

(e)学習データの重みを以下のように更新する・  

近年データウェアハウスやデータベースが普及したこ  

とから,大量のデータが蓄積されるようになっている.  

それに伴い,大量のデータから有効な情報を抽出するこ   とのできる手法が注目されている、その一つにスコアリ   ングというものがある.スコアリングとは,既存のデー   タを基に,ある顧客について予測される事象が起こる可   能性を推定するものであり,幅広い分野に応用されてお   り(例えば文献【3】),その精度の向上が望まれている・   

一方,2クラスの分類問題の予測精度を向上させるた   めに用いられる手法にブースティングがある.スコアリ   ングは可能性といった連続値を予測する問題であるが,  

本質的には2クラスの分類問題と同様の問題であると   考えることができる.よってブースティングをスコアリ  

ングへ応用することで,その精度の向上が期待される.  

代表的なブースティング手法の一つにAdaBoost【1】があ   り,竹林,佐野,鈴木[4】はAdaBoostを用いて頗客スコ   アリングモデルを構築している.本研究では,AdaBoost   と同様の枠組みで,異なった損央関数を扱うことのでき   るMarginBoost及びMarginBoost.Ll[2】の2つのブー   スチノング手法を用いてスコアリングを行うことを提案  

し,従来法と比戟することでその有効性を倹証する.   

望。プ鱈スティング   

叫叶1(i)=   ,i=1,.‥,Ⅳ  

∑鎧IC′   町爪(ⅩJ)   

3.最終学習機械として5i卯(丹(Ⅹ))を得る・  

図1:MarginBoost及びMarginBoost.Llアルゴリズム   MarginBoost.Llの相違点である.ステップ2(e)では,  

ムにおいて分類の正解したサンプル(町制刃こ対しては,  

次のラウンドの重みⅧ恒‖(五)を′はくし,誤ったサンプ   ルに対しては叫什1(豆)を大きくするという考えに基づい   た重みの更新が行われている.そして,ステップ3でr   個の基本学習機械の重み付き結合により,1つの学習機   械へ統合し,その符号をとったものを,1または−1を   出力する最終的な学習機械としている.   

乱剛用データ    ブースティングは,精度の低い学習機械(基本学習機  

械)を組み合わせることで,精度の高い学習槻械を構   成する手法である.本研究で用いるMar如Boost及び   MarginBoost.Ll【2]のそれぞれのアルゴリズムをまとめ   たものを以下の図1に示す.   

ここで学習データはβ=‡(ェi,yi):豆=1,…,Ⅳ)で   あり,y∈(1,−1)の2クラスの分類問題を考える.図中   のステップ0では損央関数を決める.ここで指数関数を   用いた場合,MarginBoostはAdaBoostと同等の手法と   なる.ステップ1では初期化を行う.ステップ2(a),(b)  

では重み付きリサンプリングを行うことで,分類の難し   いデータもうまく分類できる基本学習機械力を生成して   いる,ステップ2(c)の信頼度夙については,本研究で   は損央関数を最小とするβをラインサーチにより求めた.  

ステップ2(d)の学習機械の構成方法がMarginBoostと  

本研究で利用したデータは先行研究【31,[4]で利用さ   れている,ある衣料。雑貨販売会社の通信販売履歴デー   タと,UCIMachineLearningRepository[5】に公開され   ているGermanCreditデータの2種類のデータである.  

これらのデータをそれぞれ スコアリングモデル構築に   用いる学習データと,モデルの性能検証に用いるテスト   データとに二分して用いる.ここでは通信販売履歴デー   タの分析結果のみを報告し,GermanCreditデータの分   析結果については,発表の際に報告する.   

通信販売履歴データは,取引IDをキーに持つ販売履   歴データに,商品属性・顧客属性に関する情報を付加し   たものである.このデータには約3年間分の販売履歴が   記録されている.これをもとに顧客IDをキーとした分   析用データを作成した.前半30ケ月を入力期間として  

−292−   

© 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

表1:分析用データ   りも精度が高く,またロジスティック回帰分析とほぼ同   等の精度が得られたことが分かった.蓑2のリラト率に   より定量的に比較をすると,予測スコア上位20%までは  

本提案モデルが最も良い値が得られており,上位30%以  

降においても,ロジスティック回帰分析によ.るモデルと   ほぼ同等の値が得られている.つまり本提案モデルはス   コア上位者の予測に優れており,優良顧客の選出する場   合などにおいて,非常に有効であることが示された.  

Out  予測期間中の購入有無   

説明変数の作成に使用し,後半4ケ月を予測期間として   この期間の商品の購入有無を目的変数(クラス)とし,  

入力期間に1回以上の取引があった顧客10,560名につ   いて分析用データを作成した.分析用データに用いた変   数を表1に示す.また予測期間に取引があった顧客(購   入者)は1,032名で,全体の約10%にあたる.   

4.スコアリングモデルの構築   

8     0︳    q▼  

︵邑●t丘●2象r∝●>育ちF月U  

本研究では,図1中の丹(x)をスコアリングモデルと   考える.それにより出力される連続値を,可能性を示す   スコアとする.スコアリングモデルの構築の際には,基  

本学習機械とブースティング手法の組み合わせにより40  

通りのモデルを構築し,最もスコアリングの精度の高い   ものを本提案モデルとして採用した.基本学習機械は,深   さが1から4の4通りの決定木(分類木)を用いた.ブー   スティング手法は,●MarginBoost及びMarginBoost.Ll   に対して,それぞれ5通りの損失関数を用いたものの計   10通りを用いた.またブースティングのアルゴリズム   中で行われるリサンプリングの誤差を考慮し,本研究で  

は各組み合わせに対し5回ずつモデルを構築し,その平  

均値を各モデルによる結果として用いた.   

スコアリングモデルの評価には,累積ゲイン図とリフ   ト率を用いる.累積ゲイン図は,予測全体の有効性を評   価するもので,スコアの高い順に顧客一覧を並べ替えた  

ときに,予測上位諾%の顧客について反応音数の累積割   合をプロットしたものである.リフト率は,予測スコア  

上位∬%の顧客を抽出した場合のモデルのあてはまりの  

良さを定量的に評価するもので,以下の式で定義される.   

0   20   40   印   80   108  

H小用伽m‖如如m山触叫¶  

図2:累積ゲイン図   

表2:予測スコア上位10%毎のリフト率の比較  

Boost  2.98  2.33  1.96  1.70  1.54  RT    2.41  2.17  1.86  1.67  1.43    LR  2.66  2.23  1.97  1.74  1−55   

Boost  1.39  1.27  1.15  1.07  1.00    RT    1.28  1.19  1.12  1.05  1.00    LR    1.40  1.29  1.17  1.08  1.00   

Boost は本捏案モデルを表す.  

参考文献  

【1]Fteund,Y.and Schapire,R.E. A decision−theoretic    generalizationofon−1inelearnlngandanapplicationto    boosting ,J仙mαJ扉Comp.肌d勒5temβci.,55(1),   

119−139・(1997)  

【2]Mason,L.,Baxter,J.,Bartlett,P・L・and Ftean,M・   

nlnCtionalGradient TechniqtleSfor ComBining Hy−   

potheses ,InSmola,A.J.,Bartlett,P.,Scholk3i)f,B.,   

andSchuurmans,C・(Eds・),AdvancesinLaryeMaryin    aassifiers.MITPress,Cambridge,MA.(2000)  

【31後藤正輝,村山一軌門間公志,香田正人「データマイ    ニング手法によるスコアリングモデルの開発」,Direct    MarketingReview,VOl.1,19−32・(2002)  

【4】竹林実,佐野真樹,鈴木秀男「AdaBoostによる顧客スコ    アリング」,2003年日本オペレーションズ・リサーチ学会    秋季研究発表会アブストラクト集,288−289.(2003)  

【5】UCIMachineLeamingRepository.   

http‥//wⅥ〔Ⅳ・ics・uCi・edu/mlearn/MLRepository   予測上位∬%の顧客の反応率  

■リフト率(∬)=   

5.結果   

全顧客についての反応率   

本提案モデルと,回帰木(RT),ロジスティック回   帰分析(LR)の3つの手法によるスコアリング精度の   比較を行った.本提案モデルは,深さ1の決定木を基   本学習機械として,指数関数を損失関数として用いた   MarginBoost.Llを適用したものである.   

累積ゲイン図(図2)より,本提案モデルは.決定木よ  

−293−   

© 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

スライド5頁では

実際, クラス C の多様体については, ここでは 詳細には述べないが, 代数 reduction をはじめ類似のいくつかの方法を 組み合わせてその構造を組織的に研究することができる

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

(( .  entrenchment のであって、それ自体は質的な手段( )ではない。 カナダ憲法では憲法上の人権を といい、

1 単元について 【単元観】 本単元では,積極的に「好きなもの」につ

平成 28 年度については、介助の必要な入居者 3 名が亡くなりました。三人について

第一の場合については︑同院はいわゆる留保付き合憲の手法を使い︑適用領域を限定した︒それに従うと︑将来に

真竹は約 120 年ごとに一斉に花を咲かせ、枯れてしまう そうです。昭和 40 年代にこの開花があり、必要な量の竹