不均衡データに対する多段階学習を用いた2クラス分類アルゴリズムの提案とその検証
2
0
0
全文
(2) Vol.2018-MPS-121 No.10 2018/12/18. 情報処理学会研究報告 IPSJ SIG Technical Report. るクラス i(i = 1, 0) のデータ集合を DL:i ,DV:i と記す.使 用する学習器集合を K ,アンダーサンプリングによって選. 4.2 結果 不正利用検出の結果を表 1 に,コンバージョン予測の結. ばれたデータ集合の族を M とする.. 果を表 2 に示す.提案アルゴリズムにより分類を行った場. 提案アルゴリズムでは,期ごとに識別モデルと識別関. 合,両データともいずれの評価指標においても比較アルゴ. 数を作成する.前の期で分類が難しいと判断されたデー. リズムよりも精度が向上した.偽陽性数はそれぞれ比較ア. タを用いて次の期の識別モデルを作成する.1 期目では,. ルゴリズムの 9.5%,64.2% になっており,偽陽性数の大幅. 与えられた学習データ DL と検証データ DV を用いる.提. な減少が精度の向上に繋がっているといえる.. 案アルゴリズムの n(n = 1, 2, ...) 期目で用いる学習データ. 表1. と検証データを各々 DnL , DnV とする.1 期目では,与えら. 不正利用検出の比較実験結果. れた学習データ DL と検証データ DV を用いる.つまり,. D1L = DL , D1V = DV とする.n 期目では,はじめに,DnL から選ばれた各データ集合 Dm ∈ M に対して,各学習器. k ∈ K を用いて学習を行い,識別モデル ALGm,k (x) を作 ∑ 成し,この平均 Pn (x) B Dm ∈M,k∈K ALGm,k (x)/|M||K| を n 期 の識別モデルとする.この識別モデル Pn (x) を用いて DnV を閾値 z ∈ [0, 1] で分類したときの識別関数 I(x|z) に対す る Precision と Recall を Pr(x|z),Re(x|z) で表す.ここで,. z⋆ = argmax(Pr(x|z)|Re(x|z) = 1) を求め,n 期の識別関数を 0≤z≤1. 表2. Cn (x) = I(x|z⋆ ) とする.次に n + 1 期の学習データと検証. コンバージョン予測の比較実験結果. n n データ DnL1 , Dn+1 V を {x ∈ DL |C n (x) = 1},{x ∈ DV |C n (x) = 1}. と更新して,n + 1 期を同様に繰り返す.l 期と l + 1 期で検 証データ DV が変わらないとき (DnV = Dn+1 V ),アルゴリズ ムを終了し,最終的な識別モデルと識別関数を. Pl (x). l ∏. Cn (x),. (1). n=1. Pl (x|z⋆ ). l ∏. Cn (x). (2). n=1. で与える.ただし,z⋆ は l 期で求めた閾値である.. 5. おわりに 本稿では,不均衡データに対する分類精度向上を目的と. 4. 提案アルゴリズムの評価. した分類アルゴリズムの提案を行い,その有効性について. 4.1 評価方法. 実データを用いて検証をした.一定の有効性が示唆された. 提案アルゴリズムの有効性を評価するために,既存アル. ものの,提案アルゴリズムをより多くのデータセットに対. ゴリズムであるアンダーサンプリングとバギングのハイブ. して適用し,汎用性について考察することが今後の課題と. リッドモデル [2] との比較実験を行う.評価指標は 2 章を. してあげられる.. 踏まえ,分類精度の評価に F1 値と G-mean,予測確率の精 度の評価に AUC-ROC と AUC-PR を用いる.. 参考文献. 本研究では,オープンデータのクレジットカード利用履. [1]. 歴データを用いた不正利用検出,某企業から提供された. EC サイトの 2018 年 5 月から 8 月のアクセスログデータを. [2]. 用いたコンバージョン予測の 2 つの実験を行った.全デー タに対する陽性割合は,それぞれ 0.002,0.003 と不均衡性 の高いデータになっている.共通条件として,学習器集合. K はロジスティク回帰,ランダムフォレスト,勾配ブース ティング木の 3 つ,アンダーサンプリングにより生成する. [3]. Fern´andez, A., del R´ıo, S., Chawla, N. V. and Herrera, F.: An insight into imbalanced Big Data classification: outcomes and challenges, Complex & Intelligent Systems (2017). Salunkhe, U. R. and Mali, S. N.: Classifier Ensemble Design for Imbalanced Data Classification: A Hybrid Approach, Procedia Computer Science, Vol. 85, pp. 725 – 732 (2016). Haixiang, G., Yijing, L., Shang, J., Mingyun, G., Yuanyue, H. and Bing, G.: Learning from class-imbalanced data: Review of methods and applications, Expert Systems with Applications, Vol. 73, pp. 220 – 239 (2017).. データ集合の数 |M| を 100,DV に対して F1 値を最大にす る z⋆n を採用する. c 2018 Information Processing Society of Japan ⃝. 2.
(3)
関連したドキュメント
Talman: Sets in excess demand in simple ascending auctions with unit-demand bidders, Annals of Operations Research 211 (2013) 27-36.
Eckstein: Dual coordinate step methods for linear network flow problems, Mathematical Programming 42 (1988)
東京工業大学
本時は、「どのクラスが一番、テスト前の学習を頑張ったか」という課題を解決する際、その判断の根
リスク研究の分野では、 「リスク」 を検証する際にその対になる言葉と して 「ベネフ ィッ ト」
FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの
★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..
具体的な取組の 状況とその効果 に対する評価.