• 検索結果がありません。

KDD Cup 2015:4. 学生チームによるデータ分析プロセスとメリット

N/A
N/A
Protected

Academic year: 2021

シェア "KDD Cup 2015:4. 学生チームによるデータ分析プロセスとメリット"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)小特 集. KDD Cup 2015 基 応 専 般. 04. 学生チームによる データ分析プロセスとメリット . 田中一樹(慶應義塾大学大学院) 池田春之介(慶應義塾大学). チーム構成と役割  私たちは KDD Cup 開始当初,それぞれ個人で分. • 時間変数(最初と最後のログイン日時,セッシ ョン間隔,それらの平均・分散・最大値─平均, 平均─最小値,最大値─最小値,約 50 個). 析を行い,基礎集計などを通じてデータ特性の理解.  これらの基礎特徴量を用いることによって性能の. を進めた.その後,終了 3 週間前にチームを組み,. 良さを表す Area Under the Curve(以下 AUC)0.900. 2 人でアイディアを出し合い,主に田中が実装する. 付近まで精度を出すことができた.. という形で分析を行った.分析環境は MacBook Pro. 効果的だった特徴量. 2 台,使用した言語は主に Python,R であり,チー.  基礎特徴量のみを用いた場合では上位に入賞する. ムポリシーとして「1 日 1 特徴量作成」を掲げて分. ことはできず,より精度を上げるためにより効果的. 析を行った.. な特徴量を作成する必要があった.そこで,MOOC ではどのようなことが重要かを考え,ユーザのやる. アルゴリズム. 気が大きく関係すると仮定し,各ユニークユーザに. ’ 特徴量エンジニアリング. なる講座を受講しているユーザに関して,基礎特徴.  今回の KDD Cup では,インターネット上で誰で. 量の一部を集約し,それらの合計,平均,分散を. も無料で大学の授業を受けることができる Massive. 求め特徴量として追加した.その結果,AUC は約. Open Online Course(MOOC)におけるユーザの受. 0.903 まで上がり,この特徴量によってユーザ特性. 講ログや講座の情報などのデータが与えられたがす. をより表現できたと考えられる.. べて質的変数(講座 ID,セッション内容,セッショ.  また,講座期間を前期・中期・後期と 3 つに分割し,. ン時間など)であったので,それらをダミー変数な. それぞれに対して同様に基礎特徴量とその集約特徴. どで数値化し,予測器に入力できる形に前処理を行. 量を作成したところ,精度が改善した(この 3 分割. った.また,特徴量を増やさずに予測器の改良だけ. は手元の交差検証の試行錯誤の末決定) ,この特徴量. を行っても精度が上がることはなかったので,新た. では講座の前半はよく受講しているが後半は欠席し. に自分たちで特徴量を作成していく必要があった.. がちというユーザや継続的に受講しているユーザを. 基礎特徴量. 上手く表現できたと考えられる..  まず,以下の基礎的な特徴量を作成した..  さらに,効果的であったのは,今回の離反の定義. • カウント変数(その講座を受講したユーザ数,ユ. である各講座の後の 10 日間で,ほかの講座に参加. ーザのセッション回数など約 200 個) • ダミー変数(セッションの曜日,月,時間,講座. ID,約 100 個) • 割合変数(各ユーザの受講率や宿題提出率といっ た行動の割合,ユーザやコースの離反率,約 20 個). 162. 情報処理 Vol.57 No.2 Feb. 2016. 注目した特徴量を作成した.具体的には,複数回異. しているか否かという特徴量である.各講座の開講 期間を調べてみると開講期間が重複している講座が 複数あったため,離反するかを予測する講座の 10 日間にほかの講座を受講していれば,同時にその講 座も受講するのではないかという仮説を立てた.そ.

(2) . して,離反を判別する定義の 10 日間でほかに受講. れの手法間の違いや利点・欠点など,文字上では得. している講座数,ログイン日数などの特徴量を作成. られない知識を得られることである.自分でプログ. し,AUC を約 0.9055 まで伸ばすことができた.. ラムを組み利用することで,パラメータの意味やア. 学生チームによるデータ分析プロセスとメリット. 04. ルゴリズムの理解も進む.また,実際のデータはそ. ’ モデル構築. のままモデルに入力できない形であることが多いた.  私たちは作成した訓練データを用いて,ロジス. め,データの前処理が必要となる.そういったデー. ティック回帰,Deep Learning,Factorization Ma-. タ分析と言われる作業の一連の流れをデータ分析コ. chine などさまざまなモデルを使用したが最終的に. ンペでは学ぶことができ,データが与えられても何. Gradient Boosting Decision Tree(以下 GBDT)を. から手を付ければよいか分からない ! という状況か. 採用した.今まで述べた AUC の値はすべて 1 つの. らはすぐに抜け出せるだろう.. GBDT を用いた予測結果であったが,上位入賞のた.  さらに,データ分析コンペに関する特徴として,. めにはより精度を向上させなければならなかった.. 常に結果を表すリーダボードが変動しているため,. そこで,作成した約 1,300 個の全特徴量が入った訓. 毎日新たなことを考え実装しなければ上位に入り込. 練データを用いてモデルパラメータが異なる 7 つ. むことは困難である.そのため,論理力や忍耐力と. の GBDT を作成した.そして,それらの予測結果. いった考え抜く力が必要であるが,それらは自然と. を単純平均(いわゆるアンサンブル)し,AUC を. 身に付いていくと思われる.コンペ終了後には上位. 約 0.9057 に上げることができた.. 入賞者の分析手法やそのコードが公開されることも.  さらに,KDD Cup 締切が近づくに連れて 10 日間. あり,自分と同じ点,異なっていた点を発見し,新. に着目した特徴量を追加しても AUC が頭打ちにな. たなアイディア・技術を身に付けることができる.. る状況が起こったため,一部の特徴量(追加して.  今回の KDD Cup では,上位入賞者は KDD Work-. も AUC が変化しない特徴量)が異なる 7 つの訓練. shop で発表があり,上位の方々との交流という学. データを作成した.そして,そのそれぞれに対して. 生にとって非常に有意義な時間を過ごすことができ. GBDT を構築し,GBDT の予測結果をアンサンブル. た.普段出会うことができない世界トップレベルの. した.その結果,AUC を約 0.90599 まで伸ばすこと. 分析者達とお互いの研究や分析方法を議論でき,新. ができ,10 位に入賞することができた.これは,よ. たな視界を拡げることができた.. り訓練データにバリエーションを与えることができ.  以上をまとめると,研究では扱うことができない. る相互補完の意味で,アンサンブルが成功したから. ようなデータでさまざまな手法を試しながら,機械. だと考えている.また,興味深いことに部分的に異. 学習等に関する実用的な理解を深めることができる.. なる特徴量を使用した予測スコアと全特徴量を使用. よって,敷居が高いと思われがちなデータ分析コン. した予測スコアがシングルモデルではほぼ一致して. ペだが,気軽にデータをダウンロードし,予測結果. . いた(約 0.9055). を提出することもできるので,時間に余裕のある学 生はぜひ一度挑戦してみるべきだと思う.. 学生参加のメリット. (2015 年 10 月 28 日受付).  最後に,学生が社会人も参戦するデータ分析コン. 田中一樹 ■ [email protected]. ペに参加することで得られるメリットについて解説. 2011 年東葛飾高校卒業,2015 年慶應義塾大学理工学部卒業,2015 年同大学院理工学研究科総合デザイン工学専攻入学.大森研究室所属.. する.  最も大きいメリットの 1 つが,教科書や論文など で学んだ種々の手法を実際のデータで試し,それぞ. 池田春之介 ■ [email protected] 2011 年旭丘高校卒業,2012 年慶應義塾大学理工学部システムデ ザイン工学科入学.大森研究室所属.. 情報処理 Vol.57 No.2 Feb. 2016. 163.

(3)

参照

関連したドキュメント

1991 年 10 月  桃山学院大学経営学部専任講師 1997 年  4 月  桃山学院大学経営学部助教授 2003 年  4 月  桃山学院大学経営学部教授(〜現在) 2008 年  4

講師:首都大学東京 システムデザイン学部 知能機械システムコース 准教授 三好 洋美先生 芝浦工業大学 システム理工学部 生命科学科 助教 中村

土肥一雄は明治39年4月1日に生まれ 3) 、関西

(Please note that, because Japanese language proficiency is not required for admission to the Program, the letter of recommendation does not need to be written by a teacher of

1998 年奈良県出身。5

1978年兵庫県西宮市生まれ。2001年慶應義塾大学総合政策学部卒業、

関西学院大学社会学部は、1960 年にそれまでの文学部社会学科、社会事業学科が文学部 から独立して創設された。2009 年は創設 50

①中学 1 年生 ②中学 2 年生 ③中学 3 年生 ④高校 1 年生 ⑤高校 2 年生 ⑥高校 3 年生