KDD Cup 2015:4. 学生チームによるデータ分析プロセスとメリット
2
0
0
全文
(2) . して,離反を判別する定義の 10 日間でほかに受講. れの手法間の違いや利点・欠点など,文字上では得. している講座数,ログイン日数などの特徴量を作成. られない知識を得られることである.自分でプログ. し,AUC を約 0.9055 まで伸ばすことができた.. ラムを組み利用することで,パラメータの意味やア. 学生チームによるデータ分析プロセスとメリット. 04. ルゴリズムの理解も進む.また,実際のデータはそ. モデル構築. のままモデルに入力できない形であることが多いた. 私たちは作成した訓練データを用いて,ロジス. め,データの前処理が必要となる.そういったデー. ティック回帰,Deep Learning,Factorization Ma-. タ分析と言われる作業の一連の流れをデータ分析コ. chine などさまざまなモデルを使用したが最終的に. ンペでは学ぶことができ,データが与えられても何. Gradient Boosting Decision Tree(以下 GBDT)を. から手を付ければよいか分からない ! という状況か. 採用した.今まで述べた AUC の値はすべて 1 つの. らはすぐに抜け出せるだろう.. GBDT を用いた予測結果であったが,上位入賞のた. さらに,データ分析コンペに関する特徴として,. めにはより精度を向上させなければならなかった.. 常に結果を表すリーダボードが変動しているため,. そこで,作成した約 1,300 個の全特徴量が入った訓. 毎日新たなことを考え実装しなければ上位に入り込. 練データを用いてモデルパラメータが異なる 7 つ. むことは困難である.そのため,論理力や忍耐力と. の GBDT を作成した.そして,それらの予測結果. いった考え抜く力が必要であるが,それらは自然と. を単純平均(いわゆるアンサンブル)し,AUC を. 身に付いていくと思われる.コンペ終了後には上位. 約 0.9057 に上げることができた.. 入賞者の分析手法やそのコードが公開されることも. さらに,KDD Cup 締切が近づくに連れて 10 日間. あり,自分と同じ点,異なっていた点を発見し,新. に着目した特徴量を追加しても AUC が頭打ちにな. たなアイディア・技術を身に付けることができる.. る状況が起こったため,一部の特徴量(追加して. 今回の KDD Cup では,上位入賞者は KDD Work-. も AUC が変化しない特徴量)が異なる 7 つの訓練. shop で発表があり,上位の方々との交流という学. データを作成した.そして,そのそれぞれに対して. 生にとって非常に有意義な時間を過ごすことができ. GBDT を構築し,GBDT の予測結果をアンサンブル. た.普段出会うことができない世界トップレベルの. した.その結果,AUC を約 0.90599 まで伸ばすこと. 分析者達とお互いの研究や分析方法を議論でき,新. ができ,10 位に入賞することができた.これは,よ. たな視界を拡げることができた.. り訓練データにバリエーションを与えることができ. 以上をまとめると,研究では扱うことができない. る相互補完の意味で,アンサンブルが成功したから. ようなデータでさまざまな手法を試しながら,機械. だと考えている.また,興味深いことに部分的に異. 学習等に関する実用的な理解を深めることができる.. なる特徴量を使用した予測スコアと全特徴量を使用. よって,敷居が高いと思われがちなデータ分析コン. した予測スコアがシングルモデルではほぼ一致して. ペだが,気軽にデータをダウンロードし,予測結果. . いた(約 0.9055). を提出することもできるので,時間に余裕のある学 生はぜひ一度挑戦してみるべきだと思う.. 学生参加のメリット. (2015 年 10 月 28 日受付). 最後に,学生が社会人も参戦するデータ分析コン. 田中一樹 ■ [email protected]. ペに参加することで得られるメリットについて解説. 2011 年東葛飾高校卒業,2015 年慶應義塾大学理工学部卒業,2015 年同大学院理工学研究科総合デザイン工学専攻入学.大森研究室所属.. する. 最も大きいメリットの 1 つが,教科書や論文など で学んだ種々の手法を実際のデータで試し,それぞ. 池田春之介 ■ [email protected] 2011 年旭丘高校卒業,2012 年慶應義塾大学理工学部システムデ ザイン工学科入学.大森研究室所属.. 情報処理 Vol.57 No.2 Feb. 2016. 163.
(3)
関連したドキュメント
1991 年 10 月 桃山学院大学経営学部専任講師 1997 年 4 月 桃山学院大学経営学部助教授 2003 年 4 月 桃山学院大学経営学部教授(〜現在) 2008 年 4
講師:首都大学東京 システムデザイン学部 知能機械システムコース 准教授 三好 洋美先生 芝浦工業大学 システム理工学部 生命科学科 助教 中村
土肥一雄は明治39年4月1日に生まれ 3) 、関西
(Please note that, because Japanese language proficiency is not required for admission to the Program, the letter of recommendation does not need to be written by a teacher of
1998 年奈良県出身。5
1978年兵庫県西宮市生まれ。2001年慶應義塾大学総合政策学部卒業、
関西学院大学社会学部は、1960 年にそれまでの文学部社会学科、社会事業学科が文学部 から独立して創設された。2009 年は創設 50
①中学 1 年生 ②中学 2 年生 ③中学 3 年生 ④高校 1 年生 ⑤高校 2 年生 ⑥高校 3 年生