2018年9月25日 (火) から2018年11月23日 (金) まで開催されていた「【学生限定】マイナビ×SIGNATE Student Cup 2018: Jリーグの観客動員数予測」に参加した感想・反省をつらつら書こうと思います。

最終結果

スコアボード

test期間:29位

最終スコア:19位

微妙すぎて言葉も出ない。

 

参加背景

僕がこのコンペに参加しようと思った背景はいたって単純でただ自分の実力がいまどのくらいなのかを確かめたかっただけだ。

それまでデータ分析について色々と勉強はしてきたが、inputするだけでoutputする機会がほとんどなかった。そんな時にインターン先の方からこのSIGNATEというサイトを教えてもらいこのコンペを見つけ、ちょうどいい機会だと思い参加を決めた。

それはコンペ開始から約1か月半経った締め切り約2週間前の11月7日のことだった。

 

反省点

反省点としては主に2つある。

  1. 特徴量選択
  2. コンペ経験の薄さ

2つとは言うものの1について反省点がありすぎる。

 

特徴量選択

これは完全に自分の頭の固さ、知識の浅さが出てしまった。

最初に僕が最終的に特徴量として入れたものを見ていただきたい。

  • 気温のカテゴリー(5~10℃,10~15℃, 15~20℃, 20~25℃, 25~30℃, 30℃~)
  • 放映局のダミー変数
  • ホームチームのダミー変数
  • アウェイチームのダミー変数
  • ホームチームの前節までの順位
  • アウェイチームの前節までの順位
  • 天候ダミー変数(雪、雷、霧も雨としてカウント)例:晴れのち曇り⇒晴:1、曇:1、雨:0
  • 休日ダミー変数
  • セクション
  • 開催年
  • 開催月
  • 開催日
  • キックオフ時間

 

これは今回1位になられたnadareさんが公開していたコードをほとんど参考にしている。

この特徴量についてだが、僕はサッカー経験者で何回もJリーグの観戦にも行ったことがあり、だいたいこんな感じの特徴量が効いてくるだろうと理解しているつもりでいて上記の特徴量を選択した。この特徴量で予測した結果は、それまでに出した結果よりもかなりよく、それまで40位台だったが20位台に一気に上がることができた(それまで入れていなかった「前節までの順位」がかなり効いていたからかな)。

そんな結果を受けて僕の特徴量選択に関する思考は完全に停止してしまった。「あとはモデル選択、パラメータ調整の問題だ」と。それは締め切り1週間前の11月16日。

完全に甘かった。それからというものモデル選択でスタッキングなど色々と試したが全く上がらないではないか。なんやねんとしか思わなかった。そうして締め切りは容赦なく訪れた。結局1週間前から成果を上げられず儚く散った。

原因は分かっている。冒頭でも挙げた「頭の固さ」と「知識の浅さ」だ。

頭の固さ・知識の浅さ

特徴量として最終的な特徴量を決めるまで「J1昇格組」「J1残留年数」など入れていたがうまくいかず、最終的な特徴量を決めた時まあこんなもんだろう思いそれから考えるのをやめてしまっており、完全に固定観念にとらわれてしまった。ここはいつも思うのだが1点に集中すると幅広い観点から問題を見ることができない自分の悪い癖である。

またまだまだ機械学習についての理論は付け焼刃のものしかもっていないのでモデル選択、パラメータ調整の勝負だと思いそっちにシフトしてしまったのも問題点の1つだと感じる。

コンペが終わってから良い結果を残された方の特徴量をみてみると自分には到底思いつかないだろうというものを入れていて自分の不甲斐なさを改めて実感する。

例えば以下の記事にあるtest期間1位のmoratoさんの作った特徴量には驚かされた。

Jリーグコンペの後日譚々

チームのトレンドにgoogleトレンドの値を入れたことはさることながら、特にワールドカップの影響や災害の影響を考慮している点がすごすぎて、もうね、あれです(語彙力皆無)。

この方は社会科学の出身の方だそうで経済学の動学モデルからこの特徴量を思いついており、統計、機械学習などの知識ではなく幅広い知識を活用して他の人には到底真似することのできない独自の特徴量を構築しており、もうね、あれです(語彙力皆無2回目)。

 

また今回1位になられたnadareさんが特徴量を公開されていたのだが↓

https://pbs.twimg.com/media/DtqbKYeUwAUALhD.jpg

どのような特徴量の設計を行っているのか少ししか概要が見えないので19日のアフターイベントまで楽しみに待っておこう。

 

コンペ経験の浅さ。

提出回数が限られているのでもっと提出に対し慎重にならなければなと思った。

提出に関して僕は特徴量1つ増やしたりしたときや、モデルをちょっと変えただけで提出を行っており提出回数をかなり無駄遣いしてしまった。もっと検証データの評価とか気にして提出するものをもっと吟味するべきであったと思う。

これは単純に自分のモデル評価とかに関する知識の甘さが生んだ結果なのであろう。

 

今後について

少しだけ今後について話すと、僕は何かを開発するような0から1を作るのは得意ではないので、データ分析から施策提言、実行まで行えるような0.5から100ぐらい。いや10000、これでも足りん1恒河沙を創出できるような人間になっていきたい。

そのためにも今回の結果を胸に刻み今後もっともっと知識を詰め込みさらに精進していければと思う。反省だけしていても仕方がないので反省はここまで。。。

 

ほいじゃ。

 

Written by Taiga.

スポンサーリンク