【Kaggle挑戦記】MLB コンペ 31th 銀メダルでした【#10】

f:id:teyoblog:20210915211906p:plain

こんにちは

本日MLBコンペのprivateリーダーボードが確定されて無事初めての銀メダルを手にすることができました。

銀メダルはコンペティションマスターになる条件の1枚ですのでやっと一歩目を踏み出せたなという思いです。

取組内容

取組内容に関してはすでに記事になっているので下記記事を参考にしてください。

teyoblog.hatenablog.com

ちょっとだけ考察

本コンペは締切が7/31で、8/1以降のデータをprivate testデータとしてhostが頑張ってデータを作って評価を行う形式でした。

実際には10日おきくらいでそれまでの10日分、20日分、30日分のデータでスコアの計算が実施され、都度自分の提出サブ2つのスコアの遷移を確認することができました。（メモは取り忘れました。

私が提出したモデルは学習方法、特徴量、モデル等はほとんど同じで、2021年シーズンだけで学習したもの以下①と、全シーズンで学習したもの以下②を提出しました。2回目の再計算までは①が優位だったのですが最終的な結果では②が逆転していました。LBでも2回目実行時60位くらいから31位まで上がったためこの期間のデータはちょっと異質だったのかな？って思います。（確認はできません・・・）

銀メダルとれた要因

大きく2つあるのかなと思ってます。

再計算で半分くらいのチームが脱落した
852チームサブを提出していたのですがprivate testデータで動いたチームが434チームです。その中でも1サブは死んでるというチームも多く見られました。（public testデータで rosterになぜかnanがあることはわかっていて、サブミッションエラーも出たためそこら編は対策できてるはずなのでどこでサブミッションが死んだのかは見当がつきません・・・
今シーズンのデータを学習に使った
コンペ開催当初から与えられていたデータには今シーズンのデータがかなり少ないです。公開ノートでも2021年3月までのデータをtrainとして2021年4月をvalidとして学習しているため、今シーズンのデータは学習に使えていない状態です。7月下旬に追加で配布された5/1-7/17までのデータと、コンペ締め切り後に更に追加される7/31までのデータを学習に使うような構成にしておくことは必須だったと思います。（lag特徴量を使うなら特に）
もう確認できないpublic LB様子的に今シーズン5/1-7-31のデータ学習に使ってないチームがある程度いたのではないかと思います。その点で少し手法が劣っていても学習データ分でのし上がれた気がします。

あとはラベルの統計データもなるべく直近のラベルを使うようにしたことも影響があったかもしれません。

金メダルに足りなかったもの

まだソリューションを詳しく読めてないですが、ラグ特徴量やモデルのバリエーション部分は必須なのかなと感じました。

おわりに

今回kaggleを初めて約1年3ヶ月でやっと1枚目の銀メダルを手に入れることができました。エキスパートまでは比較的スムーズに行けた気がするのですが、そこから銀メダルを取るということは遠かったです。冒頭に書いたとおりこれで目標であるコンペマスターへの道がやっと一歩進んだなと思ってます。引き続き努力を続けていきたいと思います。

どんな人が1年位で銀メダルとったの？ときになる方は下記をご参考ください。 teyoblog.hatenablog.com