こんにちは
3/5-3/13の期間で開催されていたatmaCupという機械学習コンペに初めて参加してきました。
public119->private143(↓24)/298(サブしてる人数)と結果は振るわなかったですがとてもいい経験になりました。
コンペサイト→#10 [初心者歓迎!] atmaCup
コンペ関係者の皆様、このような機会を設けていただきありがとうございます。
入賞者の方々、おめでとうございます。
参加者の方々、お疲れさまでした!
なぜ参加したか
atmaCupについては#6の頃から認知はしていました。なぜ参加してなかったかというと、kaggleのコンペマスターを目指していたからです。
ではなぜ今回参加したのかというと、日本語で情報収集ができると思ったからです。[初心者向]と書いてあったことも大きいですが、やはり日本語で学ぶことができることは大きいです。
思ったとおりだった?
思ったとおりでした。いや、それ以上のものがありました。
なにがよかった?
下記、良かったと思うものを並べていきます。atmaCup未参加の方に魅力が一つでも伝わればと思います。
公式の初心者向け講座が神だった
初心者向け?ということで、nyker_gotoさんによる講座がありました。
今回のコンペのデータを題材にして、分析やアプローチに関するyoutube liveがありました。これがとても勉強になりまして、もし周りで機械学習コンペに挑戦してみたい人がいたらとりあえずこれを見なさいと言っていきたいです。
Kaggler-ja Wikiに載ってもいいと思う
日本語のディスカッション
自分はふだんkaggleをやっているので、そこにいる日本の方含めて基本的には英語でのコミュニケーションになります。今回始めて日本語で議論されている環境に入ってなんだか裸の付き合いをしているようなこっ恥ずかしさを感じたりもしましたが、やはり日本語で情報が書かれているのはとても助かりました。
なんとなく情報の質もいいような気も・・・?
www.guruguru.science
最近テーブルコンペで名前を聞くようになってきたTabNetの話題
www.guruguru.science
猛者の知見
www.guruguru.science
自然言語へのアプローチ
www.guruguru.science
ドメインに少し詳しくなれるもの
データ規模
他の回に参加していないのでなんとも言えないですが、今回のデータは比較的小規模なテーブルデータで入門にもいじくり回しやすい点もいいと思いました。
自分の取り組み
怠惰かましてしまいましてあまり出来ませんでしたが今回の自分の取り組みを・・・
- 初心者講座の写経
- まずは講座の内容を自分で実装してみました。
- CV:1.1219,LB:1.1048
- ディスカッションからピックアップして見る
- タイトルの言語判定特徴
- データを見て何語かが特徴量になるのでは?という発想には脱帽です・・・
- fast textで何語かという特徴量を作成して、初心者講座のOneHotEncodingBlocksにぶち込みました。
- CV:1.0930,LB:1.0491
- sub_titleから作品のサイズを抽出して単位をmmに統一する
- 縦と横のサイズに加えて自分で面積と縦横比も作ってみました。
- CV:1.0699, LB:1.0314
- materialの取り扱い
- こちらはmaterialをOneHotEncodingまでのコードが提供されていたのでそのまま組み込みました。
- CV:1.0529, LB:1.0179
- タイトルの言語判定特徴
- 最後に少しだけチューニングとアンサンブル
- LB:1.0134
最終的に特徴量重要度は下記のようになりました。
BERTや他のディスカッションを読み切る時間はありませんでした。
これまでkaggleで1週間でサブで来たことがなかったので、1週間という期間の中でサブして、少し実験してというのはいい経験になったと思います。もっと強くなってまた戦いに来たいです。
終わりに
またtwitter等で募集をするのですが、 GWを期間に含むkaggleコンペにチームで参加したいです。仲間に入れてくれる方、興味が有る方からの連絡待っています。