【Kaggle】2回目のコンペ感想【小麦コンペ】

本記事では、テーブルコンペ（時系列データ）に1回だけ参加したことがある機械学習初心者が小麦コンペに約2週間だけ取り組んだことについて色々書きます。

結果としてはnotebookをそのままsubmitしてプライベート上位50%です。

kaggleをやったことない人、これからやってみようとしてる人にむけて「素人が2週間取り組むとこんな感じだよ」という雰囲気になると思います。

コンペ中にとったメモをもとに書きますが、正しい認識をもとににかけてるとも限らないので、信じすぎないよう、指摘等お願いします。

もうこの時点で2週間きっているのですが、主目的としては画像コンペってどういうことをしているのか？を少しでも学ぶことです。

色々概要を読んでわかったのですがコードコンペかつObject Detectionという物体検証タスク種類で、CIFER-10のような画像分類とは違ったものでした。

今回のコンペでは小麦の頭の部分（なんていうかわからん）を矩形で囲みなさいというタスクです。
f:id:teyoblog:20200805212425p:plain:w400

大まかな流れとしては

という流れで、"training-efficientdet"と"inference-efficientdet"のように2つで１つのノートブックが公開されている。

このnotebookの中で大きい矩形のアノテーションは削除してトレーニングしたほうが良いと分析されていましたが、今回は自分で試すことが出来ませんでした。結果に影響が出せるのか気になります。

個人的には今後kerasを勉強していこうと思っているのですがpytorchの勢いが良いように感じてます。実際に小麦コンペの公開notebookを見てもpytorchが多かったのでpytorch学ぶか？となってます。

今回はpytorchのお作法を学ぶまでは余裕がなかったです。

さらっとnotebookを見たり、調べたりした所下記アルゴリズムを発見

ここらへんのアルゴリズムの歴史とか特徴も抑えていかなければいけませんね...

画像タスクで有効と言われてるdata augmentationは物体認識でも有効(というか必須？
テスト時にもTest Time Augmentation (TTA) というデータ拡張のようなものを実施
WBFというアンサンブルのようなものがある
- 物体検出で重なったバウンディングボックスを除去・集約するアルゴリズムのまとめ (NMS, Soft-NMS, NMW, WBF)
Cutout/Random Erasing
- 入力画像をランダムなマスクで欠落させることで、より強い正則化の効果を作り出す