【Kaggle挑戦記】鳥コンペ銅メダル取組内容【#3】

f:id:teyoblog:20200917234404p:plain:w150
こんにちは

kaggle登録して3回目のコンペに参加してきました。

結果はpublic53位→private127位/1395で上位10%の銅メダルフィニッシュです。
publicが銀圏内だっただけにshake downでの銅は悔しいものがありますが、上位解放と比べると工夫ができてないのでまだまだ精進が必要です。

さて、今回コンペについて、取組内容と感想を書きたいのですが、一緒の投稿にすると見にくくなると思うので今回は取組内容について振り返っていきます。

違う畑の人や、興味のある人に、こういうことをやるんだなってことが伝われば幸いです。

鳥の鳴き声を学習して、与えられた音声データ内でどの種の鳥が鳴いているかを推定するタスクでした。
※今回の対象は264種類

ということで鳥の鳴き声をうまく認識できることは副効果がかなり大きいようです。

音声データの機械学習はまず画像に変換して画像分野の手法を用いることが多いです。
スペクトログラムや、メルスペクトログラムなどがあります。いずれも縦軸に周波数、横軸に時間を取ります。

イメージとしては1枚目の画像のような波形を2枚めのような画像にします。
f:id:teyoblog:20200917232740p:plain:w300

f:id:teyoblog:20200917232822p:plain:w300

画像にしないでそのままつかうアプローチもあるようですが、勉強不足なため割愛します。

メルスペクトログラムは人の聴覚に合わせたスケールを用いた変換なので、このスケールをカスタムして鳥の鳴き声の周波数帯を広く捉えられる画像に変換するのも手かと思いました。
いかに鳥が鳴いている部分を使って学習するかということのほうが重要だったかもしれません。

すべてnocallで提出すると0.544になる
- nocallかどうかを判別するためのモデルを作るの手
  - 私達はしきい値でnocallは割と出現するので特に対策はしませんでした。
trainデータとtestデータで背景音やノイズの大きさが違う
- 与えられたsample testデータを聞く限りtestデータのほうがノイズが大きいようでした
  - 後述しますがノイズを加えたり、逆にでノイズするアプローチが考えられます

solution

それでは最終的な私達のsolutionを書いていきます。
基本的には公開notebookをベースにさせていただきました。
www.kaggle.com

まずは音声データ状態でDataAugmentをします。参考サイト
qiita.com

ノイズについては、testデータとtrainデータの波形と画像を見比べながらどれくらい加えるか判断しました。

このような変化をします。3つの変換を確率的に行うため、8種類の処理方法が生まれます。 f:id:teyoblog:20200917233352p:plain

音声データをメルスペクトログラムに変換します。

メンバーが作成したため参考サイトがわかりません...

f:id:teyoblog:20200917233936p:plain

比較的新しい音声認識におけるデータ拡張方法ということで採用。
時間軸、周波数軸に沿ってマスクを掛けます。

f:id:teyoblog:20200917234106p:plain

以上が主な処理です。なんとまぁ単純。　その他設定を下記に記します

最終的には5fold文のモデルを作成しましたがその中からpublicで精度が出ていた3つをピックし、それがprivateの記録になっています。

p=1でノイズを加える
- testにノイズレベルを合わせるために行いました
- testにも同じようにノイズをくわえたほうがまだ成績が良かった
denoise
- testをtrainに近づけようと思って実験
TTA
- 推論時にwavetransformを行って4つの推論結果をアンサンブルしてみましたが振るわず
efficientnet
- 違うモデルで学習した結果とアンサンブルしようと思ったがあまりうまく学習できず
データを増やす
- 追加データを用意してくれた方がいたので、上限を100にしてサンプルが少ない鳥に対してデータ数自体を増やしましたがあまり精度の工場は確認できませんでした。
- https://www.kaggle.com/rohanrao/xeno-canto-bird-recordings-extended-a-m
ESResNet,PANNs,SED
- 実装できませんでした。
CV
- 実装できませんでした。