kaggle全力でやります

kaggle masterを目指してやったことを、記録します

Kaggle Tokyo Meetup #5参加レポート&資料のリンク

この記事は、KaggleAdventCalender2018 1日目の記事です。

12月1日に開催された、Kaggle Tokyo Meetup#5 に参加・発表してきたので、参加レポートを書きます。

Kaggle Tokyo Meetupとは

  • 半年に1回程度開催される、国内最大のkaggleのMeetup
  • 発表される内容が充実しており、とても参考になる

第5回の内容

f:id:currypurin:20181201132836p:plain

発表された方の資料と感想

Avito 9th Place Solution & 中国Kaggle事情

Kaggle Tokyo Meetup #5 - connpassで金メダルを獲得したという発表。

  • 作った特徴をコード付きで書いてくれている
  • 多様性のために、たくさんのモデルを作った(スライドの25頁)
  • Netflix blendという手法を使って、315位の公開Kernelも混ぜた(スライドの28頁)

などが印象的。

Home Credit 2nd place solutions ~ お通夜から始まったドラマ ~

過去最大の参加人数となった、Home Credit Default Risk | Kaggleコンペで2位になったという発表。
12人というチームが出来上がるまでの過程の発表だけでも見応えがあり面白かった。
12人のチームのうち日本人は8人で変わるがわる発表されていたが、だれもが自分の役割をしっかりとこなそうと、工夫されていたのがすごかった。
チームのために何をするのがベストなのかということを考えぬいてこその結果なのだと思う。

Santander Value Prediction Challenge 17th Solution

Santander Value Prediction Challenge | Kaggleコンペで17位を獲得したという発表。
コンペのために初任給でPCを購入し、いきなり金メダルを獲得するという素晴らしい話。

スライド17頁のシードアベレージングの時にパラメーターチューニングをするべきではなかった。という箇所の議論がとても参考になった。
シードを変えるだけだとモデルの多様性は得ることができないので、そのためにパラメータチューニングをしても意味がないし、するべきではないという感じ。(現場ではもっと深い議論がされていました)

Santander 8th Solution~気合いでとったソロゴールド~

私の発表。ひとつ前の発表と同じSantanderコンペで8位を獲得したという発表。
前後が有意義すぎる発表の中で、とても恐縮する感じですが、発表することとなったので全力でやってきました。

今後のコンペにつながる手法はほとんどありませんでしたが、あきやまさんから有り難い言葉をいただけたので、それだけでもやった価値はあるでしょう。

PFDet: 2nd Place Solutions to Open Images Competition

Google AI Open Images - Object Detection Track | Kaggleで2位を獲得したという発表。
v100を512個つかった分散学習という、一般人からは想像もつかないスケールの話であった。
スライド47ページ目の物体検出の手法のまとめは、コンペをする時に使えそう。

LTパートの資料と感想

LightGBMを少し改造してみた

LightGBMのコードをいじってカテゴリ変数の扱いを工夫してみたという、全然ライトではない発表。
既存のライブラリが何をしているかの理解、課題の発見、課題の改善、検証という工程を、参加者が理解できるように発表し、できるかもと感じさせてしまう発表者のかたの技量が素晴らしかったです。

日本初の競技機械学習大会"Cpaw AI Competition"の運営

日本初の競技機械学習大会Cpawを運営されている方の発表。
5時間程度で、環境の構築から複数の問題(最大で5問)の回答までを行わないという鬼畜なコンペで、楽しそうな様子が伝わってきました。

私もこんど参加してみたいです。

kaggler-ja driven learning

upura.hatenablog.com

kaggler-jaには初心者にも気軽に参加できる「日本のデータ分析コミュニティ」では在り続けてほしい

という発表者の思いが詰まった発表でした。(詳しくは上記のブログから)

生い立ちから、人間の本質までもカバーする、とても深い発表で、もっと話を聞いてみたいですが、u++にはまたどこかでお会いして話を聞けそうな気がしています。

RSNA Pneumonia Detection Challenge 6th Place Solution

6th place solution: U-net-like segmentation | Kaggle

肺炎コンペと言われるRSNA Pneumonia Detection Challenge | Kaggleで、6位を獲得したという発表。

発表者は、元医者の方で肺炎コンペに取り組んだ。(ドメイン知識は効かなかったようだ) コードもgithubに公開されており、見るだけでも参考なりそう。

TGS Salt Identification Challenge 12th place solution

大学2年生の夏休みをKaggleに捧げ、TGS Salt Identification Challenge | Kaggleコンペで金メダルを獲得したという発表。
発表内容も素晴らしかったですが、私も大学生に戻ってkaggleをやりたいと思ってしまいました。

非公式二次会と全体をとおしての感想

公式のものではありませんでしたが、会場に最後まで残って帰るタイミングが一緒だった21人で近くの居酒屋に行き、1時間とちょっと色々な話をしました。
周りが、kaggleが強い有名人ばかりで、話していて面白いことばかり。

Meetupも同じですが、資料を見るだけではわからない、現場にいたり、直接話してみないと伝わらないことがたくさんあり、Meetupに参加したり、二次会に参加することは有意義だと思いました。
このような素晴らしい会を企画いただいた運営の方や、会場の提供してくださったスポンサーの方にただ感謝するばかりです。

次回までに、素晴らしい結果を残してまた発表したいと思いました。