追記
この記事の内容は古くなり、技術書典で出す本の内容は変更となりました。 最新の情報は、技術書典4でKaggleと機械学習についての本を出します。 - currypurin’s diaryにまとめていますので、ぜひ参照ください。
Kaggle&機械学習の薄い本
技術書典3に遊びに行って、自分も技術書を書きたいと思って、はや3ヶ月。
本日、2月4日が、技術書典4の応募サークルの当落発表日でしたが、無事に当選となり、4月22日の技術書典4で薄い本をだせることとなりました。
書く本の内容は以下1.から3.のような内容で、目次は現状サークルカットの画像のとおり。
- Kaggleのタイタニックチュートリアルで、色々なアルゴリズムを使って分析してみて、初サブミットをするというのがメイン。
- アルゴリズムの説明も少しだけする。
- 付録には、Kaggle特有の用語集やmatplotlibでのアニメーションの作成の小技など。
コンセプトは、データ分析をとにかく初めてみたい人が、ブラウザだけで一通り機械学習のさわりを手を動かしながら学べる内容で、本の売りは「手を動かしながら読み進められるので挫折しないこと」と、「Kaggleのカーネルだけで完結するからPythonのインストールなどの環境設定がいらないこと」。
機械学習の勉強しながら書いているので、4月の技術書典4まで全力で取り組んでギリギリ良いものができるかなという感じで、時間が足りないかもという焦りもありつつですが、とにかく良い仕上がりとなるように頑張りたいと思います。
錬金術の本
少し話がかわりますが、上記の機械学習の本は、1人で書いているのですが、そのほかに、技術書典3の後に開催された非公式の打ち上げで盛り上がって(ノリで?)作られた「錬金術」というグループで、技術とお金についての合同誌を出します。
私は、外れ馬券が経費になるかという競馬裁判の概要や、機械学習を使って競馬をやるときに、データをどのように手に入れたら良いかということを書く予定。 元ネタは以前に書いた 外れ馬券に関する3つの最高裁判決についてのまとめ|currypurin|noteや錬金術meetupで発表した内容で、それを少し化粧して出し直すイメージ。現状の目次案は以下のとおり 外れ馬券裁判については、特に平成29年12月20日の最高裁決定は、全然報道もされておらず情報が全然出ていないので、結構頑張って書きました。
終わりに
参考ツイートを貼っておきます。
技術書典4当選しました!あとは書くだけ頑張ります!! #技術書典
— カレーちゃん (@currypurin) February 4, 2018
サークルカット致命的な誤りがあったので、ツイートしなおしw pic.twitter.com/1gBeFWS9Ct
昨日の勉強会でわかったこと1
— カレーちゃん (@currypurin) 2018年2月3日
・タイタニックの映画をみたことがある人は8割〜9割くらい
・ただし、見ていないひとでも話の概要をわかる
ということで、タイタニックはある程度前提知識として持っているとして話を進めても、そんなに悪くない
昨日の勉強会でわかったこと2
— カレーちゃん (@currypurin) 2018年2月3日
・データ分析(scikit-learnを用いた機械学習)の勉強会の参加者でも、Kaggleでsubmitをしたことがある人は2割程度。
・機械学習バリバリやっている人でもKaggleをやったことがない人もいる
これだけで一般化はできないけど、ある程度傾向は捉えているでしょう。
— カレーちゃん (@currypurin) 2018年2月3日
技術書典でKaggleと機械学習の本をデータ分析をまったくやったことない人向けに書く予定だったけど、機械学習を少しかじっていてKaggleやったことがないって人向けに書く選択肢もできた感じ。