機械学習を基礎から見直すためにPRML(パターン認識と機械学習)の学習を始めてみた話
こんばんは、ひぐです。
卒論と学会論文とインターン(楽しい)のプロジェクトがかぶって、泡吹いています
今日はPRMLをやっていくぞという話をします。
難しい難しいとさんざん言われていますが、
数学苦手な自分なりに取り組み方がすこしわかってきたので、他の人の参考になればなと思います。
まだ、やっている途中なので間違った表記や表現が含まれる可能性があります。(T_T)
自分のスペック
・地方国立大4年
・入学後は3年生の秋までサークル漬けでした
・学部はゴリゴリの理系(工学・情報系)だったので大学の
線形、微積分、確率はやったことはある(一夜漬けばっかでしたが)
・数学は結構苦手(センター数Ⅱ54点…)
・いろいろな参考書を買うけど、どれも味見程度(はじパタ、0からDL、達人サイエンティストによる理論と実践などなど…)
PRMLってなに?
これです。下巻もあります。
割と網羅的に理論を追って機械学習について根っこから解説されており、
名著と呼ぶ方も多くいらっしゃいます。
ただ、線形代数、確率論、微積分などの計算量がかなり多く、挫折者を多く生んでいるとか汗
なんで始めようと思ったの?
自分は5月ごろから機械学習の勉強を始めました。
今まではいろいろな参考書やQiitaをちょっとずつかじったり、
kaggleをすこーしだけやって勉強していました。
知識が飛び飛びで難しいモデルに対してはよくわかんないけどとりあえずコードコピペしちゃえ!
みたいな感じだったのです。
しかしこれではいつまでたっても本質的な力はつかないなと思い腹をくくって始めました。
あとは、自分は勉強をかなり適当に済ませて、やった気になる癖があるので
2019年はそういうのをなくしていきたい!と思い、重めの本を腰を据えてやることにしました。
どうやって進めているの?
今の自分だとこの本だけだと、かなり厳しいので随所調べながら進めています。
仮にも理系の4年生だというのに出来ないのは悲しいですが、今までのツケを支払っていきたいと思います;;
具体的には一つずつ数式を追っていき、理解できない式展開が行われた場合は手計算をしてみるといった感じです。
1ページに30~50分くらいかかるときもあります。
有名な本で勉強会が多く開かれているため、slideshareなどの資料を参考にすると良いと思います。
また、過去にこの本を読み進めるにあたって必要な数学の知識をPDFに
まとめてくださったかたがいらっしゃいます。(神)
こちらも参考にしてみてはいかがでしょうか。
また、PRMLを進める前にベイズについて勉強しといたほうがいいよといわれたので、事前にこの本でベイズ統計については学んでいました。
この本はかなり丁寧なのでおすすめです。僕的には結構難しかったです。
現在の進捗
1章をサラッと進め、2章をじっくりやっています。
2.3くらいまでは終わりました。
今年度中には終わらせたいです。
感想
確かに難しいですが、きっちりやればかなり力がつくと思います。
そして今まで何となくの理解だった部分が腑に落ちた!
ってなる部分がいっぱいあります。
例えば、
多次元曲線で過学習が起きるのは各係数が非常に大きくなるからとか、
ベータ分布は二項分布の事前分布として導入するとすっきりする、とか…!
(↑このあたり間違ってたらごめんなさい)
kaggleや最新の研究では主流じゃないようなすこし古いモデルや、手法も出てくるので
効率的でないと思った節もあったのですが、
この本の意義としては、
機械学習、深層学習で必要になってくる数学の知識と理論を一定水準まで引き上げられる。
ことだと思います。ですので、式展開とかもちゃんと追っていきたいです。
この本が読み終われば、大抵の論文の式変形などにウッってならなくなりそうです。
まとめ
サクッっと書かせていただきました。
研究室の先生にはいつも
「わかるとは『人にわかりやすく説明できる』こと」
と言われているので、とりあえず流して終わったぞ~ってならない様にブログで
アウトプットできたらなと思います💦
そんなこんなでやっていくぞという気持ちです、途中でやめない様に記事にしました。
一緒に勉強してくれる人も募集しております。
では~