けの〜のブログ

ガッキーでディープラーニングして教育界に革命を起こす

データ分析備忘録

忘れないうちにデータ分析で得た知識を書き留めたいと思います。

 

1 Kaggleのtutorialでデータのいじり方を学ぶ
人のコードを見るとすげー!!ってなります

それで得たいじり方を実際に課題などで試すという感じ

 

2 実践へ

やっぱり実践が一番学びにつながる

僕の場合一通りmoduleの使い方(重回帰分析の使い方など)をさっと学習したらインターンに申し込みました
夏のインターンで、そこで新たにone-hot-dictvectorizerなど新たな知識を身につけました

幸い2位になることができました

一つ一つの特徴量がどれくらい予測したい値に効いてくるかを分析して、あとはそのためにカテゴリー値をone-hotしてあとはロジスティック回帰にぶっこむ!!という超単純な手法でしたが2位を取れました 

でもわからないことが多すぎる

数学的な知識も足りなさすぎる

機械学習の理論も全くわかっておらずこれからしっかり学ばなきゃいけないということを痛感しました

 

3 実際にコンペへ

kaggleではtaxiの運賃予測について自力でやりました

benchmark少し越すぐらいでした

今回長い時間取り組んだのがDeepAnalyticsの引越し数の予測コンペ

最終的に13位くらい行けましたがとても消化不良

 

まず時系列についてどう処理するか

一番効いたのが直近一年間のデータを過学習させて、そのモデルで予測した値に、毎年の伸び率の値を足すという手法

 

外部データを取り入れるのはいいものを家賃動向などのデータは引越しする人がどの時点で考慮に入れるかでどの時点のデータにするか考慮する必要があること

機械学習のモデルがどのように計算をしているかの数学的理解が知りたいなと切実に思いました。なので時間があったら勉強しようかと

 

でもこれからはDeepLearningに手を出すのでしばらくお休みです