Dropout

データサイエンスについて勉強したことを書いていきます。機械学習、解釈性、因果推論など。

2019-01-01から1ヶ月間の記事一覧

tidymodelsによるtidyな機械学習(その2:Cross Varidation)

はじめに 前処理 Cross Validation ハイパーパラメータのサーチ まとめ 参考 はじめに 本記事ではtidymodelsを用いたCross Validationとハイパーパラメータのチューニングについて紹介したいと思います。 なお、tidymodelsの基本的な操作方法については以下…

変数重要度とPartial Dependence Plotで機械学習モデルを解釈する

はじめに モデルの学習 変数重要度 Partial Dependence Plot まとめ 参考 はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱え…

tidymodelsによるtidyな機械学習(その1:データ分割と前処理から学習と性能評価まで)

目次 目次 はじめに tidyな機械学習フロー 訓練データとテストデータの分割 特徴量エンジニアリング モデルの学習 モデルの精度評価 まとめ 参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodels…

Ridge回帰の使い所を考える

はじめに 本記事では回帰係数の推定方法としてのRidge回帰(L2正則化)の使い所について考えたいと思います。 結論から言うと、サンプルサイズが不十分な状況下でRidge回帰を用いてより真の値に近い回帰係数を得る確率を高めるという使い方ができそうです。 …

purrrとbroomで複数の回帰モデルを効率的に管理する

私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方で…