tidymodelsによるtidyな機械学習（その2：Cross Varidation）

R Random Forest recipe tidymodels rsample yardstic parsnip 機械学習 tidyverse purrr

はじめに前処理 Cross Validation ハイパーパラメータのサーチまとめ参考はじめに本記事ではtidymodelsを用いたCross Validationとハイパーパラメータのチューニングについて紹介したいと思います。なお、tidymodelsの基本的な操作方法については以下…

変数重要度とPartial Dependence Plotで機械学習モデルを解釈する

EDA interpretable machine learning Random Forest R 機械学習

はじめにモデルの学習変数重要度 Partial Dependence Plot まとめ参考はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱え…

tidymodels R 機械学習 Random Forest rsample recipe yardstic parsnip

目次目次はじめに tidyな機械学習フロー訓練データとテストデータの分割特徴量エンジニアリングモデルの学習モデルの精度評価まとめ参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodels…

Python 正則化 Ridge regression シミュレーション回帰分析 scikit-learn

はじめに本記事では回帰係数の推定方法としてのRidge回帰（L2正則化）の使い所について考えたいと思います。結論から言うと、サンプルサイズが不十分な状況下でRidge回帰を用いてより真の値に近い回帰係数を得る確率を高めるという使い方ができそうです。 …

R purrr broom tidyverse tidymodels 回帰分析 EDA

私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方で…