Dropout

データサイエンスについて勉強したことを書いていきます。機械学習、解釈性、因果推論など。

2019-01-01から1年間の記事一覧

SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する

SHapley Additive exPlanations SHAP Random Forest Python interpretable machine learning ゲーム理論 shapley value 機械学習

はじめにこの記事で書いていること、書いていないことアルバイトゲームとShapley Value 機械学習モデルへの応用参考文献はじめにブラックボックスモデルを解釈する手法として、協力ゲーム理論のShapley Valueを応用したSHAP(SHapley Additive exPlanati…

tidymodelsとDALEXによるtidyで解釈可能な機械学習

R Random Forest parsnip tidymodels interpretable machine learning ICE PDP 機械学習

はじめにパッケージシミュレーション1 データモデル DALEXによる解釈変数重要度 PDP シミュレーション2 データの作成 DALEXによる解釈 PDP ICE Plot Conditional PDP clusterd ICE Plot まとめ参考文献 ※この記事をベースにした2020年1月25日に行われた…

tidymodelsによるtidyな機械学習（その3：ハイパーパラメータのチューニング）

R Random Forest parsnip purrr recipe rsample tidymodels tidyverse yardstic 機械学習 tune dials

はじめに前処理ハイパーパラメータのサーチ Train/Validationデータ前処理レシピ学習用モデルハイパーパラメータチューニングまとめ参考文献はじめに前回の記事ではハイパーパラメータのチューニングをfor loopを用いたgrid searchでやっっていま…

Synthetic Difference In Differences(Arkhangelsky et. al., 2019)を読んだ

因果推論 Synthetic Control Difference In Differences Python

はじめにコンセプトセッティング Difference in Differences (DID) Synthetic Control (SC) Synthetic Difference In Differences (SDID) 比較実験まとめ参考文献はじめに GW中にSynthetic difference in differences(Arkhangelsky, D., Athey, S., Hir…

XGBoostの論文を読んだのでGBDTについてまとめた

GBDT XGBoost

はじめに XGBoost論文目的関数の設定勾配ブースティングまとめ参考文献はじめに今更ですが、XGboostの論文を読んだので、2章GBDT部分のまとめ記事を書こうと思います。*1 この記事を書くにあたって、できるだけ数式の解釈を書くように心がけました。数…

tidymodelsによるtidyな機械学習（その2：Cross Varidation）

R Random Forest recipe tidymodels rsample yardstic parsnip 機械学習 tidyverse purrr

はじめに前処理 Cross Validation ハイパーパラメータのサーチまとめ参考はじめに本記事ではtidymodelsを用いたCross Validationとハイパーパラメータのチューニングについて紹介したいと思います。なお、tidymodelsの基本的な操作方法については以下…

変数重要度とPartial Dependence Plotで機械学習モデルを解釈する

EDA interpretable machine learning Random Forest R 機械学習

はじめにモデルの学習変数重要度 Partial Dependence Plot まとめ参考はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱え…

tidymodelsによるtidyな機械学習（その1：データ分割と前処理から学習と性能評価まで）

tidymodels R 機械学習 Random Forest rsample recipe yardstic parsnip

目次目次はじめに tidyな機械学習フロー訓練データとテストデータの分割特徴量エンジニアリングモデルの学習モデルの精度評価まとめ参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodels…

Ridge回帰の使い所を考える

Python 正則化 Ridge regression シミュレーション回帰分析 scikit-learn

はじめに本記事では回帰係数の推定方法としてのRidge回帰（L2正則化）の使い所について考えたいと思います。結論から言うと、サンプルサイズが不十分な状況下でRidge回帰を用いてより真の値に近い回帰係数を得る確率を高めるという使い方ができそうです。 …

purrrとbroomで複数の回帰モデルを効率的に管理する

R purrr broom tidyverse tidymodels 回帰分析 EDA

私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方で…