Dropout

データサイエンスについて勉強したことを書いていきます。機械学習、解釈性、因果推論など。

Accumulated Local Effects(ALE)で機械学習モデルを解釈する

はじめに Partial Dependence 特徴量が独立の場合 数式による確認 PDの実装 特徴量が相関する場合 PDがうまく機能しない原因 Marginal Plot Marginal Plotの数式 Marginal Plotのアルゴリズム Maginal Plotの実装 Accumulated Local Effects ALEのアイデア A…

因果推論とOLS:OLS推定量は何を推定しているのか(Słoczyński, 2020)

はじめに OLS推定量は何を推定しているのか シミュレーション OLS推定量の理論値の確認 まとめ 参考文献 はじめに こちらの@yohei_econさんのツイートを見て知ったのですが、OLS推定量が一体何を推定しているのかを因果推論の文脈で改めて考え直す論文が発表…

バイアス-バリアンスの分解と、アンサンブルの話

はじめに バイアスとバリアンスの分解 シミュレーションでバイアスとバリアンスの関係を確認する シミュレーションの設定 シミュレーション結果の確認 バイアスとバリアンスのトレードオフを可視化する モデルのアンサンブルでばらつきを抑える アンサンブル…

多重共線性と回帰係数の信頼性の話。あとリッジ回帰。

はじめに 多重共線性とOLS推定量の信頼度 線形回帰モデルの導入 OLS推定量 Annihilator Matrix OLS推定量の別表現 補助回帰 OLS推定量の分散を解釈する シミュレーションによる信頼度の確認 シミュレーションの設定 多重共線性とOLS推定量の信頼度 サンプル…

Influence Functionでインスタンスの重要度を解釈する

モチベーション インスタンス重要度の定義は? Leave One Outによるインスタンス重要度の計算 Influence Functionでインスタンス重要度を近似する 記法の導入 Influence Functionの導出 パラメータの性質 線形回帰モデルの場合 線形回帰モデルのInfluence Fu…

SHAP(SHapley Additive exPlanations)で機械学習モデルを解釈する

はじめに この記事で書いていること、書いていないこと アルバイトゲームとShapley Value 機械学習モデルへの応用 参考文献 はじめに ブラックボックスモデルを解釈する手法として、協力ゲーム理論のShapley Valueを応用したSHAP(SHapley Additive exPlanati…

tidymodelsとDALEXによるtidyで解釈可能な機械学習

はじめに パッケージ シミュレーション1 データ モデル DALEXによる解釈 変数重要度 PDP シミュレーション2 データの作成 DALEXによる解釈 PDP ICE Plot Conditional PDP clusterd ICE Plot まとめ 参考文献 ※この記事をベースにした2020年1月25日に行われた…

tidymodelsによるtidyな機械学習(その3:ハイパーパラメータのチューニング)

はじめに 前処理 ハイパーパラメータのサーチ Train/Validationデータ 前処理レシピ 学習用モデル ハイパーパラメータ チューニング まとめ 参考文献 はじめに 前回の記事ではハイパーパラメータのチューニングをfor loopを用いたgrid searchでやっっていま…

Synthetic Difference In Differences(Arkhangelsky et. al., 2019)を読んだ

はじめに コンセプト セッティング Difference in Differences (DID) Synthetic Control (SC) Synthetic Difference In Differences (SDID) 比較実験 まとめ 参考文献 はじめに GW中にSynthetic difference in differences(Arkhangelsky, D., Athey, S., Hir…

XGBoostの論文を読んだのでGBDTについてまとめた

はじめに XGBoost論文 目的関数の設定 勾配ブースティング まとめ 参考文献 はじめに 今更ですが、XGboostの論文を読んだので、2章GBDT部分のまとめ記事を書こうと思います。*1 この記事を書くにあたって、できるだけ数式の解釈を書くように心がけました。数…

tidymodelsによるtidyな機械学習(その2:Cross Varidation)

はじめに 前処理 Cross Validation ハイパーパラメータのサーチ まとめ 参考 はじめに 本記事ではtidymodelsを用いたCross Validationとハイパーパラメータのチューニングについて紹介したいと思います。 なお、tidymodelsの基本的な操作方法については以下…

変数重要度とPartial Dependence Plotで機械学習モデルを解釈する

はじめに モデルの学習 変数重要度 Partial Dependence Plot まとめ 参考 はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱え…

tidymodelsによるtidyな機械学習(その1:データ分割と前処理から学習と性能評価まで)

目次 目次 はじめに tidyな機械学習フロー 訓練データとテストデータの分割 特徴量エンジニアリング モデルの学習 モデルの精度評価 まとめ 参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodels…

Ridge回帰の使い所を考える

はじめに 本記事では回帰係数の推定方法としてのRidge回帰(L2正則化)の使い所について考えたいと思います。 結論から言うと、サンプルサイズが不十分な状況下でRidge回帰を用いてより真の値に近い回帰係数を得る確率を高めるという使い方ができそうです。 …

purrrとbroomで複数の回帰モデルを効率的に管理する

私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方で…