変数重要度については、下記のセミナーにて詳しく紹介しておりますので、そちらをご参考ください。
また、変数重要度の仕組みについては、以下のようになります。
- 1つの予測変数を除いて(厳密にはシャッフルして)モデルを作り、除かなかった場合に比べて予測精度がどれだけ悪くなるのかを計算する。
- これを全ての変数で繰り返す。
- どれだけ予測精度が悪くなるのかというスコアをもとに、それぞれの変数の相対的な重要度を評価する。
計算の概念の例:
- 変数Aが含まれる時の予測精度: 90
- 変数Aが含まれない時の予測精度: 50
- 変数Aの重要度 = 90 - 50 = 40
詳細は以下をご覧ください。
変数重要度の計算の際にはmmpfパッケージのpermutationImportanceを使用しています。
この変数重要度の計算の際には、線形回帰のように数値を目的とした予測モデルであれば、「平均二乗誤差」を利用しています。ロジスティック回帰のようにロジカル型を目的とした予測モデルでは、「誤分類率」を使用しています。
変数重要度の具体的な計算式に興味がある場合は、下記のページが参考になるかと思います。