ランダムフォレストで変数重要度がマイナスになってしまう時の解釈について

変数重要度ではPermutationという手法を使用しており、下記のような仕組みになっています。

  • 1つの予測変数を除いてモデルを作り、除かなかった場合に比べて予測精度がどれだけ悪くなるのかを計算する。
  • これを全ての変数で繰り返す。
  • どれだけ予測精度が悪くなるのかというスコアをもとに、それぞれの変数の相対的な重要度を評価する。

変数重要度の詳細は下記のセミナーをご覧ください。

まずは変数重要度がプラスになる時とマイナスになる時の2つの例を簡単な計算で紹介をします。

変数重要度がプラスの時

変数が含まれる時の予測精度: 90
変数が含まれない時の予測精度: 50
変数重要度 = 90 - 50 = 40

変数重要度がマイナスの時

変数が含まれる時の予測精度: 20
変数が含まれない時の予測精度: 30
変数重要度 = 20 - 30 = -10

上記の計算にあるように、特定の変数があった時の予測精度に比べて、その変数を除いた時の方が予測精度が良いという時に変数重要度がマイナスになってしまいます。そのため、変数重要度がマイナスになるケースの多くは、あまり関係のない変数のことが多いかと思います。

「いいね!」 1