統計の予測モデル(線形回帰、ロジスティック回帰)で多重共線性タブでVIFが10を超える変数が複数あった時にどの変数を除くべきですか?

下記のように統計の予測モデル(線形回帰、ロジスティック回帰、など)多重共線性タブでVIFが10を超える変数が複数あったとします。

image

まずはVIFが10を超えている変数を除くと良いと思いますが、複数ある時には一つだけ減らしてみて再度実行すると、高い値のVIFがすべてなくなるという場合もありますので、一つずつ取り除くことをおすすめします。

また、どの変数を除くのかという観点では、線形回帰で効果をみたい変数は残し、あまり見なくても良い変数は除くといった形で選んでいくと良いかと思います。

今回の例では、部署と職種には階層関係がありますが、見たい変数が職種なのであれば、部署を予測変数から除くことでVIFが10を超える変数がなくなったことが確認できます。

image