ランダムフォレストで予測変数同士に相関が強いものを使っても良いのでしょうか？

Takato_Shiroto · 2021 年 3 月 2 日午前 10:03

線形回帰やロジスティック回帰などは、予測変数同士に相関が強い変数がある場合は、多重共線性の問題が起きることがありますが、ランダムフォレストの場合は、予測変数同士に相関がある場合は重要度を奪い合ってしまうということがあります。

また、ランダムフォレストなどの機械学習系のモデルでは、予測に使いやすい（条件を作りやすい）変数として数値データが選ばれやすいと言った特徴もあったりします。

そのため、どの変数が目的変数に対して重要なのかを判断する際には、線形回帰などの統計モデルを使用するとよいかと思います。